Un sistema di apprendimento automatico mira a determinare se una testata giornalistica è accurata o distorta. Credito:dominio pubblico
Ultimamente il mondo del fact-checking è stato un po' in crisi. Siti come Politifact e Snopes si sono tradizionalmente concentrati su affermazioni specifiche, il che è ammirevole ma noioso:quando hanno finito di verificare o smentire un fatto, c'è una buona probabilità che abbia già viaggiato in tutto il mondo e viceversa.
Anche le società di social media hanno avuto risultati contrastanti limitando la diffusione di propaganda e disinformazione:Facebook prevede di averne 20, 000 moderatori umani entro la fine dell'anno, e sta spendendo molti milioni per sviluppare i propri algoritmi di rilevamento di notizie false.
I ricercatori del Computer Science and Artificial Intelligence Lab (CSAIL) del MIT e del Qatar Computing Research Institute (QCRI) ritengono che l'approccio migliore sia quello di non concentrarsi sulla fattualità delle affermazioni individuali, ma sulle stesse fonti di notizie. Usando questa virata, hanno dimostrato un nuovo sistema che utilizza l'apprendimento automatico per determinare se una fonte è accurata o politicamente distorta.
"Se un sito web ha già pubblicato notizie false, ci sono buone probabilità che lo facciano di nuovo, " dice il socio postdottorato Ramy Baly, autore principale di un nuovo articolo sul sistema. "Raschiando automaticamente i dati su questi siti, la speranza è che il nostro sistema possa aiutare a capire quali potrebbero farlo in primo luogo."
Baly afferma che il sistema ha bisogno solo di circa 150 articoli per rilevare in modo affidabile se una fonte di notizie può essere attendibile, il che significa che un approccio come il loro potrebbe essere utilizzato per eliminare i punti vendita di notizie false prima che le storie si diffondano troppo ampiamente.
Il sistema è una collaborazione tra scienziati informatici del MIT CSAIL e QCRI, che fa parte dell'Università Hamad Bin Khalifa in Qatar. I ricercatori hanno prima preso i dati da Media Bias/Fact Check (MBFC), un sito web con verificatori di fatti umani che analizzano l'accuratezza e le distorsioni di più di 2, 000 siti di notizie, da MSNBC e Fox News alle content farm a basso traffico.
Hanno quindi fornito tali dati a un algoritmo di apprendimento automatico chiamato classificatore Support Vector Machine (SVM), e lo ha programmato per classificare i siti di notizie allo stesso modo di MBFC. Quando viene data una nuova fonte di notizie, il sistema è stato quindi preciso al 65 percento nel rilevare se ha un alto, basso o medio livello di "fatalità, " e circa il 70% preciso nel rilevare se è inclinato a sinistra, orientato a destra o moderato.
Il team ha stabilito che i modi più affidabili per rilevare sia le notizie false che i rapporti distorti erano esaminare le caratteristiche linguistiche comuni nelle storie della fonte, compreso il sentimento, complessità e struttura.
Per esempio, è stato riscontrato che i punti vendita di notizie false sono più propensi a utilizzare un linguaggio iperbolico, soggettivo, ed emotivo. In termini di pregiudizio, gli sbocchi di sinistra avevano maggiori probabilità di avere un linguaggio correlato ai concetti di danno/cura e equità/reciprocità, rispetto ad altre qualità come la lealtà, autorità e santità. (Queste qualità rappresentano i 5 "fondamenti morali, "una teoria popolare in psicologia sociale.)
Il coautore Preslav Nakov afferma che il sistema ha anche trovato correlazioni con la pagina Wikipedia di un punto vendita, che ha valutato per la lunghezza generale - più lungo è più credibile - così come per parole bersaglio come "estremo" o "teoria della cospirazione". Ha anche trovato correlazioni con la struttura del testo degli URL di una fonte:quelli che avevano molti caratteri speciali e sottodirectory complicate, Per esempio, sono stati associati a fonti meno affidabili.
"Dal momento che è molto più facile ottenere la verità fondamentale sulle fonti [che sugli articoli], questo metodo è in grado di fornire previsioni dirette e precise riguardo al tipo di contenuto distribuito da queste fonti, "dice Sibel Adali, un professore di informatica al Rensselaer Polytechnic Institute che non era coinvolto nel progetto.
Nakov avverte subito che il sistema è ancora in lavorazione, e quello, anche con miglioramenti nella precisione, funzionerebbe meglio in combinazione con i tradizionali fact-checker.
"Se i punti vendita riferiscono in modo diverso su un particolare argomento, un sito come Politifact potrebbe immediatamente guardare i nostri punteggi di "notizie false" per quei punti vendita per determinare quanta validità dare a diverse prospettive, "dice Nakov, uno scienziato senior presso QCRI.
Baly e Nakov hanno co-scritto il nuovo documento con il ricercatore senior del MIT James Glass insieme agli studenti del master Dimitar Alexandrov e Georgi Karadzhov dell'Università di Sofia. Il team presenterà il lavoro alla fine di questo mese alla conferenza Empirical Methods in Natural Language Processing (EMNLP) 2018 a Bruxelles, Belgio.
I ricercatori hanno anche creato un nuovo set di dati open source di oltre 1, 000 fonti di notizie, annotato con punteggi di fattibilità e pregiudizi:il database più grande del mondo nel suo genere. Come passi successivi, il team esaminerà se il sistema di formazione inglese può essere adattato ad altre lingue, così come andare oltre il tradizionale pregiudizio sinistra/destra per esplorare i pregiudizi specifici della regione (come la divisione del mondo musulmano tra religiosi e laici).
"Questa direzione di ricerca può far luce sull'aspetto dei siti Web non affidabili e sul tipo di contenuto che tendono a condividere, che sarebbe molto utile sia per i web designer che per il pubblico più ampio, "dice Andreas Vlachos, un docente senior dell'Università di Cambridge che non era coinvolto nel progetto.
Nakov afferma che QCRI ha anche in programma di lanciare un'app che aiuti gli utenti a uscire dalle loro bolle politiche, rispondere a notizie specifiche offrendo agli utenti una raccolta di articoli che abbracciano lo spettro politico.
"È interessante pensare a nuovi modi per presentare le notizie alle persone, ", afferma Nakov. "Strumenti come questo potrebbero aiutare le persone a riflettere un po' di più sui problemi ed esplorare altre prospettive che altrimenti non avrebbero considerato".