Credito:CC0 Dominio Pubblico
Nuovo lavoro dei ricercatori del MIT sotto il cofano di un sistema automatizzato di rilevamento di notizie false, rivelando come i modelli di apprendimento automatico colgano differenze sottili ma coerenti nel linguaggio delle storie fattuali e false. La ricerca sottolinea anche come i rilevatori di notizie false dovrebbero essere sottoposti a test più rigorosi per essere efficaci per le applicazioni del mondo reale.
Reso popolare come concetto negli Stati Uniti durante le elezioni presidenziali del 2016, le fake news sono una forma di propaganda creata per fuorviare i lettori, al fine di generare visualizzazioni sui siti web o orientare l'opinione pubblica.
Quasi con la stessa rapidità con cui il problema è diventato mainstream, i ricercatori hanno iniziato a sviluppare rilevatori automatici di notizie false, le cosiddette reti neurali che "imparano" da decine di dati per riconoscere segnali linguistici indicativi di articoli falsi. Dati nuovi articoli da valutare, queste reti possono, con una precisione abbastanza elevata, fatto separato dalla finzione, in ambienti controllati.
Un problema, però, è il problema della "scatola nera", il che significa che non si può dire quali modelli linguistici le reti analizzano durante l'addestramento. Sono anche formati e testati sugli stessi argomenti, che possono limitare il loro potenziale di generalizzazione a nuovi argomenti, una necessità per analizzare le notizie su Internet.
In un documento presentato alla conferenza e al workshop sui sistemi di elaborazione delle informazioni neurali, i ricercatori affrontano entrambi questi problemi. Hanno sviluppato un modello di apprendimento profondo che impara a rilevare i modelli linguistici di notizie false e reali. Parte del loro lavoro "apre" la scatola nera per trovare le parole e le frasi che il modello cattura per fare le sue previsioni.
Inoltre, hanno testato il loro modello su un argomento nuovo che non ha visto nella formazione. Questo approccio classifica i singoli articoli basandosi esclusivamente su modelli linguistici, che rappresenta più da vicino un'applicazione del mondo reale per i lettori di notizie. I rilevatori di notizie false tradizionali classificano gli articoli in base al testo combinato con le informazioni sulla fonte, come una pagina o un sito web di Wikipedia.
"Nel nostro caso, volevamo capire quale fosse il processo decisionale del classificatore basato solo sul linguaggio, in quanto ciò può fornire approfondimenti su qual è il linguaggio delle notizie false, " afferma il coautore Xavier Boix, un postdoc nel laboratorio di Eugene McDermott Professor Tomaso Poggio presso il Center for Brains, menti, e Macchine (CBMM) presso il Dipartimento di Scienze del Cervello e della Cognizione (BCS).
"Un problema chiave con l'apprendimento automatico e l'intelligenza artificiale è che ottieni una risposta e non sai perché hai avuto quella risposta, ", afferma la studentessa laureata e prima autrice Nicole O'Brien '17. "Mostrare questi meccanismi interni è un primo passo verso la comprensione dell'affidabilità dei rilevatori di fake news con apprendimento profondo".
Il modello identifica insiemi di parole che tendono ad apparire più frequentemente nelle notizie reali o false, alcune forse ovvie, altri molto meno. Le scoperte, dicono i ricercatori, indica differenze sottili ma coerenti tra notizie false, che favoriscono esagerazioni e superlativi, e notizie reali, che tende più a scelte di parole conservatrici.
"Le fake news sono una minaccia per la democrazia, " dice Boix. "Nel nostro laboratorio, il nostro obiettivo non è solo quello di portare avanti la scienza, ma anche utilizzare le tecnologie per aiutare la società. ... Sarebbe potente avere strumenti per gli utenti o le aziende che potrebbero fornire una valutazione se le notizie sono false o meno."
Gli altri coautori del documento sono Sophia Latessa, uno studente universitario in CBMM; e Georgios Evangelopoulos, un ricercatore in CBMM, il McGovern Institute of Brain Research, e il Laboratorio per l'apprendimento computazionale e statistico.
Limitare i pregiudizi
Il modello dei ricercatori è una rete neurale convoluzionale che si allena su un set di dati di notizie false e notizie reali. Per la formazione e il test, i ricercatori hanno utilizzato un popolare set di dati di ricerca sulle notizie false, chiamato Kaggle, che contiene circa 12, 000 articoli campione di notizie false da 244 siti Web diversi. Hanno anche compilato un set di dati di campioni di notizie reali, usando più di 2, 000 dal New York Times e più di 9, 000 dal Guardian.
In allenamento, il modello cattura il linguaggio di un articolo come "word embedding, "dove le parole sono rappresentate come vettori—fondamentalmente, matrici di numeri, con parole di significato semantico simili raggruppate più vicine tra loro. Così facendo, cattura terzine di parole come modelli che forniscono un contesto, come, dire, un commento negativo su un partito politico. Visto un nuovo articolo, il modello esegue la scansione del testo alla ricerca di modelli simili e li invia su una serie di livelli. Un livello di output finale determina la probabilità di ciascun modello:reale o falso.
I ricercatori hanno prima addestrato e testato il modello in modo tradizionale, utilizzando gli stessi argomenti. Ma pensavano che questo potesse creare un pregiudizio intrinseco nel modello, poiché alcuni argomenti sono più spesso oggetto di notizie false o reali. Per esempio, le notizie false hanno generalmente più probabilità di includere le parole "Trump" e "Clinton".
"Ma non è quello che volevamo, " Dice O'Brien. "Questo mostra solo argomenti che hanno un forte peso nelle notizie false e reali. ... Volevamo trovare i modelli effettivi nel linguaggio che ne fossero indicativi."
Prossimo, i ricercatori hanno addestrato il modello su tutti gli argomenti senza menzionare la parola "Trump, " e testato il modello solo su campioni che erano stati accantonati dai dati di addestramento e che contenevano la parola "Trump". il secondo approccio ha raggiunto una precisione dell'87%. Questa lacuna di precisione, dicono i ricercatori, sottolinea l'importanza di utilizzare temi trattenuti dal processo formativo, per garantire che il modello possa generalizzare ciò che ha appreso a nuovi argomenti.
Sono necessarie ulteriori ricerche
Per aprire la scatola nera, i ricercatori sono poi tornati sui loro passi. Ogni volta che il modello fa una previsione su una tripletta di parole, una certa parte del modello si attiva, a seconda se la tripletta è più probabile da una notizia vera o falsa. I ricercatori hanno progettato un metodo per ripercorrere ogni previsione fino alla parte designata e quindi trovare le parole esatte che l'hanno attivata.
Sono necessarie ulteriori ricerche per determinare quanto queste informazioni siano utili per i lettori, dice Boix. Nel futuro, il modello potrebbe potenzialmente essere combinato con, dire, fact-checker automatizzati e altri strumenti per dare ai lettori un vantaggio nella lotta alla disinformazione. Dopo qualche raffinamento, il modello potrebbe anche essere la base di un'estensione del browser o di un'app che avvisa i lettori di un potenziale linguaggio di notizie false.
"Se ti do solo un articolo, ed evidenzia questi modelli nell'articolo mentre stai leggendo, potresti valutare se l'articolo è più o meno falso, ", dice. "Sarebbe una specie di avvertimento da dire, 'Hey, forse c'è qualcosa di strano qui.'"