Individuare la disinformazione online tramite l'intelligenza artificiale

Credito:iStock/champja

Viviamo in un'era di troppe informazioni:un flusso infinito di aggiornamenti di stato, meme, ripubblica, infografica, citazioni e hashtag scorrono quotidianamente attraverso i nostri feed di social media, inteso ad esprimere punti di vista, ravvivare la solidarietà, fornire informazioni, cambiare idea o provocare controversie.

Il problema è, l'utente medio di browser online/social media non ha il tempo o i mezzi per indagare sulla legittimità o sulla provenienza di tutto ciò che appare sui propri feed. Ed è questa vulnerabilità che i generatori di contenuti meno scrupolosi sfruttano per diffondere disinformazione, con risultati che possono variare da un piccolo imbarazzo diretto a conseguenze che cambiano la vita o potenzialmente mortali.

Per William Wang, informatico dell'Università di Santa Barbara, questa palude caotica è terreno fertile per l'esplorazione. Wang crede che le tecniche di deep learning, quando distribuito sulla rete di testo e collegamento ipertestuale di post online e articoli di notizie, può aiutarci con alcuni dei sollevamenti pesanti del pensiero critico. Questo concetto è al centro del suo progetto triennale "Dynamo:Dynamic Multichannel Modeling of Misinformation".

"Quindi la domanda è dato un posto, come potresti capire se questo è specificamente fuorviante o se si tratta di un post autentico, "Wang ha detto, "e, data la struttura della rete, puoi identificare la diffusione della disinformazione e come sarà diversa rispetto agli articoli standard o non standard?"

Un compito arduo

è un compito arduo, soprattutto nell'arena dei social media, che ha livellato il campo di gioco tra legittimi, siti web di notizie affermati e siti discutibili che fanno del loro meglio per apparire ufficiali, o fare appello alle emozioni di un utente prima che possa fare un passo indietro e mettere in dubbio la fonte delle sue informazioni.

Però, grazie all'elaborazione del linguaggio naturale, la specialità di Wang, il testo di questi post e articoli può essere utilizzato per rivelare informazioni sui loro creatori e propagatori, come le loro affiliazioni, ideologie e incentivi per il distacco, così come chi potrebbe essere il loro pubblico previsto. L'algoritmo esegue la scansione di milioni di articoli di notizie pubblicati da utenti anonimi su piattaforme come Twitter e Reddit ed esamina i titoli degli articoli, contenuti e link. Lo scopo è quello di avere un'idea non solo delle entità dietro di loro, ma anche dei loro modelli di diffusione attraverso la rete.

"Molti di noi danno per scontati i siti web e ritwittano o ripubblicano casualmente disinformazione ed è così che viene propagata, cascata e si diffonde viralmente, " Wang ha detto. "Alcune delle domande più importanti che ci poniamo sono:quali sono i modelli? Quali sono gli incentivi?"

Per scoprirlo, lui e il suo team hanno proposto un meccanismo di apprendimento che individua il motivo per cui alcune storie vengono ripubblicate o ritwittate oltre al fatto che il contenuto stesso sia vero o falso. Lungo la strada, Wang ha detto, potrebbero capire chi è coinvolto nella diffusione della disinformazione e quali modelli potrebbero emergere in quel processo. Anche le immagini diventeranno parte del set di dati, Ha aggiunto.

Più tardi, i ricercatori intendono integrare altri aspetti del loro lavoro con la disinformazione, come clickbait, che usa orecchiabile, titoli spesso sensazionali per indurre i lettori a fare clic su un collegamento che nel migliore dei casi li rimanda a un sito Web losco, o nel peggiore dei casi, ruba le loro informazioni.

"Clickbait è principalmente articoli di bassa qualità che possono effettivamente contenere molta disinformazione e informazioni false perché devono esagerare, " ha detto Wang. Insieme allo studente di dottorato di ricerca in informatica Jiawei Wu, il team ha sviluppato un metodo chiamato "co-training rinforzato, " che impiega un efficiente sistema di etichettatura di poche centinaia di articoli che vengono poi utilizzati per addestrare un classificatore di machine learning a etichettare ciò che pensa possa essere clickbait in un enorme, set di dati di milioni di storie.

"Quindi prendiamo queste istanze appena etichettate e riaddestriamo il classificatore, " ha detto Wang. "Questo processo iterativo ci consente di raccogliere più dati sull'etichetta nel tempo, " Ha aggiunto, che affina la precisione dello strumento.

L'uso dell'intelligenza artificiale per comprendere e trovare modelli nell'onda di marea di testo che ci inviamo ogni giorno ci darebbe un'idea di come noi, intenzionalmente o inconsapevolmente, diffondere disinformazione.

"Questa è davvero la bellezza dell'elaborazione del linguaggio naturale e dell'apprendimento automatico, " ha detto Wang. "Abbiamo un'enorme quantità di dati in diversi formati, e la domanda è:come si trasformano i dati non strutturati in conoscenza strutturata? Questo è uno degli obiettivi del deep learning e della data science".

I dispositivi indossabili per animali domestici stanno mettendo a rischio la privacy umana

LeanShips:guadagni significativi in termini di efficienza del carburante per le navi con eliche a passo variabile

Elettronica