Credito:Università della California - Riverside
A febbraio, il Dipartimento di Giustizia ha accusato 13 russi di aver rubato le identità dei cittadini statunitensi e di aver diffuso "notizie false" con l'intento di sovvertire le ultime elezioni presidenziali statunitensi. Il caso è ancora in corso, e potrebbe farlo per anni. Intanto, I ricercatori dell'UCR hanno creato una soluzione tecnologica per la diffusione di disinformazione dannosa.
Multi-Aspect Data Lab di UCR, guidato da Evangelos E. Papalexakis, professore assistente presso il dipartimento di informatica e ingegneria, sta sviluppando nuove tecniche di data science per affrontare una serie di problemi nell'analisi dei social network, con il finanziamento del Naval Sea Systems Command, Consorzio per l'Educazione all'Ingegneria Navale, la Fondazione Nazionale della Scienza, e Adobe.
I ricercatori stanno costruendo algoritmi per discernere modelli che indicano "notizie false". Attraverso l'estrapolazione, e comandi inseriti nei sistemi di gestione dei contenuti degli editori, questi elementi possono quindi essere rimossi prima che diventino attivi e causino scompiglio. In modo cruciale, il calcolo dell'UCR può registrare l'"impronta" di tali posti per supportare le azioni penali.
L'ultimo documento accademico di Papalexakis su questo lavoro:"Identificazione basata sul contenuto non supervisionata di articoli di notizie false con Ensemble di decomposizione tensoriale, " co-scritto con l'assistente di ricerca laureato Seyed Mehdi Hosseini Motlagh, è stato presentato, e ha vinto il "premio per la migliore carta, " al recente workshop MIS2:Misinformation and Misbehavior Mining on the Web, parte del WSDM 2018 (11a Conferenza Internazionale ACM sulla Ricerca Web e il Data Mining).
"Studi precedenti hanno fornito utili spunti sulla propagazione di un articolo in un social network. Tuttavia, il rilevamento basato esclusivamente su questo comporta il rischio che un articolo di notizie false "infetti" un numero di utenti dei social media prima che venga rilevato, " Papalexakis ha detto. "Invece, il nostro lavoro mira alla diagnosi precoce di tali articoli, soprattutto nei casi in cui non abbiamo alcuna conoscenza esterna della validità e veridicità di qualsiasi articolo."
Il monitoraggio della rete umana si basa su una combinazione di buon senso ed esperienza per sapere se qualcosa è legittimo. Per esempio, i moderatori controllano se il titolo è TUTTO IN MAIUSCOLO (codice digi-culture per "urlare"), utilizzare parole chiave ben note nel linguaggio dei crimini d'odio, e cercare una mancanza di fonti verificate per affermazioni false.
Ma come si insegna a un computer che questi attributi triangolati spesso indicano "notizie false"?
La comprensione basata sulla macchina si basa esclusivamente su concetti matematici, così Papalexakis ei suoi ricercatori usano i cosiddetti "dati multi-aspetti". In poche parole, immagina un gruppo sociale in cui tutti all'interno dell'interazione hanno molti modi per connettersi (es. telefono, testo, video, messaggio istantaneo, post sui social). Il Multi-Aspect Data Lab quindi registra, esamina, classifica e modella tutti questi input, sulla base delle cosiddette "decomposizioni tensoriali". Un "tensore" nella scienza dei dati significa una struttura multidimensionale, come un cubo. Tutti i multi-aspetti sono catturati digitalmente come cubi multidimensionali in modo che il sistema possa indagare e "comprendere" cosa sta realmente accadendo e se la notizia è falsa, o no.
"Le tecniche di decomposizione tensoriale che sviluppiamo sono in grado di catturare modelli sfumati che identificano con successo diverse categorie di notizie false, senza utilizzare alcuna conoscenza esterna sulla validità di un particolare articolo", ha detto Papalexakis.
Sfruttando la diversità di tutti gli aspetti dei dati, il sistema UCR fornisce un risultato più accurato rispetto a precedenti ricerche pubblicate in questo campo. Nella loro carta, gli autori illustrano come compilano il loro algoritmo, quindi pubblicare i risultati di più esperimenti, dimostrando che l'algoritmo proposto ha identificato fino all'80% delle notizie false.
L'industria ne ha preso atto. Papalexakis ha affermato che sta attivamente perseguendo collaborazioni con i principali giganti della tecnologia.