Credito:CC0 Dominio Pubblico
I ricercatori di Cornell hanno sviluppato un sistema automatizzato che utilizza l'apprendimento automatico, analisi dei dati e feedback umano per verificare automaticamente le affermazioni statistiche sul nuovo coronavirus.
"CoronaCheck, " sulla base della ricerca in corso di Immanuel Trummer, professore assistente di informatica, lanciato a livello internazionale a marzo ed è già stato utilizzato più di 9, 600 volte. Il database, ora disponibile in inglese, Francese e italiano:controlla le affermazioni sulla diffusione del COVID-19 sulla base di fonti affidabili come l'Organizzazione mondiale della sanità e i Centri per il controllo e la prevenzione delle malattie.
"C'è troppa disinformazione sul coronavirus sul web:è piuttosto sbalorditivo, in realtà, " ha detto Trummer. "Alcune di queste affermazioni di disinformazione sono innocue, ma altre cose come "mangiare argento cura il coronavirus" possono essere pericolose".
Il sistema CoronaCheck è una collaborazione tra il team di Trummer, compresi i dottorandi Georgios Karagiannis e Saehan Jo, e il team di Paolo Papotti all'Eurecom, una scuola di ingegneria a Biot, Francia.
A causa dell'enorme volume di cattive informazioni su Internet e della velocità con cui viene prodotta e diffusa più disinformazione, è impossibile per gli esseri umani risolvere il problema eseguendo da soli controlli manuali dei fatti. Anche i comuni approcci automatizzati, che generalmente tentano di mappare nuove affermazioni sui fact check esistenti, non può essere realisticamente condotto su una scala sufficientemente ampia da affrontare la portata della disinformazione, disse Trummer.
"Abbiamo cercato di automatizzare l'intero processo, dai dati grezzi al testo che vogliamo verificare, " disse Trummer.
CoronaCheck adatta "Scrutinizer, " un sistema che Trummer ha sviluppato con Eurecom per l'Agenzia Internazionale dell'Energia di Parigi, un'organizzazione non governativa, per supportare i verificatori di fatti umani nella traduzione di riepiloghi di testo in equazioni che il computer può comprendere e risolvere. Per fare questo, Scrutinizer utilizza l'apprendimento automatico e l'elaborazione del linguaggio naturale, una branca dell'intelligenza artificiale volta a decifrare il linguaggio umano, nonché grandi set di dati che aiutano il sistema a capire come affrontare ogni nuova affermazione, e feedback da utenti umani.
"I computer hanno difficoltà a comprendere il linguaggio naturale, " ha detto. "Non possiamo chiedere direttamente al computer di verificare se alcune affermazioni in una frase sono corrette o meno. Quindi, essenzialmente, dobbiamo tradurre l'affermazione dalla nostra lingua in un linguaggio di interrogazione che il computer comprende".
Per esempio, se qualcuno scrive che il numero di casi di coronavirus è più alto in Francia che in Italia, il sistema utilizza una sorta di processo di eliminazione per restringere le possibili equazioni per rappresentare quel testo. Attinge ai suoi set di dati per creare un'espressione matematica che possa confrontare l'affermazione con i fatti.
Quindi, in base all'esperienza, il sistema determina le migliori fonti per verificare il reclamo, attingendo a dati pubblici affidabili compilati quotidianamente dalla Johns Hopkins University. Anche il modello di machine learning del sistema può migliorare nel tempo, imparare a riconoscere nuovi tipi di attestazione in base al feedback degli utenti.
"C'è un'enorme quantità di disinformazione là fuori e l'insieme di affermazioni che le persone controllano è piuttosto vario, "Ha detto Trummer. "Per qualsiasi affermazione data, esiste un numero molto elevato di possibili espressioni di query, e il nostro obiettivo è trovare quello giusto".
L'interfaccia del database si basa sul lavoro correlato di Trummer, incluso AggChecker, il primo strumento per verificare automaticamente i riepiloghi testuali dei dataset interrogando un database relazionale. AggChecker è stato presentato alla conferenza annuale dell'Association for Computing Machinery's Special Interest Group sulla gestione dei dati nel 2019.
Il suo team ha anche sviluppato una "Base anti-conoscenza" di errori fattuali comuni da Wikipedia in collaborazione con Google NYC. La ricerca alla base di CoronaCheck è stata in parte finanziata da un Google Faculty Research Award.