“Stiamo guardando la crisi mentre accade, ” ha detto Prasenjit Mitra. “La migliore fonte per ottenere informazioni tempestive durante un disastro sono i social media, in particolare i microblog come Twitter. Credito:Thinkstock
I dati di Twitter potrebbero fornire alle squadre di soccorso in caso di catastrofe informazioni in tempo reale per fornire aiuti e salvare vite umane, grazie a un nuovo algoritmo sviluppato da un team internazionale di ricercatori.
Un team di ricercatori della Penn State, l'Istituto indiano di tecnologia Kharagpur, e il Qatar Computing Research Institute ha creato un algoritmo che analizza i dati di Twitter per identificare eventi minori legati a disastri, noti come sotto-eventi, e generare altamente accurato, riepiloghi in tempo reale che possono essere utilizzati per guidare le attività di risposta.
Il gruppo ha presentato oggi (10 luglio) il documento "Identificazione di sottoeventi e sintesi delle informazioni dai microblog durante i disastri" alla 41a International Association for Computing Machinery's Special Interest Group on Information Retrieval Conference on Research and Development in Information Retrieval ad Ann Arbor , Michigan.
"Stiamo guardando la crisi mentre accade, " disse Prasenjit Mitra, decano associato per la ricerca presso il College of Information Sciences and Technology della Penn State e collaboratore dello studio.
"La migliore fonte per ottenere informazioni tempestive durante un disastro sono i social media, in particolare microblog come Twitter, " ha detto Mitra. "I giornali devono ancora stampare e i blog devono ancora pubblicare, quindi Twitter consente una visualizzazione quasi in tempo reale di un evento da parte di coloro che ne sono colpiti".
L'analisi di questi dati e il loro utilizzo per generare report relativi a un argomento secondario di un disastro, come i danni alle infrastrutture o le esigenze di riparo, potrebbe aiutare le organizzazioni umanitarie a rispondere meglio alle diverse esigenze degli individui in un'area colpita.
Data la mole di dati prodotti, gestire manualmente questo processo all'indomani di una crisi non è sempre pratico. C'è anche spesso la necessità di aggiornamenti unici relativi a particolari argomenti all'interno e tra le organizzazioni.
"Diversi lavori sulla sintesi specifica per i disastri negli ultimi tempi hanno proposto algoritmi che forniscono principalmente un riepilogo generale dell'intero evento, " hanno scritto i ricercatori nel loro articolo. "Tuttavia, diverse parti interessate come i soccorritori, agenzie governative, esperti del settore, [e] le persone comuni hanno esigenze informative diverse".
Nello studio, il gruppo ha raccolto più di 2,5 milioni di tweet pubblicati durante tre grandi catastrofi globali:il tifone Hagupit che ha colpito le Filippine nel 2014, l'alluvione del 2014 in Pakistan, e il terremoto del 2015 in Nepal. Quindi, i volontari dell'Ufficio delle Nazioni Unite per il coordinamento degli affari umanitari hanno addestrato un sistema di apprendimento automatico classificando manualmente i tweet in diversi sotto-eventi, come il cibo, medicina e infrastrutture.
Una volta che il sistema è in grado di identificare i tweet con un alto livello di precisione, i ricercatori consentono al sistema di classificare grandi quantità di dati in modo rapido e accurato senza l'intervento umano. Man mano che gli eventi si sviluppano, però, appaiono nuove categorie di contenuti che richiedono il riavvio del processo.
"Ad un certo punto, c'è una deriva nell'argomento. Gli argomenti si spostano dalla risposta immediata, come se le persone fossero intrappolate, alle continue ricadute, come malattie o problemi di trasporto, " ha spiegato Mitra. "Quando l'argomento cambia, osserviamo la precisione della macchina. Se scende al di sotto di una certa soglia, la task force classifica manualmente più tweet per educare ulteriormente la macchina."
Il loro algoritmo "Dependency-Parser-based SUB-event detection", noto come DEPSUB, ha identificato coppie nome-verbo che rappresentano argomenti secondari, come "crollo del ponte" o "persona intrappolata" e le ha classificate in base alla frequenza con cui compaiono nei tweet. Quindi, hanno creato un algoritmo per scrivere riepiloghi sull'evento generale e sui sottoeventi identificati. Finalmente, i valutatori umani hanno classificato l'utilità e l'accuratezza dei sottoeventi identificati da DEPSUB e i riepiloghi generati automaticamente rispetto a quelli creati con altri metodi esistenti.
I valutatori hanno trovato più rilevanti sia DEPSUB che il loro algoritmo di sintesi, utile e comprensibile rispetto ad altri algoritmi leader. Nel futuro, i ricercatori sperano di applicare il loro lavoro a situazioni specializzate, come riassumere le informazioni sulle persone scomparse, e estraendo informazioni specifiche dai tweet che potrebbero creare una descrizione e una visualizzazione più complete di un evento.
"Con un sistema ben addestrato, non è necessario l'intervento umano per classificare o riassumere i dati di Twitter, " ha affermato Mitra. "Questo sistema automatizzato è un primo passo per fornire agli operatori umanitari un'impalcatura che possono perfezionare per costruire una migliore sintesi complessiva di un evento, oltre a prendere una visione più ristretta di alcune parti di quell'evento più ampio."