Credito:CC0 Dominio Pubblico
Grazie alla proficua collaborazione tra studiosi di lingue e specialisti di machine learning, una nuova applicazione sviluppata dai ricercatori dell'Università della Finlandia orientale e dell'Università di Linneo in Svezia è in grado di rilevare i bot di Twitter indipendentemente dalla lingua utilizzata.
Negli ultimi anni, i big data provenienti da varie applicazioni di social media hanno trasformato il Web in un archivio di informazioni generato dagli utenti in un numero sempre crescente di aree. A causa dell'accesso relativamente facile ai tweet e ai relativi metadati, Twitter è diventato una popolare fonte di dati per le indagini su una serie di fenomeni. Questi includono, ad esempio, varie campagne politiche, sconvolgimenti sociali e politici, Twitter come strumento di comunicazione di emergenza, e utilizzando i dati dei social media per prevedere i prezzi del mercato azionario.
Però, la ricerca che utilizza i dati dei social media è spesso distorta dalla presenza di bot. I bot sono account non personali e automatizzati che pubblicano contenuti sui social network online. La popolarità di Twitter come strumento nel dibattito pubblico ha portato a una situazione in cui è diventato un bersaglio ideale di spammer e script automatici. È stato stimato che circa il 5-10% di tutti gli utenti sono bot, e che questi account generano circa il 20-25% di tutti i tweet pubblicati.
I ricercatori delle discipline umanistiche digitali dell'Università della Finlandia orientale e dell'Università di Linneo in Svezia hanno sviluppato una nuova applicazione che si basa sull'apprendimento automatico per rilevare i bot di Twitter. L'applicazione è in grado di rilevare i tweet generati automaticamente indipendentemente dalla lingua utilizzata. I ricercatori hanno catturato per l'analisi un totale di 15, 000 tweet in finlandese, svedese e inglese. Il finlandese e lo svedese erano usati principalmente per la formazione, mentre i tweet in inglese sono stati utilizzati per valutare l'indipendenza dalla lingua dell'applicazione. L'applicazione è leggera, che consente di classificare grandi quantità di dati in modo rapido e relativamente efficiente.
"Ciò migliora la qualità dei dati e dipinge un'immagine più accurata della realtà, " Annota il professore di inglese Mikko Laitinen dell'Università della Finlandia orientale.
Secondo il professor Laitinen, i bot sono relativamente innocui, mentre i troll fanno del male mentre diffondono notizie false e inventano storie inventate. Ecco perché c'è bisogno di strumenti sempre più avanzati per il monitoraggio dei social media.
"Si tratta di una questione complessa e richiede approcci interdisciplinari. Ad esempio, noi linguisti collaboriamo con specialisti di machine learning. Questo tipo di lavoro richiede anche determinazione e investimenti in infrastrutture di ricerca che fungono da piattaforma per la collaborazione di ricercatori di diversi campi".
Secondo il professor Laitinen, è essenziale che i ricercatori abbiano accesso ai dati dei social media.
"Attualmente, i dati sono di proprietà dei conglomerati tecnologici americani, e una fonte del loro reddito. Per consentire ai ricercatori di accedere a questi dati, cooperazione a livello nazionale e internazionale, e soprattutto è necessario il coinvolgimento dell'UE".