Credito:CC0 Dominio Pubblico
Gli esseri umani e le macchine hanno lavorato insieme per aiutare a formare un modello di intelligenza artificiale, l'intelligenza artificiale, che ha superato altri rilevatori di clickbait, secondo i ricercatori della Penn State e dell'Arizona State University. Inoltre, la nuova soluzione basata sull'intelligenza artificiale è stata anche in grado di distinguere tra i titoli clickbait generati da macchine (o bot) e quelli scritti da persone, loro hanno detto.
In uno studio, i ricercatori hanno chiesto alle persone di scrivere il proprio clickbait, un interessante, ma fuorviante, titolo delle notizie progettato per attirare i lettori a fare clic sui collegamenti ad altre storie online. I ricercatori hanno anche programmato macchine per generare clickbait artificiali. Quindi, i titoli realizzati da persone e macchine sono stati utilizzati come dati per addestrare un algoritmo di rilevamento dei clickbait.
La capacità dell'algoritmo risultante di prevedere i titoli clickbait era di circa il 14,5% migliore rispetto ad altri sistemi, secondo i ricercatori, che hanno pubblicato i loro risultati oggi (28 agosto) alla Conferenza internazionale IEEE/ACM 2019 sui progressi nell'analisi delle reti sociali (ASONAM) a Vancouver, Canada.
Oltre al suo utilizzo nel rilevamento dei clickbait, l'approccio del team può aiutare a migliorare le prestazioni di apprendimento automatico in generale, disse Dongwon Lee, il ricercatore principale del progetto e professore associato presso il College of Information Sciences and Technology. Lee è anche un affiliato del Penn State Institute for CyberScience (ICS), che fornisce ai ricercatori della Penn State l'accesso alle risorse di supercalcolo.
"Questo risultato è piuttosto interessante in quanto abbiamo dimostrato con successo che i dati di addestramento clickbait generati dalle macchine possono essere reimmessi nella pipeline di addestramento per addestrare un'ampia varietà di modelli di apprendimento automatico per migliorare le prestazioni, " ha affermato Lee. "Questo è il passo verso l'affrontare il collo di bottiglia fondamentale dell'apprendimento automatico supervisionato che richiede una grande quantità di dati di formazione di alta qualità".
Secondo Thai Le, uno studente di dottorato presso il College of Information Sciences and Technology, Penn State, una delle sfide che deve affrontare lo sviluppo del rilevamento dei clickbait è la mancanza di dati etichettati. Proprio come le persone hanno bisogno di insegnanti e guide allo studio che le aiutino a imparare, I modelli di intelligenza artificiale necessitano di dati etichettati per aiutarli a imparare a creare le connessioni e le associazioni corrette.
"Una delle cose che abbiamo capito quando abbiamo iniziato questo progetto è che non abbiamo molti dati positivi, " ha detto Le. "Per identificare il clickbait, dobbiamo fare in modo che gli umani etichettino quei dati di allenamento. È necessario aumentare la quantità di punti dati positivi in modo che, più tardi, possiamo formare modelli migliori".
Anche se trovare clickbait su Internet può essere facile, le numerose varianti di clickbait aggiungono un altro livello di difficoltà, secondo S. Shyam Sundar, James P. Jimirro Professore di Media Effects e co-direttore del Media Effects Research Laboratory presso il Donald P. Bellisario College of Communications, e un affiliato ICS.
"Ci sono clickbait che sono liste, o liste; ci sono clickbait che vengono formulati come domande; ce ne sono di quelli che iniziano con chi-cosa-dove-quando; e tutti i tipi di altre varianti di clickbait che abbiamo identificato nella nostra ricerca nel corso degli anni, " disse Sundar. "Allora, trovare campioni sufficienti di tutti questi tipi di clickbait è una sfida. Anche se ci lamentiamo tutti del numero di clickbait in circolazione, quando si arriva a ottenerli ed etichettarli, non ci sono molti di quei set di dati."
Secondo i ricercatori, lo studio ha rivelato differenze nel modo in cui le persone e le macchine si sono avvicinate alla creazione dei titoli. Rispetto al clickbait generato dalla macchina, i titoli generati dalle persone tendevano ad avere più determinanti, parole come "quale" e "quello"—nei titoli.
Anche la formazione sembrava suggerire differenze nella creazione di clickbait. Per esempio, scrittori preparati, come giornalisti, tendeva a usare parole più lunghe e più pronomi rispetto agli altri partecipanti. Anche i giornalisti avrebbero probabilmente usato i numeri per iniziare i loro titoli.
I ricercatori intendono utilizzare questi risultati per guidare le loro indagini su un sistema di rilevamento di notizie false più robusto, tra le altre applicazioni, secondo Sundar.
"Per noi, clickbait è solo uno dei tanti elementi che compongono le fake news, ma questa ricerca è un utile passo preparatorio per assicurarci di avere un buon sistema di rilevamento clickbait impostato, " disse Sunda.
Per trovare autori di clickbait umani per lo studio, i ricercatori hanno reclutato studenti e lavoratori di giornalismo da Amazon Turk, un sito crowdsource online. Hanno reclutato 125 studenti e 85 lavoratori dal sito. I partecipanti hanno prima letto una definizione di clickbait e poi è stato chiesto di leggere un breve articolo di circa 500 parole. Ai partecipanti è stato poi chiesto di scrivere un titolo clickbait per ogni articolo.
I titoli clickbait generati dalla macchina sono stati sviluppati utilizzando un modello di apprendimento automatico chiamato Variational Autoencoder, o modello generativo VAE, che si basa sulle probabilità per trovare modelli nei dati.
I ricercatori hanno testato il loro algoritmo contro i sistemi più performanti di Clickbait Challenge 2017, una competizione di rilevamento clickbait online.