Credito:CC0 Dominio Pubblico
I social media ti hanno rovinato il film di Endgame degli Avengers? O forse uno dei libri di Game of Thrones? Un team di ricercatori dell'Università della California di San Diego sta lavorando per assicurarsi che ciò non accada di nuovo. Hanno sviluppato un sistema basato sull'intelligenza artificiale che può segnalare spoiler nelle recensioni online di libri e programmi TV.
"Gli spoiler sono ovunque su Internet, e sono molto comuni sui social. Come utenti di Internet, comprendiamo il dolore degli spoiler, e come possono rovinare la propria esperienza, " ha detto Ndapa Nakashole, un professore di informatica alla UC San Diego e uno degli autori senior del documento.
Alcuni siti Web consentono alle persone di contrassegnare manualmente i propri post con tag che fungono da segnali di avvertimento "spoiler in anticipo". Ma questo non sempre accade. Quindi i ricercatori volevano sviluppare uno strumento di intelligenza artificiale alimentato da reti neurali per rilevare automaticamente gli spoiler. Hanno chiamato lo strumento SpoilerNet.
A livello teorico, i ricercatori vogliono capire meglio come le persone scrivono spoiler e che tipo di modelli linguistici e conoscenza comune contrassegnano una frase come spoiler.
I ricercatori presenteranno i loro risultati al meeting annuale 2019 dell'Associazione per la Linguistica Computazionale a Firenze, Italia, Dal 28 luglio al 2 agosto. Lo strumento sviluppato dai ricercatori potrebbe essere utilizzato per creare un'estensione del browser per proteggere le persone dagli spoiler.
Per addestrare e testare SpoilerNet, il team dell'UC San Diego è andato alla ricerca di grandi set di dati di frasi contenenti spoiler. Avviso spoiler! Non ne trovarono nessuno. Così hanno creato il proprio raccogliendo oltre 1,3 milioni di recensioni di libri annotate con tag spoiler dai revisori dei libri. I tag comprendono frasi che includono spoiler e le nascondono dietro un link "view spoiler" nel testo. Le recensioni sono state raccolte da Goodreads, un sito di social network che consente alle persone di tenere traccia di ciò che leggono, e condividere pensieri e recensioni con altri lettori.
"Per quello che ci risulta, questo è il primo set di dati con annotazioni spoiler su questa scala e con una granularità così fine, " disse Mengting Wan, un dottorato di ricerca studente in informatica alla UC San Diego e primo autore del documento.
I ricercatori hanno scoperto che le frasi spoiler tendono a raggrupparsi nell'ultima parte delle recensioni. Ma hanno anche scoperto che utenti diversi avevano standard diversi per taggare gli spoiler, e le reti neurali dovevano essere attentamente calibrate per tenerne conto.
Inoltre, la stessa parola può avere significati semantici diversi in contesti diversi. Per esempio, 'verde' è solo un colore in una recensione di un libro, ma può essere il nome di un personaggio importante e un segnale di spoiler in un altro libro. Identificare e comprendere queste differenze è impegnativo, ha detto Wan.
I ricercatori hanno formato SpoilerNet sull'80% delle recensioni su Goodreads, l'esecuzione del testo attraverso diversi strati di reti neurali. Il sistema è in grado di rilevare spoiler con una precisione dall'89 al 92 percento.
Hanno anche eseguito SpoilerNet su un set di dati di oltre 16, 000 recensioni di una sola frase di circa 880 programmi TV. La precisione dello strumento per rilevare gli spoiler era compresa tra il 74 e l'80 percento.
La maggior parte degli errori derivava dal fatto che il sistema veniva distratto da parole che di solito sono cariche e rivelatrici, ad esempio omicidio o uccisione.
Guardare avanti, il set di dati Goodreads può essere utilizzato come un potente strumento per addestrare algoritmi per rilevare spoiler in diversi tipi di contenuto, ad esempio tweet contenenti spoiler.