Valutazione della tossicità dei commenti Reddit

Credito:CC0 di pubblico dominio

Nuova ricerca, pubblicata su PeerJ Computer Science , che analizza oltre 87 milioni di post e 2,205 miliardi di commenti su Reddit da oltre 1,2 milioni di utenti unici, esamina i cambiamenti nel comportamento online degli utenti che pubblicano in più comunità su Reddit misurando la "tossicità".

L'analisi della tossicità del comportamento degli utenti ha mostrato che il 16,11% degli utenti pubblica post tossici e il 13,28% degli utenti pubblica commenti tossici. Il 30,68% degli utenti che pubblicano post e l'81,67% degli utenti che pubblicano commenti mostrano cambiamenti nella loro tossicità nelle diverse comunità (o subreddit) indicando che gli utenti adattano il proprio comportamento alle norme delle comunità.

Lo studio suggerisce che un modo per limitare la diffusione della tossicità è limitare le comunità a cui gli utenti possono partecipare. I ricercatori hanno trovato una correlazione positiva tra l'aumento del numero di comunità e l'aumento della tossicità, ma non possono garantire che questa sia l'unica ragione alla base dell'aumento del contenuto tossico.

Vari tipi di contenuti possono essere condivisi e pubblicati su piattaforme di social media, consentendo agli utenti di comunicare tra loro in vari modi. La crescita delle piattaforme di social media ha purtroppo portato a un'esplosione di contenuti dannosi come molestie, volgarità e cyberbullismo. Vari motivi possono motivare gli utenti delle piattaforme di social media a diffondere contenuti dannosi. È stato dimostrato che la pubblicazione di contenuti tossici (ad es. comportamenti dannosi) si diffonde:il comportamento dannoso di utenti non dannosi può influenzare utenti non dannosi e farli comportare male, con un impatto negativo sulle comunità online.

"Una sfida nello studio della tossicità online è la moltitudine di forme che assume, inclusi incitamento all'odio, molestie e cyberbullismo. I contenuti tossici spesso contengono insulti, minacce e linguaggio offensivo, che, a loro volta, contaminano le piattaforme online. Diverse piattaforme online hanno implementato meccanismi di prevenzione, ma questi sforzi non sono sufficientemente scalabili da limitare la rapida crescita di contenuti tossici sulle piattaforme online. Queste sfide richiedono lo sviluppo di soluzioni automatiche o semiautomatiche efficaci per rilevare la tossicità da un ampio flusso di contenuti sulle piattaforme online", affermano gli autori, dottorato di ricerca (ABD) Hind Almerekhi, il dottor Haewoon Kwak e il professor Bernard J. Jansen.

"Il monitoraggio del cambiamento nella tossicità degli utenti può essere un metodo di rilevamento precoce della tossicità nelle comunità online. La metodologia proposta può identificare quando gli utenti mostrano un cambiamento calcolando la percentuale di tossicità nei post e nei commenti. Questo cambiamento, combinato con il livello di tossicità del nostro sistema rileva nei post degli utenti, può essere utilizzato in modo efficiente per fermare la diffusione della tossicità."

Il team di ricerca, con l'aiuto del crowdsourcing, ha costruito un set di dati etichettato di 10.083 commenti Reddit, quindi ha utilizzato il set di dati per addestrare e mettere a punto un modello di rete neurale Bidirectional Encoder Representations from Transformers (BERT). Il modello prevedeva i livelli di tossicità di 87.376.912 post da 577.835 utenti e 2.205.581.786 commenti da 890.913 utenti su Reddit in 16 anni, dal 2005 al 2020.

Questo studio ha utilizzato i livelli di tossicità del contenuto dell'utente per identificare i cambiamenti di tossicità da parte dell'utente all'interno della stessa comunità, in più comunità e nel tempo. Per le prestazioni di rilevamento della tossicità, il modello BERT perfezionato ha ottenuto un'accuratezza di classificazione del 91,27% e un punteggio AUC (Area Under the Receiver Operating Characteristic Curve) di 0,963 e ha superato diversi modelli di rete neurale e apprendimento automatico di base. + Esplora ulteriormente