• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • SentiArt:uno strumento di analisi del sentimento per la profilazione dei personaggi dei testi della letteratura mondiale

    Pseudo-grandi 5 punteggi per sette personaggi principali nei libri di Harry Potter. Questi punteggi sono percentili basati su un campione di 100 cifre che compaiono nella serie di libri. Credito:Arthur M. Jacobs.

    Arthur Jacobs, professore e ricercatore alla Freie Universität Berlin, ha recentemente sviluppato SentiArt, una nuova tecnica di machine learning per effettuare analisi del sentimento di testi letterari, così come personaggi di fantasia e non. Nel suo giornale, impostato per essere pubblicato da Frontiere della Robotica e dell'AI , ha applicato questo strumento a passaggi e personaggi dei libri di Harry Potter.

    Jacobs ha un background in neurolinguistica, una branca della linguistica che esplora i meccanismi neurali associati all'acquisizione del linguaggio, comprensione ed espressione. Nel suo lavoro precedente, ha spesso studiato come gli strumenti di apprendimento automatico potrebbero essere utilizzati per analizzare e comprendere meglio il linguaggio umano. È particolarmente interessato a quella che chiama poetica computazionale, un'area di studio che si concentra sull'uso di strumenti computazionali per comprendere i contenuti letterari.

    "Nel 2011, Ho scritto un libro con il poeta austriaco Raoul Schrott chiamato "Cervello e poesia" , ' dove abbiamo ipotizzato che avrebbe aiutato a sviluppare strumenti di analisi del sentimento per testi letterari e poesie, non solo per recensioni di film o tweet di Trump, che sembra essere il gold standard nell'analisi del sentiment classico, " Jacobs ha dichiarato a TechXplore. "Volevamo anche sviluppare uno strumento in grado di prevedere i dati neuronali e comportamentali umani, non solo le segnalazioni raccolte tramite Amazon Turk."

    Nel suo nuovo studio, Jacobs ha cercato di mettere in pratica alcune delle idee introdotte nel suo lavoro precedente sviluppando uno strumento per analizzare il sentimento nei testi letterari. La tecnica da lui proposta, chiamato SentiArt, utilizza modelli spaziali vettoriali e guidati dalla teoria, elenchi di etichette convalidati empiricamente per calcolare la valenza delle singole parole in un testo. I modelli di spazio vettoriale sono rappresentazioni di documenti di testo come vettori di identificatori, che vengono spesso utilizzati per filtrare, recuperare o organizzare le informazioni.

    "SentiArt è uno strumento molto semplicistico che può essere utilizzato dai non esperti per confrontare semplicemente le parole nel testo del test (ad es. il testo su cui vogliono fare un'analisi del sentimento) con un foglio excel che possono scaricare gratuitamente dalla mia homepage, " ha spiegato Jacobs. "In linea di principio, lo strumento dovrebbe funzionare in qualsiasi lingua per la quale è possibile scaricare i cosiddetti modelli di spazio vettoriale di Facebook, sulla pagina web di fastText. Mentre il mio studio si concentra su inglese e tedesco, potresti usarlo anche in malese, Farsi o un dialetto cinese, e una moltitudine di altre lingue, poiché fastText dispone di modelli di spazio vettoriale per oltre 290 lingue."

    Jacobs sottolinea che SentiArt è abbastanza facile da usare, aggiungendo che è stato in grado di insegnare a 30 studenti di letteratura tedesca come usarlo durante una lezione di un'ora. Nel suo recente lavoro, ha testato l'accuratezza dello strumento utilizzando i dati raccolti durante uno studio neurocognitivo e poi lo ha usato per calcolare i profili delle figure emotive e della personalità per alcuni dei principali personaggi di Harry Potter, compreso Voldemort, Piton, Hermione, Hagrid, Harry, Silente e Dobby.

    interessante, ha calcolato le figure emotive e i profili di personalità di questi personaggi sulla base della teoria della personalità dei "cinque grandi", un costrutto consolidato nella ricerca psicologica. La teoria dei "cinque grandi" viene generalmente utilizzata per misurare approssimativamente i tratti della personalità delle persone sulla base di cinque dimensioni chiave, vale a dire apertura, coscienziosità, estroversione, gradevolezza e stabilità emotiva.

    Jacobs ha effettuato una serie di analisi confrontando lo strumento che ha sviluppato con altri classificatori di machine learning per l'analisi del sentiment, come Vader e Hu-Liu. SentiArt si è comportato molto bene nel prevedere il potenziale emotivo dei passaggi di testo dei libri di Harry Potter, facendo anche previsioni plausibili sul profilo emotivo e della personalità dei personaggi immaginari. Finalmente, lo strumento ha raggiunto una promettente precisione di convalida incrociata nel classificare 100 figure immaginarie in "buone" o "cattive".

    "Il documento riguarda poche applicazioni limitate e in due lingue (tedesco/inglese), quindi prima di poter speculare sul potenziale applicativo, essere uno scienziato sperimentale, Mi piacerebbe avere molti più studi di convalida incrociata che utilizzano dati umani, " Jacobs ha spiegato. "Questo è proprio il modo in cui sono addestrato, sebbene di solito nell'elaborazione del linguaggio naturale (NLP) o nella comunità di apprendimento automatico queste non siano le priorità principali. Ma come neurolinguisti, cercheremmo sempre di testare le previsioni di un algoritmo con dati umani prima di speculare su cosa sia veramente utile".

    Sebbene Jacobs sottolinei la necessità di ulteriori studi per accertare l'efficacia e la generalizzabilità di SentiArt, lo strumento da lui sviluppato potrebbe eventualmente avere numerose interessanti applicazioni. Ad esempio, potrebbe essere applicato in campi come la linguistica computazionale, psicologia della personalità, digital humanities e forse anche in ambito clinico. Può, in linea di principio, essere applicato anche a personaggi non di fantasia che appaiono in Wikipedia o Wikinews, per esempio. Winston Churchill, Marilyn Monroe o Angela Merkel.

    "Il modello si adatta a una prima serie di dati empirici, le valutazioni di Harry Potter, è decisamente incoraggiante, " ha aggiunto Jacobs. "Anche due dei più popolari strumenti di analisi del sentimento con cui l'ho confrontato non se la passano meglio in questo contesto, quindi penso che questo sia un risultato che merita la pubblicazione. Penso che mostrare il profilo emotivo del personaggio di Voldemort o Harry Potter sia stato un bel trucco, ma certo, lo strumento potrebbe essere applicato anche a personaggi non di fantasia."

    Jacobs sta ora pianificando di condurre ulteriori studi di convalida incrociata testando le previsioni del suo modello con dati umani. Spera che i team di altre università facciano lo stesso, utilizzando i dati raccolti tramite Amazon Turk o i dati di neuroimaging, come nello studio "Harry Potter" condotto nel suo laboratorio. Inoltre, vorrebbe esplorare modi per migliorare le prestazioni degli strumenti di analisi del sentimento nelle attività utilizzando regressori di apprendimento automatico anziché classificatori.

    "Gli approcci di machine learning sono generalmente divisi in due diverse tipologie, " ha spiegato Jacobs. "I primi sono approcci di classificazione, che classificano i dati in categorie, such as positive or negative. This is where my algorithm does very well. The hard test is not classification, it's regression, which entails fitting an algorithm's predictions to continuous human data, such as ratings on a scale from one to 10. Few people in sentiment analysis use regressors, especially for literary texts, because accuracy tends to drop, ad esempio, from over 90 percent to about 30 percent to 50 percent. I would like to see more work testing this, and once more empirical data has been published, I will try to improve parts of the algorithm in agreement with this new data."

    In addition to his research endeavors, Jacobs will soon start teaching natural language programming (NLP) and machine learning as part of a new data science course at Freie Universität Berlin. His hope is to train new generations of data scientists to value the collection of empirical human data related to reading literature and poetry just as much as publishing code or predicting particular things.

    © 2019 Scienza X Rete




    © Scienza https://it.scienceaq.com