Spettrogrammi di esempio da ciascuna delle 4 classi incluse. Credito:Papakostas et al.
I ricercatori dell'Università del Texas ad Arlington hanno recentemente esplorato l'uso dell'apprendimento automatico per il riconoscimento delle emozioni basato esclusivamente su informazioni paralinguistiche. La paralinguistica sono aspetti della comunicazione orale che non implicano parole, come pece, volume, intonazione, eccetera.
I recenti progressi nell'apprendimento automatico hanno portato allo sviluppo di strumenti in grado di riconoscere gli stati emotivi analizzando immagini, registrazioni vocali, elettroencefalogrammi o elettrocardiogrammi. Questi strumenti potrebbero avere diverse applicazioni interessanti, ad esempio, consentire interazioni uomo-computer più efficienti in cui un computer riconosce e risponde alle emozioni di un utente umano.
"Generalmente, si può sostenere che il discorso porta due tipi distinti di informazioni:informazioni esplicite o linguistiche, che riguarda schemi articolati dal parlante; e informazioni implicite o paralinguistiche, che riguarda la variazione di pronuncia dei modelli linguistici, " hanno scritto i ricercatori nel loro articolo, pubblicato in Progressi nella medicina sperimentale e nella biologia serie di libri. "Utilizzando uno o entrambi i tipi di informazioni, si può tentare di classificare un segmento audio che consiste in parlato, in base alle emozioni che porta. Però, il riconoscimento delle emozioni dal linguaggio sembra essere un compito significativamente difficile anche per un essere umano, non importa se è un esperto in questo campo (ad esempio uno psicologo)."
Molti approcci esistenti di riconoscimento vocale automatico (ASR) cercano di riconoscere le emozioni dal discorso analizzando le informazioni sia linguistiche che paralinguistiche. Concentrandosi in parte sulle proprietà linguistiche, questi modelli hanno diversi svantaggi, come una stretta dipendenza dalla lingua. I ricercatori hanno quindi deciso di concentrarsi sul riconoscimento delle emozioni basato solo sull'analisi delle informazioni paralinguistiche, con la speranza di ottenere il riconoscimento delle emozioni multilingue.
"In questo documento, miriamo ad analizzare le emozioni dei parlanti basandoci esclusivamente su informazioni paralinguistiche, " hanno scritto i ricercatori nel loro articolo. "Confrontiamo due approcci di apprendimento automatico, vale a dire una rete neurale convoluzionale (CNN) e una macchina vettoriale di supporto (SVM)."
I ricercatori hanno addestrato un modello CNN su spettrogrammi grezzi e un modello SVM su una serie di funzionalità di basso livello. Entrambi i modelli sono stati addestrati e valutati utilizzando tre set di dati sul discorso emotivo ampiamente conosciuti:EMOVO, SALVA, e EMO-DB. Questi set di dati contengono registrazioni di discorsi emotivi in diverse lingue:italiano, rispettivamente inglese e tedesco.
I due modelli di apprendimento automatico sono stati addestrati a riconoscere quattro classi di emozioni comuni:felicità, tristezza, rabbia e neutralità. I ricercatori hanno condotto tre esperimenti per ciascun approccio di apprendimento automatico, dove un singolo set di dati è stato utilizzato per i test e i restanti due per l'addestramento.
"Una delle maggiori difficoltà derivanti dalla scelta dei set di dati è la grande differenza tra le lingue, poiché oltre alle differenze linguistiche, c'è anche una grande variabilità nel modo in cui ogni emozione viene espressa, " hanno scritto i ricercatori nel loro articolo.
Globale, hanno scoperto che l'SVM ha funzionato molto meglio della CNN, ottenere i migliori risultati quando viene addestrato sui set di dati SAVEE ed EMOVO, ma testato su EMO-DB. Questi risultati erano promettenti ma non ottimali, suggerendo che siamo ancora molto lontani dal raggiungere un riconoscimento delle emozioni multilingue coerentemente efficace.
"I nostri piani per il lavoro futuro includono l'utilizzo di più set di dati per la formazione e la valutazione, " hanno scritto i ricercatori nel loro articolo. "Miriamo anche a indagare su altre reti di deep learning pre-addestrate, poiché riteniamo che l'apprendimento profondo possa contribuire in modo significativo al problema in questione. Finalmente, tra i nostri piani c'è quello di applicare tali approcci ai problemi della vita reale, per esempio. riconoscimento delle emozioni all'interno di programmi di formazione e/o educativi."
© 2018 Science X Network