I ricercatori del MIT hanno sviluppato un modello di rete neurale in grado di analizzare testi grezzi e dati audio dalle interviste per scoprire modelli di discorso indicativi di depressione. Questo metodo potrebbe essere utilizzato per sviluppare ausili diagnostici per i medici in grado di rilevare segni di depressione in una conversazione naturale. Credito:Massachusetts Institute of Technology
Per diagnosticare la depressione, i medici intervistano i pazienti, fare domande specifiche su, dire, malattie mentali del passato, stile di vita, e l'umore e identificare la condizione in base alle risposte del paziente.
Negli ultimi anni, l'apprendimento automatico è stato promosso come un utile aiuto per la diagnostica. Modelli di apprendimento automatico, ad esempio, sono stati sviluppati in grado di rilevare parole e intonazioni del discorso che possono indicare depressione. Ma questi modelli tendono a prevedere che una persona sia depressa o meno, sulla base delle risposte specifiche della persona a domande specifiche. Questi metodi sono accurati, ma la loro dipendenza dal tipo di domanda posta limita come e dove possono essere utilizzati.
In un documento presentato alla conferenza Interspeech, I ricercatori del MIT descrivono in dettaglio un modello di rete neurale che può essere scatenato su testi grezzi e dati audio dalle interviste per scoprire modelli di discorso indicativi di depressione. Dato un nuovo soggetto, può prevedere con precisione se l'individuo è depresso, senza bisogno di altre informazioni sulle domande e risposte.
I ricercatori sperano che questo metodo possa essere utilizzato per sviluppare strumenti per rilevare i segni di depressione nelle conversazioni naturali. Nel futuro, il modello potrebbe ad esempio, potenti app mobili che monitorano il testo e la voce di un utente per il disagio mentale e inviano avvisi. Questo potrebbe essere particolarmente utile per coloro che non possono rivolgersi a un medico per una diagnosi iniziale, a causa della distanza, costo, o una mancanza di consapevolezza che qualcosa potrebbe essere sbagliato.
"I primi indizi che abbiamo che una persona è felice, emozionato, triste, o ha qualche grave condizione cognitiva, come la depressione, è attraverso il loro discorso, " dice il primo autore Tuka Alhanai, ricercatore presso il Laboratorio di Informatica e Intelligenza Artificiale (CSAIL). "Se vuoi distribuire modelli [di rilevamento della depressione] in modo scalabile … vuoi ridurre al minimo la quantità di vincoli che hai sui dati che stai utilizzando. Vuoi distribuirli in qualsiasi conversazione regolare e far riprendere il modello, dall'interazione naturale, lo stato dell'individuo».
La tecnologia potrebbe ancora, Certo, essere utilizzato per identificare il disagio mentale in conversazioni casuali negli studi clinici, aggiunge il coautore James Glass, un ricercatore senior in CSAIL. "Ogni paziente parlerà in modo diverso, e se il modello vedrà dei cambiamenti forse sarà una bandiera per i medici, " dice. "Questo è un passo avanti nel vedere se possiamo fare qualcosa di assistivo per aiutare i medici".
L'altro coautore dell'articolo è Mohammad Ghassemi, un membro dell'Istituto per l'ingegneria e la scienza medica (IMES).
Modellazione senza contesto
L'innovazione chiave del modello risiede nella sua capacità di rilevare schemi indicativi di depressione, e poi mappare quei modelli a nuovi individui, senza ulteriori informazioni. "Lo chiamiamo 'senza contesto, ' perché non stai ponendo alcun vincolo sui tipi di domande che stai cercando e sul tipo di risposte a tali domande, " dice Alhanai.
Altri modelli sono dotati di una serie specifica di domande, e poi forniti esempi di come reagisce una persona senza depressione ed esempi di come reagisce una persona con depressione, ad esempio, la semplice inchiesta, "Hai una storia di depressione?" Usa quelle risposte esatte per determinare se un nuovo individuo è depresso quando viene posta la stessa identica domanda. "Ma non è così che funzionano le conversazioni naturali, " dice Alhanai.
I ricercatori, d'altra parte, utilizzato una tecnica chiamata modellazione di sequenza, spesso utilizzato per l'elaborazione del parlato. Con questa tecnica, hanno alimentato le sequenze del modello di dati testuali e audio da domande e risposte, da individui depressi e non depressi, uno per uno. Man mano che le sequenze si accumulavano, il modello ha estratto i modelli di discorso che sono emersi per le persone con o senza depressione. Parole come, dire, "triste, " "basso, " o "giù, " possono essere abbinati a segnali audio più piatti e monotoni. Gli individui con depressione possono anche parlare più lentamente e utilizzare pause più lunghe tra le parole. Questi identificatori testuali e audio per il disagio mentale sono stati esplorati in ricerche precedenti. Alla fine dipendeva dal modello per determinare se alcuni modelli erano predittivi di depressione o meno.
"Il modello vede sequenze di parole o stile di pronuncia, e determina che questi modelli hanno maggiori probabilità di essere visti nelle persone depresse o non depresse, " dice Alhanai. "Allora, se vede le stesse sequenze in nuovi soggetti, può prevedere se anche loro sono depressi."
Questa tecnica di sequenziamento aiuta anche il modello a guardare la conversazione nel suo insieme e a notare le differenze tra il modo in cui le persone con e senza depressione parlano nel tempo.
Rilevare la depressione
I ricercatori hanno addestrato e testato il loro modello su un set di dati di 142 interazioni del Distress Analysis Interview Corpus che contiene audio, testo, e interviste video di pazienti con problemi di salute mentale e agenti virtuali controllati da esseri umani. Ogni soggetto è valutato in termini di depressione su una scala da 0 a 27, utilizzando il questionario sulla salute personale. I punteggi al di sopra di un limite tra moderato (da 10 a 14) e moderatamente grave (da 15 a 19) sono considerati depressi, mentre tutti gli altri al di sotto di tale soglia sono considerati non depressi. Tra tutti i soggetti nel set di dati, 28 (20 percento) sono etichettati come depressi.
Negli esperimenti, il modello è stato valutato utilizzando metriche di precisione e richiamo. La precisione misura quale dei soggetti depressi identificati dal modello è stato diagnosticato come depresso. Recall misura l'accuratezza del modello nel rilevare tutti i soggetti a cui è stata diagnosticata la depressione nell'intero set di dati. In precisione, the model scored 71 percent and, on recall, scored 83 percent. The averaged combined score for those metrics, considering any errors, was 77 percent. In the majority of tests, the researchers' model outperformed nearly all other models.
One key insight from the research, Alhanai notes, is that, during experiments, the model needed much more data to predict depression from audio than text. With text, the model can accurately detect depression using an average of seven question-answer sequences. With audio, the model needed around 30 sequences. "That implies that the patterns in words people use that are predictive of depression happen in shorter time span in text than in audio, " Alhanai says. Such insights could help the MIT researchers, and others, further refine their models.
This work represents a "very encouraging" pilot, Glass says. But now the researchers seek to discover what specific patterns the model identifies across scores of raw data. "Right now it's a bit of a black box, " Glass says. "These systems, però, are more believable when you have an explanation of what they're picking up. … The next challenge is finding out what data it's seized upon."
The researchers also aim to test these methods on additional data from many more subjects with other cognitive conditions, such as dementia. "It's not so much detecting depression, but it's a similar concept of evaluating, from an everyday signal in speech, if someone has cognitive impairment or not, " Alhanai says.
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.