Gli ingegneri traducono i segnali cerebrali direttamente in parole

Credito:CC0 Dominio Pubblico

In una prima scientifica, I neuroingegneri della Columbia hanno creato un sistema che traduce il pensiero in intelligibile, discorso riconoscibile. Monitorando l'attività cerebrale di qualcuno, la tecnologia può ricostruire le parole che una persona sente con una chiarezza senza precedenti. Questa svolta, che sfrutta la potenza dei sintetizzatori vocali e dell'intelligenza artificiale, potrebbe portare a nuovi modi per i computer di comunicare direttamente con il cervello. Inoltre pone le basi per aiutare le persone che non possono parlare, come quelli che convivono con la sclerosi laterale amiotrofica (SLA) o si stanno riprendendo da un ictus, riacquistare la capacità di comunicare con il mondo esterno.

Questi risultati sono stati pubblicati oggi in Rapporti scientifici .

"Le nostre voci ci aiutano a connetterci con i nostri amici, la famiglia e il mondo che ci circonda, ecco perché perdere il potere della propria voce a causa di lesioni o malattie è così devastante, " disse Nima Mesgarani, dottorato di ricerca, autore senior del documento e ricercatore principale presso il Mortimer B. Zuckerman Mind Brain Behavior Institute della Columbia University. "Con lo studio di oggi, abbiamo un modo potenziale per ripristinare quel potere. Abbiamo dimostrato che, con la giusta tecnologia, i pensieri di queste persone potrebbero essere decodificati e compresi da qualsiasi ascoltatore".

Decenni di ricerche hanno dimostrato che quando le persone parlano, o addirittura immaginano di parlare, nel loro cervello compaiono modelli di attività rivelatori. Emergono anche schemi distinti (ma riconoscibili) di segnali quando ascoltiamo qualcuno che parla, o immagina di ascoltare. Esperti, cercando di registrare e decodificare questi schemi, vedere un futuro in cui i pensieri non devono rimanere nascosti all'interno del cervello, ma potrebbero invece essere tradotti in discorsi verbali a piacimento.

Ma realizzare questa impresa si è rivelato impegnativo. I primi sforzi per decodificare i segnali cerebrali del Dr. Mesgarani e altri si sono concentrati su semplici modelli al computer che analizzavano gli spettrogrammi, che sono rappresentazioni visive di frequenze sonore.

Ma poiché questo approccio non è riuscito a produrre nulla che assomigli a un discorso intelligibile, Il team del Dr. Mesgarani si è invece rivolto a un vocoder, un algoritmo informatico in grado di sintetizzare il parlato dopo essere stato addestrato su registrazioni di persone che parlano.

"Questa è la stessa tecnologia utilizzata da Amazon Echo e Apple Siri per dare risposte verbali alle nostre domande, " ha detto il dottor Mesgarani, che è anche professore associato di ingegneria elettrica presso la Fu Foundation School of Engineering and Applied Science della Columbia.

Una rappresentazione dei primi approcci per ricostruire il discorso, che utilizzano modelli lineari e spettrogrammi. Credito:Nima Mesgarani/Columbia's Zuckerman Institute

Per insegnare al vocoder a interpretare l'attività cerebrale, Il dottor Mesgarani ha collaborato con Ashesh Dinesh Mehta, dottore, dottorato di ricerca, neurochirurgo presso il Northwell Health Physician Partners Neuroscience Institute e coautore dell'articolo di oggi. Il dottor Mehta cura i pazienti con epilessia, alcuni dei quali devono essere sottoposti a regolari interventi chirurgici.

"Lavorando con il dottor Mehta, abbiamo chiesto a pazienti epilettici già sottoposti a chirurgia cerebrale di ascoltare frasi pronunciate da persone diverse, mentre abbiamo misurato i modelli di attività cerebrale, " ha detto il dottor Mesgarani. "Questi schemi neurali hanno addestrato il vocoder".

Prossimo, i ricercatori hanno chiesto a quegli stessi pazienti di ascoltare gli altoparlanti che recitavano cifre comprese tra 0 e 9, durante la registrazione di segnali cerebrali che potrebbero poi essere eseguiti attraverso il vocoder. Il suono prodotto dal vocoder in risposta a quei segnali è stato analizzato e ripulito da reti neurali, un tipo di intelligenza artificiale che imita la struttura dei neuroni nel cervello biologico.

Rappresentazione del nuovo approccio del Dr. Mesgarani che utilizza un vocoder e una rete neurale profonda per ricostruire il discorso. Credito:Nima Mesgarani/Columbia's Zuckerman Institute

Il risultato finale era una voce dal suono robotico che recitava una sequenza di numeri. Per verificare l'accuratezza della registrazione, Il Dr. Mesgarani e il suo team hanno incaricato le persone di ascoltare la registrazione e riportare ciò che hanno sentito.

"Abbiamo scoperto che le persone potevano capire e ripetere i suoni circa il 75% delle volte, che è ben al di sopra e al di là di ogni precedente tentativo, " ha affermato il dottor Mesgarani. Il miglioramento dell'intelligibilità è stato particolarmente evidente quando si confrontano le nuove registrazioni con le precedenti, tentativi basati su spettrogrammi. "Il vocoder sensibile e le potenti reti neurali rappresentavano i suoni che i pazienti avevano originariamente ascoltato con sorprendente accuratezza".

Il dottor Mesgarani e il suo team hanno in programma di testare parole e frasi più complicate in seguito, e vogliono eseguire gli stessi test sui segnali cerebrali emessi quando una persona parla o immagina di parlare. In definitiva, sperano che il loro sistema possa far parte di un impianto, simili a quelli indossati da alcuni pazienti epilettici, che traduce i pensieri di chi lo indossa direttamente in parole.

"In questo scenario, se chi lo indossa pensa 'ho bisogno di un bicchiere d'acqua, ' il nostro sistema potrebbe prendere i segnali cerebrali generati da quel pensiero, e trasformarli in sintetizzati, discorso verbale, " ha detto il dottor Mesgarani. "Questo sarebbe un punto di svolta. Darebbe a chiunque abbia perso la capacità di parlare, sia per infortunio o malattia, la rinnovata possibilità di connettersi con il mondo che li circonda."

Questo articolo è intitolato "Verso la ricostruzione del discorso intelligibile dalla corteccia uditiva umana".

Nuovi metodi di analisi facilitano la valutazione di dati ingegneristici complessi

Windows Lite:Whispers si concentra sulla semplificazione, abbandonare e comfort simile a Windows 7

Elettronica