Da dove viene quel suono? Il modello al computer può rispondere a questa domanda così come il cervello umano può

Credito:CC0 di pubblico dominio

Il cervello umano è finemente sintonizzato non solo per riconoscere suoni particolari, ma anche per determinare da quale direzione provengono. Confrontando le differenze nei suoni che raggiungono l'orecchio destro e sinistro, il cervello può stimare la posizione di un cane che abbaia, di un'autopompa che si lamenta o di un'auto in avvicinamento.

I neuroscienziati del MIT hanno ora sviluppato un modello computerizzato che può anche svolgere quel compito complesso. Il modello, che consiste in diverse reti neurali convoluzionali, non solo svolge il compito così come lo fanno gli umani, ma si sforza anche nello stesso modo in cui lo fanno gli umani.

"Ora abbiamo un modello in grado di localizzare effettivamente i suoni nel mondo reale", afferma Josh McDermott, professore associato di scienze cognitive e del cervello e membro del McGovern Institute for Brain Research del MIT. "E quando abbiamo trattato il modello come un partecipante sperimentale umano e abbiamo simulato questa vasta serie di esperimenti su cui le persone avevano testato gli esseri umani in passato, ciò che abbiamo scoperto più e più volte è che il modello riassume i risultati che vedi negli esseri umani".

I risultati del nuovo studio suggeriscono anche che la capacità degli esseri umani di percepire la posizione è adattata alle sfide specifiche del nostro ambiente, afferma McDermott, che è anche membro del Center for Brains, Minds, and Machines del MIT.

McDermott è l'autore senior dell'articolo, che appare oggi in Nature Human Behaviour . L'autore principale del documento è lo studente laureato del MIT Andrew Francl.

Localizzazione dei modelli

Quando sentiamo un suono come il fischio di un treno, le onde sonore raggiungono le nostre orecchie destra e sinistra a tempi e intensità leggermente diversi, a seconda della direzione da cui proviene il suono. Parti del mesencefalo sono specializzate per confrontare queste lievi differenze per aiutare a stimare da quale direzione provenga il suono, un'attività nota anche come localizzazione.

Questo compito diventa notevolmente più difficile nelle condizioni del mondo reale, dove l'ambiente produce echi e si sentono molti suoni contemporaneamente.

Gli scienziati hanno cercato a lungo di costruire modelli computerizzati in grado di eseguire lo stesso tipo di calcoli che il cervello usa per localizzare i suoni. Questi modelli a volte funzionano bene in ambienti idealizzati senza rumore di fondo, ma mai in ambienti reali, con i loro rumori ed echi.

Per sviluppare un modello di localizzazione più sofisticato, il team del MIT si è rivolto alle reti neurali convoluzionali. Questo tipo di modellazione al computer è stato ampiamente utilizzato per modellare il sistema visivo umano e, più recentemente, McDermott e altri scienziati hanno iniziato ad applicarlo anche alle audizioni.

Le reti neurali convoluzionali possono essere progettate con molte architetture diverse, quindi per aiutarli a trovare quelle che funzionerebbero meglio per la localizzazione, il team del MIT ha utilizzato un supercomputer che ha permesso loro di addestrare e testare circa 1.500 modelli diversi. Quella ricerca ha identificato 10 che sembravano i più adatti per la localizzazione, che i ricercatori hanno ulteriormente formato e utilizzato per tutti i loro studi successivi.

Per addestrare i modelli, i ricercatori hanno creato un mondo virtuale in cui possono controllare le dimensioni della stanza e le proprietà di riflessione delle pareti della stanza. Tutti i suoni alimentati ai modelli provenivano da qualche parte in una di queste stanze virtuali. L'insieme di oltre 400 suoni di addestramento includeva voci umane, versi di animali, suoni di macchine come motori di automobili e suoni naturali come tuoni.

I ricercatori hanno anche assicurato che il modello iniziasse con le stesse informazioni fornite dalle orecchie umane. L'orecchio esterno, o pinna, ha molte pieghe che riflettono il suono, alterando le frequenze che entrano nell'orecchio, e questi riflessi variano a seconda della provenienza del suono. I ricercatori hanno simulato questo effetto eseguendo ogni suono attraverso una funzione matematica specializzata prima che entrasse nel modello del computer.

"Questo ci consente di fornire al modello lo stesso tipo di informazioni che avrebbe una persona", afferma Francl.

Dopo aver addestrato i modelli, i ricercatori li hanno testati in un ambiente reale. Hanno posizionato un manichino con microfoni nelle orecchie in una stanza reale e hanno riprodotto suoni da diverse direzioni, quindi hanno inserito quelle registrazioni nei modelli. I modelli si sono comportati in modo molto simile agli umani quando è stato chiesto di localizzare questi suoni.

"Sebbene il modello sia stato addestrato in un mondo virtuale, quando lo abbiamo valutato, poteva localizzare i suoni nel mondo reale", afferma Francl.

Modelli simili

I ricercatori hanno quindi sottoposto i modelli a una serie di test che gli scienziati hanno utilizzato in passato per studiare le capacità di localizzazione degli esseri umani.

Oltre ad analizzare la differenza nel tempo di arrivo all'orecchio destro e sinistro, il cervello umano basa i suoi giudizi sulla posizione anche sulle differenze nell'intensità del suono che raggiunge ciascun orecchio. Studi precedenti hanno dimostrato che il successo di entrambe queste strategie varia a seconda della frequenza del suono in ingresso. Nel nuovo studio, il team del MIT ha scoperto che i modelli mostravano lo stesso modello di sensibilità alla frequenza.

"Il modello sembra utilizzare le differenze di tempo e livello tra le due orecchie allo stesso modo delle persone, in un modo che dipende dalla frequenza", afferma McDermott.

I ricercatori hanno anche dimostrato che quando hanno reso più difficili le attività di localizzazione, aggiungendo più sorgenti sonore riprodotte contemporaneamente, le prestazioni dei modelli computerizzati sono diminuite in un modo che imitava da vicino i modelli di fallimento umano nelle stesse circostanze.

"Man mano che si aggiungono sempre più fonti, si ottiene un modello specifico di declino nella capacità degli esseri umani di giudicare accuratamente il numero di fonti presenti e la loro capacità di localizzare tali fonti", afferma Francl. "Gli esseri umani sembrano limitarsi a localizzare circa tre sorgenti contemporaneamente e quando abbiamo eseguito lo stesso test sul modello, abbiamo riscontrato un modello di comportamento davvero simile".

Poiché i ricercatori hanno utilizzato un mondo virtuale per addestrare i loro modelli, sono stati anche in grado di esplorare cosa succede quando il loro modello ha imparato a localizzarsi in diversi tipi di condizioni innaturali. I ricercatori hanno addestrato una serie di modelli in un mondo virtuale senza echi e un altro in un mondo in cui non si sentiva mai più di un suono alla volta. In un terzo, i modelli sono stati esposti solo a suoni con gamme di frequenza ristrette, anziché a suoni naturali.

Quando i modelli addestrati in questi mondi innaturali sono stati valutati sulla stessa batteria di test comportamentali, i modelli si sono discostati dal comportamento umano e i modi in cui hanno fallito variavano a seconda del tipo di ambiente in cui erano stati addestrati. Questi risultati supportano l'idea che le capacità di localizzazione del cervello umano sono adattate agli ambienti in cui gli esseri umani si sono evoluti, affermano i ricercatori.

I ricercatori stanno ora applicando questo tipo di modellazione ad altri aspetti dell'audizione, come la percezione del tono e il riconoscimento vocale, e ritengono che potrebbe essere utilizzato anche per comprendere altri fenomeni cognitivi, come i limiti a ciò a cui una persona può prestare attenzione o ricordare , dice McDermott.

Come analizzare al meglio i big social data

Il 5G potrebbe davvero atterrare? Perché gli Stati Uniti hanno ritardato l'implementazione della tecnologia vicino agli aeroporti

Elettronica