Credito:CC0 Dominio Pubblico
Quando tua madre chiama il tuo nome, sai che è la sua voce, non importa il volume, anche su una connessione cellulare scadente. E quando vedi il suo viso, sai che è sua, se è lontana, se l'illuminazione è scarsa, o se stai facendo una brutta chiamata FaceTime. Questa robustezza alla variazione è un segno distintivo della percezione umana. D'altra parte, siamo suscettibili alle illusioni:potremmo non riuscire a distinguere tra suoni o immagini che sono, infatti, diverso. Gli scienziati hanno spiegato molte di queste illusioni, ma ci manca una piena comprensione delle invarianze nei nostri sistemi uditivo e visivo.
Le reti neurali profonde hanno anche svolto attività di riconoscimento vocale e classificazione delle immagini con un'impressionante robustezza alle variazioni degli stimoli uditivi o visivi. Ma le invarianze apprese da questi modelli sono simili alle invarianze apprese dai sistemi percettivi umani? Un gruppo di ricercatori del MIT ha scoperto che sono diversi. Hanno presentato i loro risultati ieri alla Conferenza 2019 sui sistemi di elaborazione delle informazioni neurali.
I ricercatori hanno realizzato una nuova generalizzazione di un concetto classico:"metameri", stimoli fisicamente distinti che generano lo stesso effetto percettivo. Gli esempi più famosi di stimoli metamerici sorgono perché la maggior parte delle persone ha tre diversi tipi di coni nelle loro retine, responsabili della visione dei colori. Il colore percepito di ogni singola lunghezza d'onda della luce può corrispondere esattamente a una particolare combinazione di tre luci di colori diversi, ad esempio, rosso, verde, e luci blu. Gli scienziati del diciannovesimo secolo hanno dedotto da questa osservazione che gli esseri umani hanno tre diversi tipi di rilevatori di luce intensa nei nostri occhi. Questa è la base per i display elettronici a colori su tutti gli schermi che osserviamo ogni giorno. Un altro esempio nel sistema visivo è che quando fissiamo lo sguardo su un oggetto, possiamo percepire scene visive circostanti che differiscono alla periferia come identiche. Nel dominio uditivo, si può osservare qualcosa di analogo. Per esempio, il suono "strutturale" di due sciami di insetti potrebbe essere indistinguibile, pur differendo nei dettagli acustici che li compongono, perché hanno proprietà statistiche aggregate simili. In ogni caso, i metameri forniscono informazioni sui meccanismi della percezione, e vincolare i modelli dei sistemi visivi o uditivi umani.
Nel lavoro attuale, i ricercatori hanno scelto casualmente immagini naturali e clip audio di parole pronunciate da database standard, e poi sintetizzava suoni e immagini in modo che le reti neurali profonde li classificassero nelle stesse classi delle loro controparti naturali. Questo è, hanno generato stimoli fisicamente distinti che sono classificati in modo identico dai modelli, piuttosto che dagli umani. Questo è un nuovo modo di pensare ai metameri, generalizzare il concetto per scambiare il ruolo dei modelli informatici per i percettori umani. Hanno quindi chiamato questi stimoli sintetizzati "metameri modello" degli stimoli naturali accoppiati. I ricercatori hanno quindi testato se gli esseri umani potevano identificare le parole e le immagini.
"I partecipanti hanno ascoltato un breve segmento del discorso e hanno dovuto identificare da un elenco di parole quale parola si trovava al centro della clip. Per l'audio naturale questo compito è facile, ma per molti dei metameri modello gli umani hanno avuto difficoltà a riconoscere il suono, " spiega la prima autrice Jenelle Feather, uno studente laureato presso il Dipartimento di Scienze del Cervello e della Cognizione (BCS) del MIT e membro del Centro per i cervelli, menti, e macchine (CBMM). Questo è, gli esseri umani non metterebbero gli stimoli sintetici nella stessa classe della parola pronunciata "uccello" o dell'immagine di un uccello. Infatti, I metameri del modello generati per abbinare le risposte degli strati più profondi del modello erano generalmente irriconoscibili come parole o immagini da parte di soggetti umani.
Josh McDermott, professore associato in BCS e ricercatore in CBMM, fa il seguente caso:"La logica di base è che se abbiamo un buon modello di percezione umana, diciamo del riconoscimento vocale, quindi se scegliamo due suoni che il modello dice essere gli stessi e presentiamo questi due suoni a un ascoltatore umano, quell'umano dovrebbe anche dire che i due suoni sono gli stessi. Se invece l'ascoltatore umano percepisce gli stimoli come diversi, questa è una chiara indicazione che le rappresentazioni nel nostro modello non corrispondono a quelle della percezione umana".
Insieme a Feather e McDermott sul giornale ci sono Alex Durango, uno studente post-diploma di maturità, e Ray González, un assistente di ricerca, entrambi in BCS.
C'è un altro tipo di fallimento delle reti profonde che ha ricevuto molta attenzione dai media:esempi contraddittori (vedi, Per esempio, "Perché il mio classificatore ha semplicemente scambiato una tartaruga per un fucile?"). Questi sono stimoli che sembrano simili agli umani ma sono classificati erroneamente da una rete modello (in base alla progettazione:sono costruiti per essere classificati erroneamente). Sono complementari agli stimoli generati dal gruppo di Feather, che suonano o appaiono diversi agli umani ma sono progettati per essere co-classificati dalla rete modello. Le vulnerabilità delle reti modello esposte agli attacchi avversari sono ben note:il software di riconoscimento facciale potrebbe confondere le identità; i veicoli automatizzati potrebbero non riconoscere i pedoni.
L'importanza di questo lavoro risiede nel migliorare i modelli di percezione al di là delle reti profonde. Sebbene gli esempi contraddittori standard indichino differenze tra reti profonde e sistemi percettivi umani, i nuovi stimoli generati dal gruppo McDermott rappresentano probabilmente un fallimento del modello più fondamentale:mostrano che esempi generici di stimoli classificati come uguali da una rete profonda producono percezioni selvaggiamente diverse per gli umani.
Il team ha anche scoperto modi per modificare le reti modello per produrre metameri che fossero suoni e immagini più plausibili per gli umani. Come dice McDermott, "Questo ci fa sperare che alla fine potremmo essere in grado di sviluppare modelli che superino il test dei metameri e catturino meglio le invarianze umane".
"I metameri modello dimostrano un significativo fallimento delle attuali reti neurali per abbinare le invarianze nei sistemi visivi e uditivi umani, "dice Piuma, "Speriamo che questo lavoro fornisca un utile strumento di misurazione comportamentale per migliorare le rappresentazioni dei modelli e creare modelli migliori dei sistemi sensoriali umani".
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.