Martin Schrimpf. Credito:Kris Brewer
Quando apriamo gli occhi al mattino e vediamo la prima scena della giornata, non pensiamo molto al fatto che il nostro cervello stia elaborando gli oggetti all'interno del nostro campo visivo con grande efficienza e che stia compensando la mancanza di informazioni su ciò che ci circonda, tutto per consentirci di svolgere le nostre attività quotidiane funzioni. Il bicchiere d'acqua che hai lasciato sul comodino mentre ti preparavi per andare a letto ora è parzialmente bloccato dalla tua visuale dalla sveglia, eppure sai che è un bicchiere.
Questa capacità apparentemente semplice per gli umani di riconoscere oggetti parzialmente occlusi, definita in questa situazione come l'effetto di un oggetto in uno spazio 3D che blocca un altro oggetto dalla vista, è stata un problema complicato per la comunità della visione artificiale. Martin Schrimpf, uno studente laureato nel laboratorio DiCarlo del Dipartimento di Scienze del cervello e della cognizione del MIT, spiega che le macchine sono diventate sempre più abili nel riconoscere interi oggetti in modo rapido e sicuro, ma quando qualcosa copre parte di quell'oggetto dalla vista, questo compito diventa sempre più difficile per i modelli per riconoscere con precisione l'articolo.
"Per far funzionare i modelli dalla visione artificiale nella vita di tutti i giorni, devono essere in grado di digerire gli oggetti occlusi così come quelli interi, dopo tutto, quando ti guardi intorno, la maggior parte degli oggetti è parzialmente nascosta dietro un altro oggetto, "dice Schrimpf, coautore di un articolo sull'argomento che è stato recentemente pubblicato in Atti dell'Accademia Nazionale delle Scienze ( PNAS ).
Nel nuovo studio, lui dice, "abbiamo scavato nei calcoli sottostanti nel cervello e poi abbiamo usato le nostre scoperte per costruire modelli computazionali. Ricapitolando l'elaborazione visiva nel cervello umano, speriamo quindi di migliorare anche i modelli nella visione artificiale."
In che modo noi umani siamo in grado di svolgere ripetutamente questo compito quotidiano senza mettere molto pensiero ed energia in questa azione, identificare intere scene in modo rapido e accurato dopo aver visto solo pezzi? I ricercatori nello studio hanno iniziato con la corteccia visiva umana come modello per migliorare le prestazioni delle macchine in questo contesto, dice Gabriel Kreiman, un affiliato del MIT Center for Brains, menti, e macchine. Kreinman è professore di oftalmologia al Boston Children's Hospital e alla Harvard Medical School ed è stato il principale investigatore dello studio.
Nella loro carta, "Calcoli ricorrenti per il completamento del modello visivo, " il team ha mostrato come hanno sviluppato un modello computazionale, ispirato da vincoli fisiologici e anatomici, che è stato in grado di catturare le osservazioni comportamentali e neurofisiologiche durante il completamento del modello. Alla fine, il modello ha fornito utili spunti per comprendere come fare inferenze da informazioni minime.
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.