Gli esperti di visione artificiale della Brown University insegnano ai computer a vedere le illusioni ottiche dipendenti dal contesto, nella speranza di aiutare gli algoritmi di visione artificiale a tenere conto del contesto e ad essere più robusti. Credito:Serre Lab/Brown University
Quel cerchio è verde o grigio? Le linee centrali sono dritte o inclinate?
Le illusioni ottiche possono essere divertenti da sperimentare e discutere, ma capire come il cervello umano percepisce questi diversi fenomeni rimane un'area attiva della ricerca scientifica. Per una classe di illusioni ottiche, chiamati fenomeni contestuali, si sa che quelle percezioni dipendono dal contesto. Per esempio, il colore che pensi sia un cerchio centrale dipende dal colore dell'anello circostante. A volte il colore esterno fa sembrare il colore interno più simile, come un anello verde vicino che fa apparire turchese un anello blu, ma a volte il colore esterno fa sembrare il colore interno meno simile, come un anello rosa che fa apparire verdastro un cerchio grigio.
Un team di esperti di visione artificiale della Brown University è tornato al punto di partenza per comprendere i meccanismi neurali di questi fenomeni contestuali. Il loro studio è stato pubblicato il 20 settembre in Revisione psicologica .
"C'è un consenso crescente sul fatto che le illusioni ottiche non siano un bug ma una caratteristica, " ha detto Thomas Serre, professore associato di cognizione, scienze linguistiche e psicologiche alla Brown e autore senior dell'articolo. "Penso che siano una caratteristica. Possono rappresentare casi limite per il nostro sistema visivo, ma la nostra visione è così potente nella vita di tutti i giorni e nel riconoscere gli oggetti."
Per lo studio, la squadra guidata da Serre, che è affiliato al Carney Institute for Brain Science di Brown, iniziato con un modello computazionale vincolato da dati anatomici e neurofisiologici della corteccia visiva. Il modello mirava a catturare il modo in cui i neuroni corticali vicini inviano messaggi l'uno all'altro e regolano le risposte reciproche quando vengono presentati con stimoli complessi come le illusioni ottiche contestuali.
Un'innovazione che il team ha incluso nel loro modello era un modello specifico di connessioni di feedback ipotizzate tra neuroni, disse Serre. Queste connessioni di feedback sono in grado di aumentare o diminuire, eccitare o inibire, la risposta di un neurone centrale, a seconda del contesto visivo.
Queste connessioni di feedback non sono presenti nella maggior parte degli algoritmi di deep learning. Il deep learning è un potente tipo di intelligenza artificiale in grado di apprendere modelli complessi nei dati, come il riconoscimento di immagini e l'analisi del parlato normale, e dipende da più strati di reti neurali artificiali che lavorano insieme. Però, la maggior parte degli algoritmi di deep learning include solo connessioni feedforward tra i livelli, non le innovative connessioni di feedback di Serre tra i neuroni all'interno di uno strato.
Una volta costruito il modello, il team ha presentato una serie di illusioni dipendenti dal contesto. I ricercatori hanno "sintonizzato" la forza delle connessioni eccitatorie o inibitorie di feedback in modo che i neuroni modello rispondessero in modo coerente con i dati neurofisiologici della corteccia visiva dei primati.
Quindi hanno testato il modello su una varietà di illusioni contestuali e hanno nuovamente scoperto che il modello percepiva le illusioni come gli umani.
Per verificare se hanno reso il modello inutilmente complesso, hanno lesionato il modello, rimuovendo selettivamente alcune delle connessioni. Quando al modello mancavano alcune delle connessioni, i dati non corrispondevano con la stessa precisione ai dati sulla percezione umana.
"Il nostro modello è il modello più semplice necessario e sufficiente per spiegare il comportamento della corteccia visiva rispetto alle illusioni contestuali, Serre ha detto. "Questo è stato davvero un lavoro di neuroscienza computazionale da manuale:abbiamo iniziato con un modello per spiegare i dati neurofisiologici e siamo finiti con le previsioni per i dati psicofisici umani".
Oltre a fornire una spiegazione unificante su come gli umani vedono una classe di illusioni ottiche, Serre sta basandosi su questo modello con l'obiettivo di migliorare la visione artificiale.
Algoritmi di visione artificiale all'avanguardia, come quelli usati per etichettare i volti o riconoscere i segnali di stop, avere problemi a vedere il contesto, ha notato. Includendo connessioni orizzontali sintonizzate da illusioni ottiche dipendenti dal contesto, spera di affrontare questa debolezza.
Forse i programmi di deep learning visivo che tengono conto del contesto saranno più difficili da ingannare. Un certo adesivo, quando bloccato su un segnale di stop può indurre un sistema di visione artificiale a pensare che sia un segnale di limite di velocità di 65 miglia all'ora, che è pericoloso, disse Serre.