Un modello inventato dal MIT dimostra la comprensione di alcune "fisiche intuitive" di base registrando la "sorpresa" quando gli oggetti nelle simulazioni si muovono in modi inaspettati, come rotolare dietro un muro e non riapparire dall'altra parte. Credito:Christine Daniloff, MIT
Gli esseri umani hanno una prima comprensione delle leggi della realtà fisica. neonati, ad esempio, mantenere le aspettative su come gli oggetti dovrebbero muoversi e interagire tra loro, e mostreranno sorpresa quando faranno qualcosa di inaspettato, come scomparire in un gioco di prestigio magico.
Ora i ricercatori del MIT hanno progettato un modello che dimostra una comprensione di alcune "fisiche intuitive" di base su come dovrebbero comportarsi gli oggetti. Il modello potrebbe essere utilizzato per aiutare a costruire un'intelligenza artificiale più intelligente e, a sua volta, fornire informazioni per aiutare gli scienziati a comprendere la cognizione infantile.
Il modello, chiamato ADEPT, osserva gli oggetti che si muovono intorno a una scena e fa previsioni su come dovrebbero comportarsi gli oggetti, in base alla loro fisica sottostante. Durante il monitoraggio degli oggetti, il modello emette un segnale a ogni fotogramma video correlato a un livello di "sorpresa":maggiore è il segnale, maggiore è la sorpresa. Se un oggetto non corrisponde mai drasticamente alle previsioni del modello, per, dire, scomparendo o teletrasportandosi attraverso una scena:i suoi livelli di sorpresa aumenteranno.
In risposta ai video che mostrano oggetti che si muovono in modi fisicamente plausibili e non plausibili, il modello ha registrato livelli di sorpresa che corrispondevano ai livelli riportati da umani che avevano guardato gli stessi video.
"Quando i bambini hanno 3 mesi, hanno una certa nozione che gli oggetti non strizzano l'occhio dentro e fuori dall'esistenza, e non possono muoversi l'uno attraverso l'altro o teletrasportarsi, " dice il primo autore Kevin A. Smith, ricercatore presso il Dipartimento di Scienze del Cervello e della Cognizione (BCS) e membro del Center for Brains, menti, e macchine (CBMM). "Volevamo catturare e formalizzare quella conoscenza per costruire la cognizione infantile in agenti di intelligenza artificiale. Ora ci stiamo avvicinando a quelli umani nel modo in cui i modelli possono distinguere le scene di base non plausibili o plausibili".
Insieme a Smith sulla carta sono co-primi autori Lingjie Mei, uno studente universitario presso il Dipartimento di Ingegneria Elettrica e Informatica, e lo scienziato ricercatore della BCS Shunyu Yao; Jiajun Wu Ph.D. '19; Investigatrice CBMM Elizabeth Spelke; Joshua B. Tenenbaum, un professore di scienze cognitive computazionali, e ricercatore in CBMM, BCS, e il Laboratorio di Informatica e Intelligenza Artificiale (CSAIL); e ricercatore CBMM Tomer D. Ullman Ph.D. '15.
Realtà non corrispondenti
ADEPT si basa su due moduli:un modulo "grafica inversa" che cattura rappresentazioni di oggetti da immagini grezze, e un "motore fisico" che predice le rappresentazioni future degli oggetti da una distribuzione di possibilità.
La grafica inversa estrae fondamentalmente le informazioni degli oggetti, come la forma, posa, e velocità, dagli input dei pixel. Questo modulo cattura i fotogrammi del video come immagini e utilizza la grafica inversa per estrarre queste informazioni dagli oggetti nella scena. Ma non si impantana nei dettagli. ADEPT richiede solo una geometria approssimativa di ciascuna forma per funzionare. In parte, questo aiuta il modello a generalizzare le previsioni a nuovi oggetti, non solo quelli su cui è stato addestrato.
"Non importa se un oggetto è rettangolo o cerchio, o se è un camion o un'anatra. ADEPT vede solo che c'è un oggetto con una posizione, muovendosi in un certo modo, fare previsioni, " dice Smith. "Allo stesso modo, anche i bambini piccoli non sembrano preoccuparsi molto di alcune proprietà come la forma quando fanno previsioni fisiche".
Queste descrizioni grossolane degli oggetti vengono inserite in un motore fisico, un software che simula il comportamento dei sistemi fisici, come corpi rigidi o fluidi, ed è comunemente usato per i film, videogiochi, e computer grafica. Il motore fisico dei ricercatori "spinge gli oggetti in avanti nel tempo, " dice Ullman. Questo crea una serie di previsioni, o una "distribuzione di credenze, " per quello che accadrà a quegli oggetti nel fotogramma successivo.
Prossimo, il modello osserva il fotogramma successivo effettivo. Di nuovo, cattura le rappresentazioni dell'oggetto, che poi si allinea a una delle rappresentazioni dell'oggetto previste dalla sua distribuzione di credenze. Se l'oggetto obbediva alle leggi della fisica, non ci sarà molta discrepanza tra le due rappresentazioni. D'altra parte, se l'oggetto ha fatto qualcosa di non plausibile, diciamo, è svanito da dietro un muro:ci sarà una grave discrepanza.
ADEPT quindi ricampiona dalla sua distribuzione di credenze e nota una probabilità molto bassa che l'oggetto sia semplicemente svanito. Se c'è una probabilità abbastanza bassa, il modello registra una grande "sorpresa" come picco di segnale. Fondamentalmente, la sorpresa è inversamente proporzionale alla probabilità che un evento si verifichi. Se la probabilità è molto bassa, il picco di segnale è molto alto.
"Se un oggetto va dietro un muro, il tuo motore fisico mantiene la convinzione che l'oggetto sia ancora dietro il muro. Se il muro cade, e non c'è niente, c'è una mancata corrispondenza, " dice Ullman. "Allora, il modello dice 'C'è un oggetto nella mia previsione, ma non vedo niente. L'unica spiegazione è che è scomparso, quindi è sorprendente.'"
Violazione delle aspettative
Nella psicologia dello sviluppo, i ricercatori eseguono test di "violazione delle aspettative" in cui ai bambini vengono mostrate coppie di video. Un video mostra un evento plausibile, con oggetti che aderiscono alle loro nozioni attese di come funziona il mondo. L'altro video è lo stesso in tutto e per tutto, tranne che gli oggetti si comportano in un modo che viola in qualche modo le aspettative. I ricercatori useranno spesso questi test per misurare per quanto tempo il bambino guarda una scena dopo che si è verificata un'azione non plausibile. Più a lungo fissano, i ricercatori ipotizzano più potrebbero essere sorpresi o interessati a ciò che è appena successo.
Per i loro esperimenti, i ricercatori hanno creato diversi scenari basati sulla ricerca evolutiva classica per esaminare la conoscenza dell'oggetto principale del modello. Hanno impiegato 60 adulti per guardare 64 video di scenari fisicamente plausibili e fisicamente non plausibili. oggetti, ad esempio, si sposterà dietro un muro e, quando il muro cade, saranno ancora lì o se ne andranno. I partecipanti hanno valutato la loro sorpresa in vari momenti su una scala crescente da 0 a 100. Quindi, i ricercatori hanno mostrato gli stessi video al modello. Nello specifico, gli scenari hanno esaminato la capacità del modello di catturare nozioni di permanenza (gli oggetti non appaiono o scompaiono senza motivo), continuità (gli oggetti si muovono lungo traiettorie collegate), e solidità (gli oggetti non possono muoversi l'uno attraverso l'altro).
ADEPT ha abbinato particolarmente bene gli umani nei video in cui gli oggetti si muovevano dietro i muri e scomparivano quando il muro veniva rimosso. interessante, il modello ha anche abbinato i livelli di sorpresa sui video di cui gli umani non erano sorpresi, ma forse avrebbero dovuto esserlo. Per esempio, in un video in cui un oggetto che si muove a una certa velocità scompare dietro un muro ed esce subito dall'altra parte, l'oggetto potrebbe aver accelerato drammaticamente quando è andato dietro il muro o potrebbe essersi teletrasportato dall'altra parte. Generalmente, gli umani e l'ADEPT erano entrambi meno sicuri sul fatto che quell'evento fosse o non fosse sorprendente. I ricercatori hanno anche scoperto che le reti neurali tradizionali che apprendono la fisica dalle osservazioni, ma non rappresentano esplicitamente gli oggetti, sono molto meno precise nel differenziare le scene sorprendenti da quelle non sorprendenti, e le loro scelte per scene sorprendenti spesso non si allineano con gli umani.
Prossimo, i ricercatori intendono approfondire il modo in cui i bambini osservano e apprendono il mondo, con l'obiettivo di incorporare eventuali nuove scoperte nel loro modello. Studi, Per esempio, mostrano che i bambini fino a una certa età in realtà non sono molto sorpresi quando gli oggetti cambiano completamente in qualche modo, come se un camion scompare dietro un muro, ma riemerge come un'anatra.
"Vogliamo vedere cos'altro deve essere integrato per capire il mondo più come i bambini, e formalizzare ciò che sappiamo sulla psicologia per costruire agenti AI migliori, "dice Smith.
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.