I ricercatori del MIT hanno sviluppato un "parser semantico" che apprende attraverso l'osservazione per imitare più da vicino il processo di acquisizione della lingua di un bambino, che potrebbe estendere notevolmente le capacità di elaborazione. Credito:Massachusetts Institute of Technology
I bambini imparano la lingua osservando il loro ambiente, ascoltando le persone intorno a loro, e collegando i punti tra ciò che vedono e sentono. Tra l'altro, questo aiuta i bambini a stabilire l'ordine delle parole della loro lingua, come dove soggetti e verbi cadono in una frase.
Nell'informatica, l'apprendimento del linguaggio è compito dei parser sintattici e semantici. Questi sistemi sono addestrati su frasi annotate da esseri umani che descrivono la struttura e il significato dietro le parole. I parser stanno diventando sempre più importanti per le ricerche web, interrogazione di database in linguaggio naturale, e sistemi di riconoscimento vocale come Alexa e Siri. Prossimamente, possono essere utilizzati anche per la robotica domestica.
Tuttavia, la raccolta dei dati delle annotazioni può richiedere molto tempo e risultare difficile per le lingue meno comuni. Inoltre, gli umani non sono sempre d'accordo sulle annotazioni, e le annotazioni stesse potrebbero non riflettere accuratamente il modo in cui le persone parlano naturalmente.
In un articolo presentato alla conferenza Empirical Methods in Natural Language Processing di questa settimana, I ricercatori del MIT descrivono un parser che apprende attraverso l'osservazione per imitare più da vicino il processo di acquisizione della lingua di un bambino, che potrebbe estendere notevolmente le capacità del parser. Per imparare la struttura del linguaggio, il parser osserva i video sottotitolati, senza altre informazioni, e associa le parole a oggetti e azioni registrati. Data una nuova sentenza, il parser può quindi utilizzare ciò che ha appreso sulla struttura del linguaggio per prevedere con precisione il significato di una frase, senza il filmato.
Questo approccio "debolmente supervisionato", il che significa che richiede dati di formazione limitati, imita il modo in cui i bambini possono osservare il mondo che li circonda e imparare la lingua, senza che nessuno fornisca un contesto diretto. L'approccio potrebbe espandere i tipi di dati e ridurre lo sforzo necessario per addestrare i parser, secondo i ricercatori. Alcune frasi direttamente annotate, ad esempio, potrebbe essere combinato con molti video sottotitolati, che sono più facili da trovare, per migliorare le prestazioni.
Nel futuro, il parser potrebbe essere utilizzato per migliorare l'interazione naturale tra esseri umani e robot personali. Un robot dotato di parser, ad esempio, poteva osservare costantemente il suo ambiente per rafforzare la sua comprensione dei comandi pronunciati, anche quando le frasi pronunciate non sono completamente grammaticali o chiare. "Le persone si parlano in frasi parziali, pensieri in fuga, e linguaggio confuso. Vuoi un robot nella tua casa che si adatti al loro particolare modo di parlare... e capisca comunque cosa significano, " dice il co-autore Andrei Barbu, un ricercatore del Laboratorio di Informatica e Intelligenza Artificiale (CSAIL) e del Centro per i cervelli, menti, and Machines (CBMM) all'interno del McGovern Institute del MIT.
Il parser potrebbe anche aiutare i ricercatori a capire meglio come i bambini imparano la lingua. "Un bambino ha accesso al licenziamento, informazioni complementari provenienti da diverse modalità, compreso ascoltare i genitori e i fratelli parlare del mondo, così come informazioni tattili e informazioni visive, [che lo aiutano] a capire il mondo, " dice il co-autore Boris Katz, uno dei principali ricercatori e capo del gruppo InfoLab al CSAIL. "È un puzzle incredibile, per elaborare tutto questo input sensoriale simultaneo. Questo lavoro fa parte di un pezzo più grande per capire come avviene questo tipo di apprendimento nel mondo".
I coautori del documento sono:la prima autrice Candace Ross, uno studente laureato presso il Dipartimento di Ingegneria Elettrica e Informatica e CSAIL, e un ricercatore in CBMM; Yevgeni Berzak Ph.D. '17, un postdoc nel Gruppo di Psicolinguistica Computazionale del Dipartimento di Scienze del Cervello e della Cognizione; e lo studente laureato CSAIL Battushig Myanganbayar.
Che impara guardando
Per il loro lavoro, i ricercatori hanno combinato un parser semantico con un componente di visione artificiale addestrato a oggetti, umano, e riconoscimento dell'attività in video. I parser semantici sono generalmente addestrati su frasi annotate con codice che attribuisce significato a ciascuna parola e alle relazioni tra le parole. Alcuni sono stati addestrati su immagini fisse o simulazioni al computer.
Il nuovo parser è il primo ad essere addestrato utilizzando video, dice Ross. In parte, i video sono più utili per ridurre l'ambiguità. Se il parser non è sicuro, dire, un'azione o un oggetto in una frase, può fare riferimento al video per chiarire le cose. "Ci sono componenti temporali - oggetti che interagiscono tra loro e con le persone - e proprietà di alto livello che non vedresti in un'immagine fissa o solo nel linguaggio, " dice Rossi.
I ricercatori hanno compilato un set di dati di circa 400 video che ritraggono persone che svolgono una serie di azioni, incluso raccogliere un oggetto o posarlo, e camminare verso un oggetto. I partecipanti alla piattaforma di crowdsourcing Mechanical Turk hanno quindi fornito 1, 200 didascalie per quei video. Hanno messo da parte 840 esempi di didascalie video per l'allenamento e la messa a punto, e usato 360 per il test. Un vantaggio dell'utilizzo dell'analisi basata sulla visione è "non hai bisogno di tanti dati, anche se se avessi [i dati], potresti scalare fino a enormi set di dati, "dice Barbù.
In allenamento, i ricercatori hanno dato al parser l'obiettivo di determinare se una frase descrive accuratamente un determinato video. Hanno fornito al parser un video e una didascalia corrispondente. Il parser estrae i possibili significati della didascalia come espressioni matematiche logiche. La frase, "La donna sta raccogliendo una mela, " ad esempio, può essere espresso come:λxy. donna x, pick_up x y, mela y.
Quelle espressioni e il video vengono immessi nell'algoritmo di visione artificiale, chiamato "Tracciatore di frasi, " sviluppato da Barbu e altri ricercatori. L'algoritmo esamina ogni fotogramma video per monitorare come gli oggetti e le persone si trasformano nel tempo, to determine if actions are playing out as described. In questo modo, it determines if the meaning is possibly true of the video.
Connecting the dots
The expression with the most closely matching representations for objects, umani, and actions becomes the most likely meaning of the caption. The expression, inizialmente, may refer to many different objects and actions in the video, but the set of possible meanings serves as a training signal that helps the parser continuously winnow down possibilities. "By assuming that all of the sentences must follow the same rules, that they all come from the same language, and seeing many captioned videos, you can narrow down the meanings further, " Barbu says.
In breve, the parser learns through passive observation:To determine if a caption is true of a video, the parser by necessity must identify the highest probability meaning of the caption. "The only way to figure out if the sentence is true of a video [is] to go through this intermediate step of, 'What does the sentence mean?' Altrimenti, you have no idea how to connect the two, " Barbu explains. "We don't give the system the meaning for the sentence. We say, 'There's a sentence and a video. The sentence has to be true of the video. Figure out some intermediate representation that makes it true of the video.'"
The training produces a syntactic and semantic grammar for the words it's learned. Given a new sentence, the parser no longer requires videos, but leverages its grammar and lexicon to determine sentence structure and meaning.
In definitiva, this process is learning "as if you're a kid, " Barbu says. "You see world around you and hear people speaking to learn meaning. One day, I can give you a sentence and ask what it means and, even without a visual, you know the meaning."
Nel lavoro futuro, the researchers are interested in modeling interactions, not just passive observations. "Children interact with the environment as they're learning. Our idea is to have a model that would also use perception to learn, " Ross says.
This work was supported, in parte, by the CBMM, la Fondazione Nazionale della Scienza, a Ford Foundation Graduate Research Fellowship, the Toyota Research Institute, and the MIT-IBM Brain-Inspired Multimedia Comprehension project.
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.