Gli informatici del MIT hanno sviluppato un sistema che impara a identificare gli oggetti all'interno di un'immagine, sulla base di una descrizione parlata dell'immagine. Credito:Christine Daniloff
Gli informatici del MIT hanno sviluppato un sistema che impara a identificare gli oggetti all'interno di un'immagine, sulla base di una descrizione parlata dell'immagine. Data un'immagine e una didascalia audio, il modello evidenzierà in tempo reale le regioni rilevanti dell'immagine descritta.
A differenza delle attuali tecnologie di riconoscimento vocale, il modello non richiede trascrizioni manuali e annotazioni degli esempi su cui è addestrato. Anziché, apprende le parole direttamente da clip vocali registrate e oggetti in immagini grezze, e li associa l'uno all'altro.
Il modello è attualmente in grado di riconoscere solo diverse centinaia di parole e tipi di oggetti diversi. Ma i ricercatori sperano che un giorno la loro tecnica combinata di riconoscimento degli oggetti vocali possa risparmiare innumerevoli ore di lavoro manuale e aprire nuove porte nel riconoscimento vocale e delle immagini.
Sistemi di riconoscimento vocale come Siri e Google Voice, ad esempio, richiedono la trascrizione di molte migliaia di ore di registrazioni vocali. Utilizzando questi dati, i sistemi imparano a mappare i segnali vocali con parole specifiche. Tale approccio diventa particolarmente problematico quando, dire, nuovi termini entrano nel nostro lessico, e i sistemi devono essere riqualificati.
"Volevamo eseguire il riconoscimento vocale in un modo più naturale, sfruttando segnali e informazioni aggiuntivi che gli esseri umani hanno il vantaggio di utilizzare, ma a cui gli algoritmi di apprendimento automatico in genere non hanno accesso. Abbiamo avuto l'idea di addestrare un modello in un modo simile a far camminare un bambino attraverso il mondo e raccontare quello che stai vedendo, "dice David Harwath, un ricercatore presso il Computer Science and Artificial Intelligence Laboratory (CSAIL) e lo Spoken Language Systems Group. Harwath è coautore di un documento che descrive il modello presentato alla recente Conferenza europea sulla visione artificiale.
Nella carta, i ricercatori dimostrano il loro modello su un'immagine di una giovane ragazza con i capelli biondi e gli occhi azzurri, indossando un vestito blu, con un faro bianco con un tetto rosso sullo sfondo. Il modello ha imparato ad associare quali pixel nell'immagine corrispondevano alle parole "ragazza, " "capelli biondi, " "occhi azzurri, " "vestito blu, " "casa di luce bianca, " e "tetto rosso". Quando veniva narrata una didascalia audio, il modello ha poi evidenziato ciascuno di quegli oggetti nell'immagine così come sono stati descritti.
Un'applicazione promettente è imparare le traduzioni tra lingue diverse, senza bisogno di un annotatore bilingue. Dei 7 stimati, 000 lingue parlate in tutto il mondo, solo 100 circa hanno dati di trascrizione sufficienti per il riconoscimento vocale. Tener conto di, però, una situazione in cui due parlanti di lingua diversa descrivono la stessa immagine. Se il modello apprende dalla lingua A segnali vocali che corrispondono agli oggetti nell'immagine, e apprende i segnali in lingua B che corrispondono a quegli stessi oggetti, potrebbe presumere che quei due segnali - e le parole corrispondenti - siano traduzioni l'uno dell'altro.
"C'è del potenziale per un meccanismo di tipo Babel Fish, "Harwath dice, riferendosi all'auricolare vivente fittizio nei romanzi "Guida galattica per autostoppisti" che traduce diverse lingue per chi lo indossa.
I coautori CSAIL sono:la laureanda Adria Recasens; lo studente in visita Didac Suris; l'ex ricercatore Galen Chuang; Antonio Toralba, un professore di ingegneria elettrica e informatica che dirige anche il MIT-IBM Watson AI Lab; e ricercatore senior James Glass, che guida lo Spoken Language Systems Group al CSAIL.
Associazioni audiovisive
Questo lavoro si espande su un modello precedente sviluppato da Harwath, Bicchiere, e Torralba che mette in relazione il discorso con gruppi di immagini tematicamente correlate. Nella ricerca precedente, hanno messo le immagini delle scene da un database di classificazione sulla piattaforma di crowdsourcing Mechanical Turk. Hanno poi chiesto alle persone di descrivere le immagini come se stessero narrando a un bambino, per circa 10 secondi. Hanno compilato più di 200, 000 paia di immagini e didascalie audio, in centinaia di categorie diverse, come spiagge, centri commerciali, strade cittadine, e camere da letto.
Hanno quindi progettato un modello costituito da due reti neurali convoluzionali (CNN) separate. Si elaborano immagini, e si elaborano spettrogrammi, una rappresentazione visiva dei segnali audio mentre variano nel tempo. Il livello più alto del modello calcola gli output delle due reti e mappa i modelli vocali con i dati dell'immagine.
I ricercatori avrebbero, ad esempio, inserisci la didascalia del modello A e l'immagine A, che è corretto. Quindi, gli darebbero una didascalia casuale B con l'immagine A, che è un abbinamento errato. Dopo aver confrontato migliaia di didascalie errate con l'immagine A, il modello apprende i segnali vocali corrispondenti all'immagine A, e associa quei segnali alle parole nelle didascalie. Come descritto in uno studio del 2016, il modello appreso, ad esempio, to pick out the signal corresponding to the word "water, " and to retrieve images with bodies of water.
"But it didn't provide a way to say, 'This is exact point in time that somebody said a specific word that refers to that specific patch of pixels, '" Harwath says.
Making a matchmap
In the new paper, the researchers modified the model to associate specific words with specific patches of pixels. The researchers trained the model on the same database, but with a new total of 400, 000 image-captions pairs. They held out 1, 000 random pairs for testing.
In training, the model is similarly given correct and incorrect images and captions. But this time, the image-analyzing CNN divides the image into a grid of cells consisting of patches of pixels. The audio-analyzing CNN divides the spectrogram into segments of, dire, one second to capture a word or two.
With the correct image and caption pair, the model matches the first cell of the grid to the first segment of audio, then matches that same cell with the second segment of audio, and so on, all the way through each grid cell and across all time segments. For each cell and audio segment, it provides a similarity score, depending on how closely the signal corresponds to the object.
The challenge is that, during training, the model doesn't have access to any true alignment information between the speech and the image. "The biggest contribution of the paper, " Harwath says, "is demonstrating that these cross-modal [audio and visual] alignments can be inferred automatically by simply teaching the network which images and captions belong together and which pairs don't."
The authors dub this automatic-learning association between a spoken caption's waveform with the image pixels a "matchmap." After training on thousands of image-caption pairs, the network narrows down those alignments to specific words representing specific objects in that matchmap.
"It's kind of like the Big Bang, where matter was really dispersed, but then coalesced into planets and stars, " Harwath says. "Predictions start dispersed everywhere but, as you go through training, they converge into an alignment that represents meaningful semantic groundings between spoken words and visual objects."
This story is republished courtesy of MIT News (web.mit.edu/newsoffice/), a popular site that covers news about MIT research, innovation and teaching.