Insegnare all'intelligenza artificiale a connettere i sensi come la vista e il tatto

Credito:CC0 Dominio Pubblico

Nel libro dell'autrice canadese Margaret Atwood L'assassino cieco , lei dice che "il tatto viene prima della vista, prima del discorso. È la prima lingua e l'ultima, e dice sempre la verità".

Mentre il nostro senso del tatto ci offre un canale per sentire il mondo fisico, i nostri occhi ci aiutano a comprendere immediatamente il quadro completo di questi segnali tattili.

I robot che sono stati programmati per vedere o sentire non possono usare questi segnali in modo altrettanto intercambiabile. Per colmare meglio questo gap sensoriale, i ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT hanno escogitato un'intelligenza artificiale predittiva (AI) che può imparare a vedere toccando, e imparare a sentire vedendo.

Il sistema del team può creare segnali tattili realistici da input visivi, e prevedere quale oggetto e quale parte viene toccata direttamente da quegli input tattili. Hanno usato un braccio robotico KUKA con uno speciale sensore tattile chiamato GelSight, progettato da un altro gruppo del MIT.

Utilizzando una semplice webcam, il team ha registrato quasi 200 oggetti, come strumenti, prodotti per la casa, tessuti, e altro ancora, essere toccato più di 12, 000 volte. Rompendo quei 12, 000 clip video in frame statici, il team ha compilato "VisGel, " un set di dati di oltre 3 milioni di immagini accoppiate visive/tattili.

"Guardando la scena, il nostro modello può immaginare la sensazione di toccare una superficie piana o uno spigolo vivo, "dice Yunzhu Li, Dottorato CSAIL studente e autore principale di un nuovo articolo sul sistema. "Toccando ciecamente intorno, il nostro modello può prevedere l'interazione con l'ambiente puramente da sensazioni tattili. Riunire questi due sensi potrebbe potenziare il robot e ridurre i dati di cui potremmo aver bisogno per compiti che comportano la manipolazione e la presa di oggetti".

Lavori recenti per dotare i robot di sensi fisici più simili a quelli umani, come il progetto del MIT 2016 che utilizza il deep learning per indicare visivamente i suoni, o un modello che predice le risposte degli oggetti alle forze fisiche, entrambi utilizzano set di dati di grandi dimensioni che non sono disponibili per comprendere le interazioni tra visione e tatto.

La tecnica del team aggira questo problema utilizzando il set di dati VisGel, e qualcosa chiamato reti generative avversarie (GAN).

Yunzhu Li è uno studente di dottorato presso il MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). Credito:Massachusetts Institute of Technology

I GAN utilizzano immagini visive o tattili per generare immagini nell'altra modalità. Funzionano utilizzando un "generatore" e un "discriminatore" che competono tra loro, dove il generatore mira a creare immagini dall'aspetto reale per ingannare il discriminatore. Ogni volta che il discriminatore "cattura" il generatore, deve esporre la motivazione interna della decisione, che consente al generatore di migliorarsi ripetutamente.

Visione da toccare

Gli esseri umani possono dedurre come si sente un oggetto semplicemente vedendolo. Per meglio dare alle macchine questo potere, il sistema doveva prima individuare la posizione del tocco, e quindi dedurre informazioni sulla forma e l'atmosfera della regione.

Le immagini di riferimento, senza alcuna interazione robot-oggetto, hanno aiutato il sistema a codificare i dettagli sugli oggetti e sull'ambiente. Quindi, quando il braccio del robot era in funzione, il modello potrebbe semplicemente confrontare il fotogramma corrente con la sua immagine di riferimento, e identificare facilmente la posizione e la scala del tocco.

Potrebbe sembrare come fornire al sistema l'immagine del mouse di un computer, e poi "vedere" l'area in cui il modello prevede che l'oggetto dovrebbe essere toccato per il prelievo, il che potrebbe aiutare enormemente le macchine a pianificare azioni più sicure ed efficienti.

Tocca per vedere

Per il tocco alla visione, lo scopo era che il modello producesse un'immagine visiva basata su dati tattili. Il modello ha analizzato un'immagine tattile, e poi capito la forma e il materiale della posizione di contatto. Poi ha guardato indietro all'immagine di riferimento per "allucinare" l'interazione.

Per esempio, se durante il test il modello ha ricevuto dati tattili su una scarpa, potrebbe produrre un'immagine del punto in cui è più probabile che quella scarpa venga toccata.

Questo tipo di abilità potrebbe essere utile per svolgere compiti nei casi in cui non ci sono dati visivi, come quando una luce è spenta, o se una persona sta raggiungendo alla cieca una scatola o un'area sconosciuta.

Guardando avanti

Il set di dati corrente contiene solo esempi di interazioni in un ambiente controllato. Il team spera di migliorarlo raccogliendo dati in aree più non strutturate, o utilizzando un nuovo guanto tattile progettato dal MIT, per aumentare meglio le dimensioni e la diversità del set di dati.

Ci sono ancora dettagli che possono essere difficili da dedurre dal cambio di modalità, come dire il colore di un oggetto semplicemente toccandolo, o raccontare quanto è morbido un divano senza premerci sopra. I ricercatori dicono che questo potrebbe essere migliorato creando modelli più robusti per l'incertezza, ampliare la distribuzione dei possibili risultati.

Nel futuro, questo tipo di modello potrebbe aiutare con un rapporto più armonioso tra visione e robotica, soprattutto per il riconoscimento di oggetti, afferrare, migliore comprensione della scena, e aiutando con una perfetta integrazione uomo-robot in un ambiente di assistenza o di produzione.

"Questo è il primo metodo che può tradurre in modo convincente tra segnali visivi e tattili, "dice Andrew Owens, un postdoc presso l'Università della California a Berkeley. "Metodi come questo hanno il potenziale per essere molto utili per la robotica, dove devi rispondere a domande come "questo oggetto è duro o morbido?", o 'se sollevo questa tazza per il manico, quanto sarà buona la mia presa?" Questo è un problema molto impegnativo, poiché i segnali sono così diversi, e questo modello ha dimostrato grandi capacità."

Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.

I ricercatori hanno successo nel rilevare se le immagini dei volti sono state manipolate

Facebook svela una nuova criptovaluta

Elettronica

Decrappare le immagini del cervello con il deep learning

Il team sviluppa un risolutore matematico per computer analogici

In che modo le società di videogiochi statunitensi stanno costruendo strumenti per lo stato di sorveglianza della Cina

Scienza

Il sale disciolto può riassemblarsi su scala nanometrica, secondo le simulazioni

Los Angeles e Google collaborano al progetto Tree Canopy

Il primo sistema robotico riproduce Tic Tac Toe per migliorare le prestazioni del compito