Una chiave per compilare il nuovo set di dati Omnipush è stata la costruzione di oggetti modulari (nella foto) che hanno permesso al sistema robotico di catturare una vasta gamma di comportamenti di spinta. I pezzi centrali contengono marcatori sui loro centri e punti in modo che un sistema di rilevamento del movimento possa rilevare la loro posizione entro un millimetro. Credito:Massachusetts Institute of Technology
I ricercatori del MIT hanno compilato un set di dati che cattura il comportamento dettagliato di un sistema robotico che spinge fisicamente centinaia di oggetti diversi. Utilizzando il set di dati, il più grande e diversificato nel suo genere, i ricercatori possono addestrare i robot a "imparare" le dinamiche di spinta che sono fondamentali per molte complesse attività di manipolazione degli oggetti, compreso il riorientamento e l'ispezione di oggetti, e scene ordinate.
Per acquisire i dati, i ricercatori hanno progettato un sistema automatizzato costituito da un braccio robotico industriale con un controllo preciso, un sistema di rilevamento del movimento 3D, telecamere di profondità e tradizionali, e software che unisce tutto. Il braccio spinge intorno a oggetti modulari che possono essere regolati in base al peso, forma, e distribuzione di massa. Per ogni spinta, il sistema cattura come queste caratteristiche influenzano la spinta del robot.
Il set di dati, chiamato "Onnipush, " contiene 250 diverse spinte di 250 oggetti, per un totale di circa 62, 500 spinte uniche. È già utilizzato dai ricercatori per, ad esempio, costruisci modelli che aiutano i robot a prevedere dove atterreranno gli oggetti quando verranno spinti.
"Abbiamo bisogno di molti dati ricchi per assicurarci che i nostri robot possano imparare, "dice Maria Bauza, uno studente laureato presso il Dipartimento di Ingegneria Meccanica (MechE) e primo autore di un documento che descrive Omnipush che verrà presentato alla prossima Conferenza internazionale sui robot e i sistemi intelligenti. "Qui, stiamo raccogliendo dati da un vero sistema robotico, [e] gli oggetti sono abbastanza vari da catturare la ricchezza dei fenomeni di spinta. Questo è importante per aiutare i robot a capire come funziona la spinta, e per tradurre tali informazioni in altri oggetti simili nel mondo reale."
Ad unirsi a Bauza sulla carta sono:Ferran Alet e Yen-Chen Lin, dottorandi del Laboratorio di Informatica e Intelligenza Artificiale e del Dipartimento di Ingegneria Elettrica e Informatica (EECS); Tomas Lozano Perez, il Professore di Eccellenza Didattica della Scuola di Ingegneria; Leslie P. Kaelbling, il professore Panasonic di informatica e ingegneria; Filippo Isola, un assistente professore in EECS; e Alberto Rodriguez, un professore associato in MechE.
Diversificare i dati
Perché concentrarsi sul comportamento di spinta? Modellazione delle dinamiche di spinta che comportano l'attrito tra oggetti e superfici, Rodriguez spiega, è fondamentale nelle attività robotiche di livello superiore. Considera il robot visivamente e tecnicamente impressionante che può interpretare Jenga, che Rodriguez ha recentemente co-progettato. "Il robot sta eseguendo un compito complesso, ma il nucleo della meccanica che guida quel compito è ancora quello di spingere un oggetto affetto da, ad esempio, l'attrito tra i blocchi, " dice Rodriguez.
Omnipush si basa su un set di dati simile costruito nel Manipulation and Mechanisms Laboratory (MCube) di Rodriguez, Bauza, e altri ricercatori che hanno catturato dati push su solo 10 oggetti. Dopo aver reso pubblico il set di dati nel 2016, hanno raccolto feedback dai ricercatori. Una lamentela era la mancanza di diversità degli oggetti:i robot addestrati sul set di dati hanno faticato a generalizzare le informazioni a nuovi oggetti. Non c'era nemmeno un video, che è importante per la visione artificiale, previsione video, e altri compiti.
Per il loro nuovo set di dati, i ricercatori sfruttano un braccio robotico industriale con controllo di precisione della velocità e della posizione di uno spintore, fondamentalmente un'asta d'acciaio verticale. Mentre il braccio spinge gli oggetti, un sistema di tracciamento del movimento "Vicon", che è stato utilizzato nei film, realta virtuale, e per la ricerca segue gli oggetti. C'è anche una fotocamera RGB-D, che aggiunge informazioni di profondità al video catturato.
La chiave era costruire oggetti modulari. I pezzi centrali uniformi, in alluminio, sembrano stelle a quattro punte e pesano circa 100 grammi. Ogni pezzo centrale contiene segnalini sul centro e sui punti, in modo che il sistema Vicon possa rilevare la sua posa entro un millimetro.
Pezzi più piccoli in quattro forme:concavo, triangolare, rettangolare, e circolare:può essere fissato magneticamente a qualsiasi lato del pezzo centrale. Ogni pezzo pesa tra 31 e 94 grammi, ma pesi extra, da 60 a 150 grammi, può essere lasciato cadere in piccoli fori nei pezzi. Tutti i pezzi degli oggetti simili a puzzle si allineano sia orizzontalmente che verticalmente, che aiuta a emulare l'attrito che avrebbe un singolo oggetto con la stessa forma e distribuzione di massa. Tutte le combinazioni di lati diversi, pesi, e le distribuzioni di massa hanno aggiunto fino a 250 oggetti unici.
Per ogni spinta, il braccio si sposta automaticamente in una posizione casuale a diversi centimetri dall'oggetto. Quindi, seleziona una direzione casuale e spinge l'oggetto per un secondo. A partire da dove si è fermato, poi sceglie un'altra direzione casuale e ripete il processo 250 volte. Ogni spinta registra la posa dell'oggetto e il video RGB-D, che può essere utilizzato per vari scopi di previsione video. La raccolta dei dati ha richiesto 12 ore al giorno, per due settimane, per un totale di oltre 150 ore. L'intervento umano era necessario solo durante la riconfigurazione manuale degli oggetti.
Gli oggetti non imitano specificamente gli oggetti della vita reale. Anziché, sono progettati per catturare la diversità di "cinematica" e "asimmetrie di massa" che ci si aspetta dagli oggetti del mondo reale, che modellano la fisica del moto degli oggetti del mondo reale. I robot possono quindi estrapolare, dire, il modello fisico di un oggetto Omnipush con distribuzione di massa non uniforme a qualsiasi oggetto del mondo reale con distribuzioni di peso irregolari simili.
"Immagina di spingere un tavolo con quattro gambe, dove la maggior parte del peso è su una delle gambe. Quando spingi il tavolo, vedi che ruota sulla gamba pesante e devi riadattarti. Comprendendo quella distribuzione di massa, e il suo effetto sull'esito di una spinta, è qualcosa che i robot possono imparare con questo insieme di oggetti, " dice Rodriguez.
Alimentare la nuova ricerca
In un esperimento, i ricercatori hanno utilizzato Omnipush per addestrare un modello a prevedere la posa finale degli oggetti spinti, data solo la posa iniziale e la descrizione della spinta. Hanno addestrato il modello su 150 oggetti Omnipush, e l'ho testato su una porzione di oggetti tesa. I risultati hanno mostrato che il modello addestrato da Omnipush era due volte più accurato dei modelli addestrati su alcuni set di dati simili. Nella loro carta, i ricercatori hanno anche registrato parametri di riferimento in termini di accuratezza che altri ricercatori possono utilizzare per il confronto.
Poiché Omnipush cattura il video delle spinte, una potenziale applicazione è la previsione video. Un collaboratore, ad esempio, sta ora utilizzando il set di dati per addestrare un robot essenzialmente a "immaginare" di spingere oggetti tra due punti. Dopo l'allenamento su Omnipush, al robot vengono dati in input due frame video, che mostra un oggetto nella sua posizione iniziale e finale. Usando la posizione di partenza, il robot prevede tutti i fotogrammi video futuri che assicurano che l'oggetto raggiunga la sua posizione finale. Quindi, spinge l'oggetto in un modo che corrisponda a ciascun fotogramma video previsto, fino a raggiungere il telaio con la posizione finale.
"Il robot sta chiedendo, "Se faccio questa azione, dove sarà l'oggetto in questa cornice?" Quindi, seleziona l'azione che massimizza la probabilità di ottenere l'oggetto nella posizione che desidera, " Dice Bauza. "Decide come spostare gli oggetti immaginando prima come cambieranno i pixel nell'immagine dopo una spinta".
"Omnipush include misurazioni precise del movimento dell'oggetto, così come i dati visivi, per un'importante classe di interazioni tra robot e oggetti nel mondo, "dice Matthew T. Mason, professore di informatica e robotica alla Carnegie Melon University. "I ricercatori di robotica possono utilizzare questi dati per sviluppare e testare nuovi approcci di apprendimento dei robot... che alimenteranno i continui progressi nella manipolazione robotica".
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.