Una delle sfide principali è che i robot spesso devono imparare a utilizzare strumenti con orientamenti e dimensioni diversi. Inoltre, devono comprendere gli effetti delle loro azioni sugli oggetti manipolati, che possono variare in modo significativo in base allo strumento utilizzato.
Per superare queste sfide, TL;DR utilizza una combinazione di apprendimento per rinforzo profondo ed elaborazione del linguaggio naturale. L'algoritmo inizia apprendendo una comprensione generale di come gli strumenti interagiscono con gli oggetti da una serie di dimostrazioni. Questa conoscenza viene poi utilizzata per generare descrizioni testuali delle azioni richieste per compiti specifici, come "piantare il chiodo nel legno" o "sollevare la tazza con la forchetta".
Una volta generate le istruzioni di testo, TL;DR utilizza un modello di elaborazione del linguaggio naturale per estrarre le azioni e gli oggetti chiave. Queste azioni vengono quindi rappresentate utilizzando il formato SMPL, una rappresentazione standard per i dati di movimento.
Infine, l'algoritmo utilizza l'apprendimento per rinforzo profondo per mettere a punto le azioni del robot in base alle sue esperienze nel mondo reale. Ciò consente al robot di adattarsi alle variazioni dell'ambiente e di imparare a utilizzare gli strumenti in modo efficace.
Negli esperimenti, i ricercatori hanno dimostrato che TL;DR supera significativamente gli approcci esistenti all'apprendimento sull'uso degli strumenti robotici, in particolare quando si ha a che fare con oggetti e strumenti nuovi. L’algoritmo è stato anche in grado di imparare a utilizzare strumenti complessi, come le pinzette, per manipolare piccoli oggetti.
I ricercatori prevedono che TL;DR potrebbe avere importanti implicazioni per le applicazioni robotiche in vari settori, tra cui la produzione, la sanità e l’esplorazione autonoma. Consentendo ai robot di apprendere come utilizzare gli strumenti in modo intuitivo, TL;DR può espandere la gamma di attività che i robot possono eseguire e ridurre la necessità di intervento umano.
Lo studio è stato scritto in collaborazione con Anirudha Parasuraman, Jialin Se e Peter Fazli. La ricerca è stata supportata da ONR, NSF, Samsung, Toyota Research Institute e MIT-IBM Watson AI Lab.