Insegnare agli agenti di intelligenza artificiale le subroutine di navigazione fornendo loro video

Data un'immagine di input come mostrato in alto, i ricercatori propongono un nuovo metodo per apprendere le subroutine, politiche a breve orizzonte che mostrano un comportamento coerente (come andare a sinistra in una stanza), e disponibilità, quali subroutine possono essere invocate dove. Credito:Kumar, Gupta &Malik.

I ricercatori della UC Berkeley e di Facebook AI Research hanno recentemente proposto un nuovo approccio in grado di migliorare le capacità di navigazione dei modelli di apprendimento automatico. Il loro metodo, presentato in un articolo pre-pubblicato su arXiv, consente ai modelli di acquisire subroutine di navigazione visuo-motoria elaborando una serie di video.

"Ogni mattina, quando decidi di prendere un caffè in cucina, pensi di percorrere il corridoio, girando a sinistra nel corridoio e poi entrando nella stanza a destra, " hanno scritto i ricercatori nel loro articolo. "Invece di decidere le esatte coppie muscolari, pianifichi a questo livello più alto di astrazione componendo queste subroutine visuo-motorie riutilizzabili di livello inferiore per raggiungere il tuo obiettivo."

Queste "subroutine visuo-motorie" o "astrazioni gerarchiche" che gli esseri umani creano nella loro mente, in ultima analisi, li aiutano a muoversi efficacemente all'interno dell'ambiente circostante. La riproduzione di un meccanismo simile negli agenti computazionali potrebbe quindi migliorare significativamente le loro capacità di navigazione e pianificazione.

Gli approcci per i modelli di formazione su queste astrazioni gerarchiche sono finora caduti in due categorie chiave:metodi di progettazione manuale (cioè pianificazione classica) e tecniche di apprendimento per rinforzo. Entrambi questi tipi di approcci, però, hanno limitazioni significative. Le strategie di pianificazione classiche sono spesso subottimali, mentre i metodi di apprendimento per rinforzo possono essere instabili, oltre che costoso da sviluppare e addestrare.

Nel loro studio, i ricercatori della UC Berkeley e di Facebook hanno introdotto un paradigma alternativo che consente ai modelli di acquisire astrazioni gerarchiche analizzando i dati di osservazione in prima persona passivi (cioè i video). Questi video sono etichettati con azioni dell'agente, che alla fine può aiutare un robot a navigare nel suo ambiente.

"Utilizziamo un modello inverso addestrato su piccole quantità di dati di interazione per pseudo-etichettare i video passivi in prima persona con le azioni degli agenti, "I ricercatori hanno spiegato nel loro articolo. "Le subroutine visuo-motorie vengono acquisite da questi video pseudo-etichettati imparando una politica latente condizionata dall'intento che predice le pseudo-azioni dedotte dalle corrispondenti osservazioni dell'immagine".

I ricercatori hanno valutato il loro approccio e hanno dimostrato che può migliorare significativamente le capacità di navigazione di un agente. Nei loro test, il loro metodo ha consentito con successo l'acquisizione di una varietà di subroutine visuo-motorie da video passivi in prima persona.

"Dimostriamo l'utilità delle nostre subroutine visuo-motorie acquisite utilizzandole così come sono per l'esplorazione e come sotto-politiche in un quadro gerarchico RL per raggiungere obiettivi puntuali e obiettivi semantici, " hanno scritto i ricercatori. " Dimostriamo anche il comportamento delle nostre subroutine nel mondo reale, distribuendoli su una vera piattaforma robotica."

L'approccio proposto dai ricercatori ha ottenuto prestazioni notevoli su tutte le metriche valutate dai ricercatori. Inoltre, si è scoperto che supera le tecniche di apprendimento all'avanguardia che sono state addestrate su campioni di interazione sostanzialmente più grandi, generando traiettorie che coprissero l'ambiente in modo più completo.

Inoltre, mentre il nuovo approccio ha acquisito astrazioni gerarchiche da un totale di 45, 000 interazioni con l'ambiente, lo stato dell'arte delle tecniche è stato confrontato per ottenere risultati meno soddisfacenti dopo un massimo di 10 milioni di interazioni. Il metodo dei ricercatori ha anche superato le linee di base realizzate a mano che sono state progettate specificamente per navigare nell'ambiente evitando gli ostacoli.

"Il successo dell'apprendimento dai video in prima persona ha permesso all'agente di eseguire traiettorie coerenti, anche se aveva sempre eseguito solo azioni casuali, " hanno scritto i ricercatori. "Ha anche appreso con successo il pregiudizio verso le azioni in avanti nella navigazione e la nozione di evitamento degli ostacoli, portando a un'elevata distanza massima e a un basso tasso di collisione".

Lo studio condotto da questo team di ricercatori introduce un'alternativa praticabile e altamente efficace agli attuali metodi per addestrare gli agenti di IA sulle subroutine di navigazione. Nel futuro, il loro approccio potrebbe informare lo sviluppo di robot con capacità di pianificazione e navigazione più avanzate.

VW afferma che i colloqui di cooperazione con Ford sono prossimi al completamento

Prendere il polso della città con sensori mobili

Elettronica