Concentrati su un algoritmo di apprendimento per rinforzo che può imparare dai fallimenti

Credito:OpenAI

Le ultime notizie dal popolo di OpenAI riguardano un trio di bonus. Stanno rilasciando nuovi ambienti palestra, una serie di ambienti robotici simulati basati su piattaforme robot reali, tra cui una mano dell'ombra e un robot di ricerca Fetch, disse Spettro IEEE .

Oltre a quella cassetta degli attrezzi, stanno rilasciando una versione open source di Hindsight Experience Replay (HER). Come suggerisce il nome, aiuta i robot a imparare con il senno di poi, per compiti robotici basati su obiettivi.

Ultimo, ma non per importanza, hanno rilasciato una serie di richieste per la ricerca sulla robotica. "Se sei un tipo ambizioso, " ha detto Evan Ackerman in Spettro IEEE , "OpenAI ha anche pubblicato una serie di richieste per ricerche relative a HER".

"Sebbene HER sia un modo promettente per l'apprendimento di compiti complessi basati su obiettivi con ricompense scarse come gli ambienti robotici che proponiamo qui, c'è ancora molto da migliorare, " hanno scritto sul blog. "Simile alle nostre Richieste di ricerca 2.0 pubblicate di recente, abbiamo alcune idee su come migliorare LEI in modo specifico, e apprendimento per rinforzo in generale."

OpenAI è una società di ricerca sull'intelligenza artificiale. Pubblicano in conferenze di machine learning e i loro post sul blog comunicano le loro ricerche.

Elon Musk è un co-fondatore. È sponsorizzato da privati e aziende, e mirano a scoprire e mettere in atto "il percorso verso l'intelligenza artificiale generale sicura".

Un video OpenAI che mostra ciò che hanno realizzato nella parte relativa agli ambienti della palestra è stato pubblicato il 26 febbraio.

Mostrano i diversi compiti svolti. Un robot ShadowHand manipola un oggetto (mostra una mano che manipola, compreso flettere le dita, blocco dell'alfabeto di un bambino, un oggetto a forma di uovo, e passando le dita attraverso un bastoncino). Stanno anche introducendo un meccanismo robotico "nudge" che può far scorrere un disco e afferrare una pallina e sollevarla

Nello specifico, queste sono le varie imprese in mostra:ShadowHand deve raggiungere con il pollice e un dito selezionato fino a quando non si incontrano nella posizione desiderata sopra il palmo. ShadowHand deve manipolare un blocco fino a quando non raggiunge la posizione e la rotazione desiderate. ShadowHand deve manipolare un uovo fino a quando non raggiunge la posizione e la rotazione desiderate. ShadowHand deve manipolare una penna finché non raggiunge la posizione e la rotazione desiderate.

Tutto sommato, "gli ambienti più recenti simulano un braccio robotico Fetch per spingere le cose in giro, e una ShadowHand per afferrare e manipolare oggetti con dita robotiche, " ha detto Katyanna Quach in Il registro .

L'offerta OpenAI HER è particolarmente interessante; formazione e rinforzo vengono ripensati. LEI permette a un agente di imparare dai fallimenti. Come ha scritto Ackerman, HER "riformula i fallimenti come successi per aiutare i robot a imparare di più come gli umani".

Jackie Snow in Revisione della tecnologia del MIT ha osservato che "Lo fa osservando come ogni tentativo di un compito potrebbe essere applicato ad altri".

Neve ha aggiunto, "HER non dà ricompense ai robot per aver eseguito correttamente un passaggio di un'attività:li distribuisce solo se l'intera cosa viene eseguita correttamente".

Riformulare i fallimenti come successi? Ackerman ha offerto questa spiegazione:"Per capire come funziona LEI, immagina di essere pronto a battere in una partita di baseball. Il tuo obiettivo è fare un fuoricampo. Sul primo tiro, colpisci una palla che va in fallo. ...hai anche imparato esattamente come colpire una palla foul...Con il senno di poi, il replay dell'esperienza, decidi comunque di imparare da quello che hai appena fatto, essenzialmente dicendo, 'Sai, se avessi voluto colpire una palla foul, sarebbe stato perfetto!'"

Quanto è buona l'implementazione di HER? "I nostri risultati mostrano che HER può apprendere politiche di successo sulla maggior parte dei nuovi problemi di robotica solo da ricompense sparse".

I bambini che giocano con gli occhi bendati spesso dicono al giocatore, "Ti stai scaldando, più caldo." Le parole chiave nell'apprezzare la loro ricerca sono ricompense scarse e dense.

"La maggior parte degli algoritmi di apprendimento per rinforzo usa 'ricompense dense, ' ha spiegato Ackerman, "dove il robot ottiene cookie di diverse dimensioni a seconda di quanto si avvicina al completamento di un'attività... e questo è tutto:più facile da misurare, più facile da programmare, e più facile da implementare."

Ingannare l'essere umano tramite modifiche alle immagini

Furto di bitcoin:rubati 600 potenti computer in Islanda

Elettronica