Brendan Englot dello Stevens Institute of Technology sfrutterà una nuova variante di un classico strumento di intelligenza artificiale per creare robot in grado di prevedere e gestire i rischi connessi al completamento dell'attività desiderata. Credito:Stevens Institute of Technology
Proprio come gli umani, quando i robot devono prendere una decisione, spesso ci sono molte opzioni e centinaia di potenziali risultati. I robot sono stati in grado di simulare una manciata di questi risultati per capire quale linea d'azione avrà maggiori probabilità di portare al successo. Ma cosa accadrebbe se una delle altre opzioni avesse le stesse probabilità di successo e più sicura?
L'Office of Naval Research ha assegnato a Brendan Englot, un ingegnere meccanico formato al MIT presso lo Stevens Institute of Technology, un premio Young Investigator 2020 di $ 508, 693 per sfruttare una nuova variante di un classico strumento di intelligenza artificiale per consentire ai robot di prevedere i molti possibili esiti delle loro azioni, e quanto è probabile che si verifichino. Il framework consentirà ai robot di capire quale opzione è il modo migliore per raggiungere un obiettivo, comprendendo quali opzioni sono le più sicure, più efficiente e con meno probabilità di fallire.
"Se il modo più veloce per un robot di completare un compito è camminare sul bordo di un dirupo, questo è sacrificare la sicurezza per la velocità, " disse Englot, chi sarà tra i primi ad utilizzare lo strumento, apprendimento per rinforzo distributivo, per addestrare i robot. "Non vogliamo che il robot cada dal bordo di quella scogliera, quindi stiamo dando loro gli strumenti per prevedere e gestire i rischi coinvolti nel completamento dell'attività desiderata."
Per anni, l'apprendimento per rinforzo è stato utilizzato per addestrare i robot a navigare autonomamente nell'acqua, terra e aria. Ma quello strumento di intelligenza artificiale ha dei limiti, perché prende decisioni sulla base di un unico risultato atteso per ogni azione disponibile, quando in realtà ci sono spesso molti altri possibili esiti che possono verificarsi. Englot utilizza l'apprendimento per rinforzo distributivo, un algoritmo di intelligenza artificiale che un robot può utilizzare per valutare tutti i possibili risultati, prevedere la probabilità che ogni azione abbia successo e scegliere l'opzione più conveniente con probabilità di successo mantenendo un robot al sicuro.
Prima di utilizzare il suo algoritmo in un robot reale, La prima missione di Englot è perfezionare l'algoritmo. Englot e il suo team creano una serie di situazioni decisionali in cui testare il loro algoritmo. E spesso si rivolgono a uno dei terreni di gioco preferiti del campo:i giochi Atari.
Per esempio, quando giochi a Pacman, tu sei l'algoritmo che sta decidendo come si comporta Pacman. Il tuo obiettivo è ottenere tutti i punti nel labirinto e, se puoi, prendi un po' di frutta. Ma ci sono fantasmi che fluttuano in giro che possono ucciderti. Ogni secondo, sei costretto a prendere una decisione. vai dritto, sinistra o destra? Quale percorso ti porta più punti—e punti—tenendoti anche lontano dai fantasmi?
Algoritmo AI di Englot, utilizzando l'apprendimento per rinforzo distributivo, prenderà il posto di un giocatore umano, simulando ogni possibile mossa per navigare in sicurezza nel suo paesaggio.
Quindi come premiare un robot? Englot e il suo team assegneranno punti a diversi risultati, cioè., se cade da un dirupo, il robot ottiene -100 punti. Se ci vuole più lento, ma opzione più sicura, può ricevere -1 punto per ogni passo lungo la deviazione. Ma se raggiunge con successo l'obiettivo, potrebbe ottenere +50.
"Uno dei nostri obiettivi secondari è vedere come i segnali di ricompensa possono essere progettati per avere un impatto positivo sul modo in cui un robot prende decisioni e può essere addestrato, ", ha affermato Englot. "Speriamo che le tecniche sviluppate in questo progetto possano essere utilizzate per un'IA ancora più complessa, come addestrare robot subacquei a navigare in sicurezza tra maree variabili, correnti, e altri fattori ambientali complessi".