DeepRole, un robot di gioco inventato dal MIT dotato di "ragionamento deduttivo, "può battere i giocatori umani in difficili giochi multiplayer online in cui i ruoli e le motivazioni dei giocatori sono tenuti segreti. Credito:Massachusetts Institute of Technology
I ricercatori del MIT hanno sviluppato un bot dotato di intelligenza artificiale in grado di battere i giocatori umani in complicati giochi multiplayer online in cui i ruoli e le motivazioni dei giocatori sono tenuti segreti.
Molti robot di gioco sono stati creati per stare al passo con i giocatori umani. All'inizio di quest'anno, un team della Carnegie Mellon University ha sviluppato il primo bot al mondo in grado di battere i professionisti nel poker multiplayer. AlphaGo di DeepMind ha fatto notizia nel 2016 per aver battuto un giocatore professionista di Go. Diversi bot sono stati anche costruiti per battere giocatori di scacchi professionisti o unire le forze in giochi cooperativi come il cattura bandiera online. In questi giochi, però, il bot conosce i suoi avversari e compagni di squadra dall'inizio.
Alla conferenza sui sistemi di elaborazione delle informazioni neurali il mese prossimo, i ricercatori presenteranno DeepRole, il primo bot di gioco in grado di vincere partite multiplayer online in cui inizialmente non sono chiare le alleanze di squadra dei partecipanti. Il bot è progettato con un nuovo "ragionamento deduttivo" aggiunto a un algoritmo AI comunemente usato per giocare a poker. Questo lo aiuta a ragionare su azioni parzialmente osservabili, per determinare la probabilità che un dato giocatore sia un compagno di squadra o un avversario. Così facendo, impara rapidamente con chi allearsi e quali azioni intraprendere per garantire la vittoria della sua squadra.
I ricercatori hanno messo DeepRole contro giocatori umani in più di 4, 000 round del gioco online "The Resistance:Avalon". In questo gioco, i giocatori cercano di dedurre i ruoli segreti dei loro coetanei man mano che il gioco procede, nascondendo contemporaneamente i propri ruoli. Sia come compagno di squadra che come avversario, DeepRole ha costantemente superato i giocatori umani.
"Se sostituisci un compagno di squadra umano con un bot, puoi aspettarti una percentuale di vittorie più elevata per la tua squadra. I bot sono partner migliori, " dice il primo autore Jack Serrino '18, che si è laureato in ingegneria elettrica e informatica al MIT ed è un appassionato giocatore di "Avalon" online.
Il lavoro fa parte di un progetto più ampio per modellare meglio il modo in cui gli esseri umani prendono decisioni socialmente informate. Ciò potrebbe aiutare a costruire robot che comprendano meglio, impara da, e lavorare con gli umani.
"Gli esseri umani imparano e collaborano con gli altri, e che ci permette di realizzare insieme cose che nessuno di noi può raggiungere da solo, ", afferma il coautore Max Kleiman-Weiner, un postdoc presso il Center for Brains, Minds and Machines e il Dipartimento di Scienze Cervello e Cognitive del MIT, e all'Università di Harvard. "Giochi come "Avalon" imitano meglio gli ambienti sociali dinamici che gli esseri umani sperimentano nella vita di tutti i giorni. Devi capire chi è nella tua squadra e lavorerà con te, che sia il tuo primo giorno di scuola materna o un altro giorno nel tuo ufficio."
Insieme a Serrino e Kleiman-Weiner sul giornale ci sono David C. Parkes di Harvard e Joshua B. Tenenbaum, professore di scienze cognitive computazionali e membro del Computer Science and Artificial Intelligence Laboratory del MIT e del Center for Brains, Menti e macchine.
Bot deduttivo
In "Avalon, " tre giocatori sono assegnati casualmente e segretamente a una squadra di "resistenza" e due giocatori a una squadra di "spia". Entrambi i giocatori spia conoscono tutti i ruoli dei giocatori. Durante ogni round, un giocatore propone un sottoinsieme di due o tre giocatori per eseguire una missione. Tutti i giocatori votano simultaneamente e pubblicamente per approvare o disapprovare il sottoinsieme. Se la maggioranza approva, il sottoinsieme determina segretamente se la missione avrà successo o meno. Se vengono scelti due "successi", la missione riesce; se viene selezionato un "fallito", la missione fallisce. I giocatori della Resistenza devono sempre scegliere di avere successo, ma i giocatori spia possono scegliere entrambi i risultati. La squadra di resistenza vince dopo tre missioni riuscite; la squadra di spionaggio vince dopo tre missioni fallite.
Vincere il gioco si riduce sostanzialmente a dedurre chi è la resistenza o la spia, e votando per i tuoi collaboratori. Ma in realtà è più complesso dal punto di vista computazionale che giocare a scacchi ea poker. "È un gioco di informazioni imperfette, " Dice Kleiman-Weiner. "Non sei nemmeno sicuro di chi sei contro quando inizi, quindi c'è un'ulteriore fase di scoperta per trovare con chi collaborare".
DeepRole utilizza un algoritmo di pianificazione del gioco chiamato "minimizzazione del rimpianto controfattuale" (CFR), che impara a giocare giocando ripetutamente contro se stesso, potenziato dal ragionamento deduttivo. Ad ogni punto di un gioco, CFR guarda avanti per creare un "albero di gioco" decisionale di linee e nodi che descriva le potenziali azioni future di ciascun giocatore. Gli alberi di gioco rappresentano tutte le possibili azioni (linee) che ogni giocatore può intraprendere in ogni futuro punto di decisione. Giocando potenzialmente miliardi di simulazioni di gioco, CFR rileva quali azioni hanno aumentato o diminuito le sue possibilità di vincita, e rivede in modo iterativo la sua strategia per includere più buone decisioni. Infine, pianifica una strategia ottimale che, al peggio, legami contro qualsiasi avversario.
CFR funziona bene per giochi come il poker, con azioni pubbliche, come scommettere denaro e passare una mano, ma fa fatica quando le azioni sono segrete. Il CFR dei ricercatori combina azioni pubbliche e conseguenze di azioni private per determinare se i giocatori fanno resistenza o spiano.
Il bot viene addestrato giocando contro se stesso sia come resistenza che come spia. Quando si gioca a un gioco online, usa il suo albero di gioco per stimare cosa farà ogni giocatore. L'albero del gioco rappresenta una strategia che dà a ogni giocatore la più alta probabilità di vincere come ruolo assegnato. I nodi dell'albero contengono "valori controfattuali, " che sono fondamentalmente stime per un guadagno che il giocatore riceve se gioca quella determinata strategia.
Ad ogni missione, il bot guarda come ogni persona ha giocato rispetto all'albero del gioco. Se, per tutto il gioco, un giocatore prende abbastanza decisioni che non sono coerenti con le aspettative del bot, allora il giocatore probabilmente sta giocando come l'altro ruolo. Infine, il bot assegna un'alta probabilità per il ruolo di ogni giocatore. Queste probabilità vengono utilizzate per aggiornare la strategia del bot per aumentare le sue possibilità di vittoria.
Contemporaneamente, utilizza questa stessa tecnica per stimare come un osservatore in terza persona potrebbe interpretare le proprie azioni. Questo aiuta a stimare come potrebbero reagire gli altri giocatori, aiutandolo a prendere decisioni più intelligenti. "Se è in una missione a due giocatori che fallisce, gli altri giocatori sanno che un giocatore è una spia. Il bot probabilmente non proporrà la stessa squadra nelle missioni future, poiché sa che gli altri giocatori pensano che sia un male, "dice Serrino.
Lingua:La prossima frontiera
interessante, il bot non aveva bisogno di comunicare con altri giocatori, che di solito è una componente chiave del gioco. "Avalon" consente ai giocatori di chattare su un modulo di testo durante il gioco. "Ma si scopre che il nostro bot è stato in grado di lavorare bene con una squadra di altri umani osservando solo le azioni dei giocatori, " dice Kleiman-Weiner. "Questo è interessante, perché si potrebbe pensare che giochi come questo richiedano strategie di comunicazione complicate".
Prossimo, i ricercatori possono consentire al bot di comunicare durante i giochi con testo semplice, come dire che un giocatore è buono o cattivo. Ciò implicherebbe l'assegnazione di un testo alla probabilità correlata che un giocatore sia una resistenza o una spia, che il bot già utilizza per prendere le sue decisioni. Oltre a questo, un futuro bot potrebbe essere dotato di capacità di comunicazione più complesse, permettendogli di giocare a giochi di deduzione sociale che richiedono un linguaggio pesante, come il popolare gioco "Werewolf" - che comportano diversi minuti di discussione e persuasione di altri giocatori su chi fa parte delle squadre buone e cattive.
"La lingua è sicuramente la prossima frontiera, "dice Serrino. "Ma ci sono tante sfide da attaccare in quelle partite, dove la comunicazione è così fondamentale."
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.