Noam Brown è un ricercatore di intelligenza artificiale di Facebook mentre sta finendo il suo dottorato di ricerca. alla Carnegie Mellon. Credito:Noam Brown
Un programma di intelligenza artificiale sviluppato dalla Carnegie Mellon University in collaborazione con Facebook AI ha sconfitto i principali professionisti del poker Texas hold'em no-limit a sei giocatori, la forma di poker più popolare al mondo.
L'IA, chiamato Pluribus, sconfitto il professionista di poker Darren Elias, che detiene il record per la maggior parte dei titoli del World Poker Tour, e Chris "Jesus" Ferguson, vincitore di sei eventi delle World Series of Poker. Ogni professionista ha giocato separatamente 5, 000 mani di poker contro cinque copie di Pluribus.
In un altro esperimento che ha coinvolto 13 professionisti, tutti coloro che hanno vinto più di $ 1 milione giocando a poker, Pluribus ha giocato cinque professionisti alla volta per un totale di 10, 000 mani e di nuovo è emerso vittorioso.
"Pluribus ha ottenuto prestazioni sovrumane nel poker multigiocatore, che è una pietra miliare riconosciuta nell'intelligenza artificiale e nella teoria dei giochi che è stata aperta per decenni, " disse Tuomas Sandholm, Angel Jordan Professore di Informatica, che ha sviluppato Pluribus con Noam Brown, chi sta finendo il suo dottorato di ricerca nel dipartimento di informatica di Carnegie Mellon come ricercatore presso Facebook AI. "Finora, Le pietre miliari dell'IA sovrumana nel ragionamento strategico sono state limitate alla competizione tra due parti. La possibilità di battere altri cinque giocatori in un gioco così complicato apre nuove opportunità per utilizzare l'intelligenza artificiale per risolvere un'ampia varietà di problemi del mondo reale".
Un documento di ricerca che descrive questo risultato nell'intelligenza artificiale sarà pubblicato online dalla rivista Scienza di giovedì, 11 luglio 2019.
"Giocare una partita a sei giocatori piuttosto che un testa a testa richiede cambiamenti fondamentali nel modo in cui l'IA sviluppa la sua strategia di gioco, " disse Bruno, che si è unito a Facebook AI lo scorso anno. "Siamo euforici per le sue prestazioni e crediamo che alcune delle strategie di gioco di Pluribus potrebbero persino cambiare il modo in cui i professionisti giocano".
Gli algoritmi di Pluribus hanno creato alcune caratteristiche sorprendenti nella sua strategia. Ad esempio, la maggior parte dei giocatori umani evita le "scommesse donk", cioè terminare un round con una chiamata ma poi iniziare il round successivo con una scommessa. È vista come una mossa debole che di solito non ha senso strategico. Ma Pluribus ha piazzato donk bet molto più spesso dei professionisti che ha sconfitto.
"Il suo principale punto di forza è la capacità di utilizzare strategie miste, " ha detto Elias la scorsa settimana mentre si preparava per il main event delle World Series of Poker 2019. "È la stessa cosa che gli umani cercano di fare. È una questione di esecuzione per gli umani:farlo in modo perfettamente casuale e in modo coerente. La maggior parte delle persone semplicemente non può".
Pluribus ha registrato una solida vittoria con significatività statistica, che è particolarmente impressionante data la sua opposizione, disse Elia. "Il bot non stava solo giocando contro alcuni professionisti di mezzo giro. Stava giocando con alcuni dei migliori giocatori del mondo."
Michele "Gags" Gagliano, che ha guadagnato quasi $ 2 milioni in guadagni di carriera, gareggiato anche contro Pluribus.
"E' stato incredibilmente affascinante giocare contro il poker bot e vedere alcune delle strategie che ha scelto" ha detto Gagliano. "Ci sono state diverse commedie che gli umani semplicemente non stanno facendo affatto, soprattutto in relazione alla sua dimensione della scommessa. I bot/IA sono una parte importante nell'evoluzione del poker, ed è stato fantastico avere un'esperienza di prima mano in questo grande passo verso il futuro".
Sandholm ha guidato un team di ricerca che studia il poker al computer per più di 16 anni. Lui e Brown hanno precedentemente sviluppato Libratus, che due anni fa ha battuto in modo decisivo quattro professionisti del poker giocando un totale di 120, 000 mani di heads-up no-limit Texas hold'em, una versione per due giocatori del gioco.
Giochi come scacchi e Go sono stati a lungo pietre miliari per la ricerca sull'intelligenza artificiale. In quei giochi, tutti i giocatori conoscono lo stato del tabellone e di tutti i pezzi. Ma il poker è una sfida più grande perché è un gioco di informazioni incomplete; i giocatori non possono essere certi di quali carte sono in gioco e gli avversari possono bluffare e lo faranno. Ciò lo rende sia una sfida AI più difficile che più rilevante per molti problemi del mondo reale che coinvolgono più parti e informazioni mancanti.
Tutte le IA che hanno mostrato abilità sovrumane nelle partite a due giocatori lo hanno fatto approssimando quello che viene chiamato equilibrio di Nash. Chiamato per il compianto alunno Carnegie Mellon e premio Nobel John Forbes Nash Jr., un equilibrio di Nash è una coppia di strategie (una per giocatore) in cui nessun giocatore può trarre vantaggio dal cambiamento di strategia finché la strategia dell'altro giocatore rimane la stessa. Sebbene la strategia dell'IA garantisca solo un risultato non peggiore di un pareggio, l'IA risulta vittoriosa se il suo avversario commette errori di calcolo e non riesce a mantenere l'equilibrio.
In una partita con più di due giocatori, giocare un equilibrio di Nash può essere una strategia perdente. Quindi Pluribus rinuncia a garanzie teoriche di successo e sviluppa strategie che tuttavia gli consentono di battere costantemente gli avversari.
Pluribus prima calcola una strategia "progetto" giocando sei copie di se stesso, che è sufficiente per il primo giro di puntate. Da quel punto in poi, Pluribus fa una ricerca più dettagliata di possibili mosse in un'astrazione più fine del gioco. Guarda avanti diverse mosse mentre lo fa, ma senza dover guardare avanti fino alla fine del gioco, che sarebbe computazionalmente proibitivo. La ricerca anticipata limitata è un approccio standard nei giochi a informazione perfetta, ma è estremamente impegnativo nei giochi a informazione imperfetta. Un nuovo algoritmo di ricerca in prospettiva limitata è la principale svolta che ha permesso a Pluribus di ottenere un poker multigiocatore sovrumano.
Nello specifico, la ricerca è una soluzione di gioco di informazioni imperfette di un sottogioco di prospettiva limitata. Alle foglie di quel sottogioco, l'IA considera cinque possibili strategie di continuazione che ciascun avversario e se stesso potrebbe adottare per il resto della partita. Il numero di possibili strategie di continuazione è molto più ampio, ma i ricercatori hanno scoperto che il loro algoritmo ha bisogno solo di considerare cinque strategie di continuazione per giocatore ad ogni foglia per calcolare un forte, strategia globale equilibrata.
Pluribus cerca anche di essere imprevedibile. Ad esempio, scommettere avrebbe senso se l'IA avesse la migliore mano possibile, ma se l'IA punta solo quando ha la mano migliore, gli avversari prenderanno presto piede. Quindi Pluribus calcola come agirebbe con ogni possibile mano che potrebbe tenere e quindi calcola una strategia bilanciata tra tutte queste possibilità.
Sebbene il poker sia un gioco incredibilmente complicato, Pluribus ha fatto un uso efficiente del calcolo. Le IA che hanno raggiunto traguardi recenti nei giochi hanno utilizzato un gran numero di server e/o farm di GPU; Libratus ha impiegato circa 15 milioni di ore di base per sviluppare le proprie strategie e, durante il gioco dal vivo, usato 1, 400 core della CPU. Pluribus ha calcolato la sua strategia di progetto in otto giorni utilizzando solo 12, 400 ore di core e utilizzato solo 28 core durante il gioco dal vivo.