Una nuova ricerca suggerisce che addestrare un modello di intelligenza artificiale con compagni di squadra matematicamente "diversi" migliora la sua capacità di collaborare con altre IA con cui non ha mai lavorato prima. Credito:Bryan Mastergeorge
Man mano che l'intelligenza artificiale migliora nello svolgere compiti una volta solo nelle mani degli umani, come guidare le auto, molti vedono l'intelligenza di squadra come una prossima frontiera. In questo futuro, gli esseri umani e l'IA sono veri partner in lavori ad alto rischio, come eseguire interventi chirurgici complessi o difendersi dai missili. Ma prima che l'intelligenza di gruppo possa decollare, i ricercatori devono superare un problema che corrode la cooperazione:agli esseri umani spesso non piacciono o non si fidano dei loro partner di intelligenza artificiale.
Ora, una nuova ricerca indica la diversità come un parametro chiave per rendere l'IA un giocatore di squadra migliore.
I ricercatori del MIT Lincoln Laboratory hanno scoperto che addestrare un modello di IA con compagni di squadra matematicamente "diversi" migliora la sua capacità di collaborare con altre IA con cui non ha mai lavorato prima, nel gioco di carte Hanabi. Inoltre, sia Facebook che DeepMind di Google hanno pubblicato contemporaneamente un lavoro indipendente che ha anche infuso diversità nella formazione per migliorare i risultati nei giochi collaborativi uomo-IA.
Complessivamente, i risultati potrebbero indicare ai ricercatori un percorso promettente per creare un'IA che possa funzionare bene ed essere vista come un buon collaboratore dai compagni di squadra umani.
"Il fatto che siamo tutti convergenti sulla stessa idea - che se vuoi collaborare, devi formarti in un ambiente diverso - è eccitante e credo che ponga davvero le basi per il futuro lavoro nell'IA cooperativa", afferma Ross Allen, ricercatore dell'Artificial Intelligence Technology Group del Lincoln Laboratory e coautore di un documento che descrive in dettaglio questo lavoro, che è stato recentemente presentato alla Conferenza internazionale sugli agenti autonomi e sui sistemi multi-agente.
Adattarsi a comportamenti diversi
Per sviluppare l'IA cooperativa, molti ricercatori stanno usando Hanabi come banco di prova. Hanabi sfida i giocatori a lavorare insieme per impilare le carte in ordine, ma i giocatori possono vedere solo le carte dei loro compagni di squadra e possono scambiarsi solo scarsi indizi su quali carte hanno in mano.
In un precedente esperimento, i ricercatori del Lincoln Laboratory hanno testato uno dei modelli di IA Hanabi più performanti al mondo con gli esseri umani. Sono rimasti sorpresi di scoprire che agli umani non piaceva molto giocare con questo modello di intelligenza artificiale, definendolo un compagno di squadra confuso e imprevedibile. "La conclusione è stata che ci manca qualcosa sulle preferenze umane e non siamo ancora bravi a creare modelli che potrebbero funzionare nel mondo reale", afferma Allen.
Il team si è chiesto se l'IA cooperativa debba essere addestrata in modo diverso. Il tipo di intelligenza artificiale utilizzato, chiamato apprendimento per rinforzo, impara tradizionalmente come avere successo in compiti complessi scoprendo quali azioni producono la ricompensa più alta. Viene spesso addestrato e valutato rispetto a modelli simili a se stesso. Questo processo ha creato giocatori di IA impareggiabili in giochi competitivi come Go e StarCraft.
Ma affinché l'IA sia una collaboratrice di successo, forse non deve solo preoccuparsi di massimizzare la ricompensa quando collabora con altri agenti dell'IA, ma anche qualcosa di più intrinseco:capire e adattarsi ai punti di forza e alle preferenze degli altri. In altre parole, deve imparare e adattarsi alla diversità.
Come si addestra un'IA così orientata alla diversità? I ricercatori hanno inventato "Any-Play". Any-Play aumenta il processo di addestramento di un agente Hanabi AI aggiungendo un altro obiettivo, oltre a massimizzare il punteggio di gioco:l'IA deve identificare correttamente lo stile di gioco del suo compagno di allenamento.
Questo stile di gioco è codificato all'interno del partner di addestramento come una variabile latente o nascosta che l'agente deve stimare. Lo fa osservando le differenze nel comportamento del suo partner. Questo obiettivo richiede anche che il suo partner impari comportamenti distinti e riconoscibili al fine di trasmettere queste differenze all'agente AI ricevente.
Sebbene questo metodo per indurre la diversità non sia nuovo nel campo dell'IA, il team ha esteso il concetto ai giochi collaborativi sfruttando questi comportamenti distinti come diversi stili di gioco del gioco.
"L'agente dell'IA deve osservare il comportamento dei suoi partner al fine di identificare quell'input segreto che hanno ricevuto e deve adattarsi a questi vari modi di giocare per funzionare bene nel gioco. L'idea è che ciò si tradurrebbe in un agente dell'IA che è buono a giocare con diversi stili di gioco", afferma il primo autore e Ph.D. della Carnegie Mellon University. candidato Keane Lucas, che ha condotto gli esperimenti come ex stagista presso il laboratorio.
Giocare con gli altri a differenza di se stesso
Il team ha potenziato quel precedente modello Hanabi (quello che avevano testato con gli esseri umani nel loro precedente esperimento) con il processo di allenamento Any-Play. Per valutare se l'approccio migliorasse la collaborazione, i ricercatori hanno unito il modello con "estranei" - più di 100 altri modelli Hanabi che non avevano mai incontrato prima e che sono stati addestrati da algoritmi separati - in milioni di partite a due giocatori.
Gli accoppiamenti Any-Play hanno superato tutte le altre squadre, quando quelle squadre erano composte anche da partner algoritmicamente dissimili tra loro. Ha anche ottenuto punteggi migliori quando si collabora con la versione originale di se stesso non allenato con Any-Play.
I ricercatori considerano questo tipo di valutazione, chiamato cross-play inter-algoritmo, come il miglior predittore di come l'IA cooperativa si comporterebbe nel mondo reale con gli esseri umani. Il cross-play tra algoritmi contrasta con le valutazioni più comunemente utilizzate che testano un modello rispetto a copie di se stesso o a modelli addestrati dallo stesso algoritmo.
"Sosteniamo che queste altre metriche possono essere fuorvianti e aumentare artificialmente le prestazioni apparenti di alcuni algoritmi. Invece, vogliamo sapere, 'se si fa entrare un partner di punto in bianco, senza alcuna conoscenza preliminare di come giocherà , quanto bene puoi collaborare?' Pensiamo che questo tipo di valutazione sia più realistico quando si valuta l'IA cooperativa con altre IA, quando non è possibile testare con gli esseri umani", afferma Allen.
In effetti, questo lavoro non ha testato Any-Play con gli esseri umani. Tuttavia, la ricerca pubblicata da DeepMind, simultanea al lavoro del laboratorio, ha utilizzato un simile approccio di formazione sulla diversità per sviluppare un agente di intelligenza artificiale per giocare al gioco collaborativo Overcooked con gli umani. "L'agente dell'IA e gli esseri umani hanno mostrato una cooperazione straordinariamente buona e questo risultato ci porta a credere che il nostro approccio, che troviamo ancora più generalizzato, funzionerebbe bene anche con gli esseri umani", afferma Allen. Allo stesso modo Facebook ha utilizzato la diversità nella formazione per migliorare la collaborazione tra gli agenti dell'IA Hanabi, ma ha utilizzato un algoritmo più complicato che richiedeva modifiche alle regole del gioco Hanabi per essere trattabili.
Se i punteggi del cross-play tra algoritmi siano effettivamente buoni indicatori delle preferenze umane è ancora un'ipotesi. Per riportare la prospettiva umana nel processo, i ricercatori vogliono provare a correlare i sentimenti di una persona su un'IA, come sfiducia o confusione, a obiettivi specifici utilizzati per addestrare l'IA. Scoprire queste connessioni potrebbe aiutare ad accelerare i progressi nel campo.
"La sfida con lo sviluppo dell'IA per lavorare meglio con gli esseri umani è che non possiamo avere gli umani in giro durante l'allenamento che dicono all'IA cosa gli piace e cosa non gli piace. Ci vorrebbero milioni di ore e personalità. Ma se potessimo trovare una sorta di proxy quantificabile per le preferenze umane - e forse la diversità nella formazione è uno di questi proxy - quindi forse abbiamo trovato un modo per superare questa sfida", afferma Allen.