Credito:embodiedqa.org
Hmm, c'era una volta, siamo rimasti colpiti dal fatto che questo fenomeno di ricerca chiamato Google potesse rispondere istantaneamente alle domande e cioè semplicemente digitando le parole in una barra spaziatrice. Mirabile dictu se chiedessi dov'è Miani Google ti risponderebbe, Intendi Miami?
La scena delle domande e delle risposte è cresciuta e ora gli scienziati stanno lavorando su un altro livello in cui i sistemi intelligenti vedono, Piano, e ragionare la risposta.
Embodied Question Answering è il nome di un progetto e il titolo di un documento su arXiv. I sei autori, con le affiliazioni del Georgia Institute of Technology e Facebook AI Research, descrivere il loro lavoro che comprende una gamma di abilità di intelligenza artificiale.
QA incarnato, come viene chiamato, incarica gli agenti di navigare in ricchi ambienti 3D per rispondere alle domande. sarà cavaliere, Revisione della tecnologia del MIT , si riferiva a questa "sfida della caccia al tesoro".
Questi agenti devono imparare insieme la comprensione del linguaggio, ragionamento visivo, e la navigazione orientata agli obiettivi per avere successo.
Di cosa si tratta:un agente viene generato in una posizione casuale in un ambiente 3D. All'agente viene posta una domanda ("Di che colore è l'auto?"). Per ottenere la risposta, l'agente deve navigare per esplorare l'ambiente, raccogliere informazioni attraverso la "visione in prima persona (egocentrica), " e poi rispondi.
Il team ha sviluppato un set di dati di domande e risposte in ambienti House3D. (Puoi scoprire di più su House3D un ambiente 3D virtuale, su GitHub).
Il loro documento approfondisce ulteriormente i tipi di domande e i modelli nel set di dati EQA. posizione:quale stanza? Di che colore è l'oggetto? cosa c'è sopra, sotto, accanto a, l'oggetto? Esistenza:c'è un oggetto nella stanza? Quanti? L'oggetto 1 è più vicino all'oggetto 2 rispetto all'oggetto 3?
Le domande testano le abilità:rilevamento di oggetti, riconoscimento della scena, conteggio, ragionamento spaziale, riconoscimento del colore e logica.
Anche, gli autori hanno affermato che "l'EQA è facilmente estendibile per includere nuove operazioni elementari, tipi di domande, e modelli secondo necessità per aumentare la difficoltà del compito in modo che corrisponda allo sviluppo."
Gli autori hanno sottolineato che l'EQA non è un set di dati statico. Piuttosto, è un test per "un curriculum di capacità che vorremmo raggiungere negli agenti comunicanti incarnati".
Perché questo è importante: Azienda veloce ha fatto notare che questo progetto di Facebook e Georgia Tech sta effettivamente addestrando sistemi di intelligenza artificiale per analizzare domande sul linguaggio naturale e trovare oggetti specifici.
Perché questo è importante, a Will Knight in Revisione della tecnologia del MIT :"Immagina di chiedere a un Roomba di passare l'aspirapolvere in camera da letto. Anche se la macchina potrebbe capire la tua voce e vedere l'ambiente circostante, non ha idea di cosa sia una camera da letto, o dove si potrebbe trovare. Ma i futuri robot domestici potrebbero utilizzare software di intelligenza artificiale che ha appreso fatti così semplici sulle case ordinarie esplorando prima molte case virtuali".
Come hanno fatto i ricercatori? Daniel Terdiman in Azienda veloce ha scritto che il team "ha utilizzato numerosi tipi di apprendimento automatico per addestrare i robot a rispondere alle domande sulla casa virtuale".
"Apprendimento" è una parte importante di ciò che il team ha realizzato. L'agente apprese quella che Knight definì "una forma rudimentale di buon senso". Con tentativi ed errori, ha individuato i posti migliori per cercare l'oggetto in questione. Forse, Per esempio, l'agente apprende che le auto di solito si trovano nel garage. Potrebbe capire che i garage sono fuori dalla porta anteriore o posteriore.
© 2018 Tech Xplore