• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Come addestrare il tuo robot:la ricerca fornisce nuovi approcci

    Un esempio dal set di dati MovieGraphs, scena del film Forrest Gump. Credito:Università di Toronto

    Se il tuo amico è triste, puoi dire qualcosa per rallegrarli. Se chiedi al tuo collega di fare il caffè, conoscono i passaggi per completare questo compito.

    Ma come fanno i robot artificialmente intelligenti, o IA, imparare a comportarsi allo stesso modo degli umani?

    I ricercatori dell'Università di Toronto presentano nuovi approcci verso le IA socialmente intelligenti, alla conferenza Computer Vision and Pattern Recognition (CVPR), il principale evento annuale di visione artificiale questa settimana a Salt Lake City, Utah.

    Come addestrare un robot a comportarsi?

    Nel loro articolo MovieGraphs:Towards Understanding Human-Centric Situations from Videos, Paolo Vicol, un dottorato di ricerca studente in informatica, Makarand Tapaswi, un ricercatore post-dottorato, Lluis Castrejon, un laureato magistrale in informatica U of T che ora è un dottorato di ricerca. studente presso l'Istituto per gli algoritmi di apprendimento dell'Università di Montreal, e Sanja Fidler, un assistente professore presso il dipartimento di scienze matematiche e computazionali dell'Università di T Mississauga e dipartimento di informatica laureato tri-campus, hanno accumulato un set di dati di videoclip annotati da più di 50 film.

    "MovieGraphs è un passo verso la prossima generazione di agenti cognitivi in ​​grado di ragionare su come le persone si sentono e sulle motivazioni dei loro comportamenti, " afferma Vicol. "Il nostro obiettivo è consentire alle macchine di comportarsi adeguatamente nelle situazioni sociali. I nostri grafici catturano molte proprietà di alto livello delle situazioni umane che non sono state esplorate nel lavoro precedente".

    Il loro set di dati si concentra sui film del dramma, romanza, e generi comici, come Forrest Gump e Titanic, e segue i personaggi nel tempo. Non includono film di supereroi come Thor perché non sono molto rappresentativi dell'esperienza umana.

    "L'idea era di usare i film come proxy per il mondo reale, "dice Vicol.

    Ogni clip, lui dice, è associato a un grafico che cattura molti dettagli su ciò che sta accadendo nella clip:quali personaggi sono presenti, le loro relazioni, interazioni tra loro insieme alle ragioni per cui interagiscono, e le loro emozioni.

    Vicol spiega che il set di dati mostra, Per esempio, non solo che due persone stanno litigando, ma di cosa stanno discutendo, e le ragioni per cui stanno litigando, che provengono sia da segnali visivi che da dialoghi. Il team ha creato il proprio strumento per abilitare l'annotazione, che è stato fatto da un singolo annotatore per ogni film.

    "Tutti i clip di un filmato sono annotati consecutivamente, e l'intero grafico associato a ciascuna clip è creato da una persona, che ci dà una struttura coerente in ogni grafico, e tra grafici nel tempo, " lui dice.

    Con il loro set di dati di oltre 7, 500 clip, i ricercatori introducono tre compiti, spiega Vicol. Il primo è il recupero video, in base al fatto che i grafici sono basati sui video.

    "Quindi, se cerchi utilizzando un grafico che dice che Forrest Gump sta discutendo con qualcun altro, e che le emozioni dei personaggi sono tristi e arrabbiate, poi puoi trovare la clip, " lui dice.

    Il secondo è l'ordinamento delle interazioni, che si riferisce alla determinazione dell'ordine più plausibile delle interazioni tra i personaggi. Per esempio, spiega se un personaggio dovesse fare un regalo ad un altro personaggio, la persona che riceve il regalo direbbe "grazie".

    "Di solito non diresti 'grazie, ' e poi ricevi un regalo. È un modo per valutare se stiamo catturando la semantica delle interazioni".

    Il loro compito finale è la previsione della ragione basata sul contesto sociale.

    "Se ci concentriamo su un'interazione, possiamo determinare la motivazione alla base di tale interazione e perché si è verificata? Quindi questo è fondamentalmente cercare di prevedere quando qualcuno urla a qualcun altro, la frase vera e propria che spiegherebbe perché, " lui dice

    Tapaswi dice che l'obiettivo finale è imparare il comportamento.

    "Immagina per esempio in una clip, la macchina incarna fondamentalmente Jenny [dal film Forrest Gump]. Qual è un'azione appropriata per Jenny? In una scena, è per incoraggiare Forrest a scappare dai bulli. Quindi stiamo cercando di far sì che le macchine imparino il comportamento appropriato".

    "Appropriato nel senso che i film lo consentono, Certo."

    Schermata:MIT CSAIL/VirtualHome:simulazione di attività domestiche tramite programmi

    In che modo un robot impara i compiti domestici?

    Guidato da Antonio Torralba, assistente professore del Massachusetts Institute of Technology e Fidler di U of T, VirtualHome:simulazione di attività domestiche tramite programmi, sta addestrando un agente umano virtuale utilizzando il linguaggio naturale e una casa virtuale, così il robot può imparare non solo attraverso il linguaggio, ma vedendo, spiega lo studente di informatica del master U of T Jiaman Li, un autore collaboratore con U of T Ph.D. studente di informatica Wilson Tingwu Wang.

    Li spiega che l'azione di alto livello potrebbe essere "lavoro sul computer" e la descrizione include:accendere il computer, seduto di fronte ad esso, digitando sulla tastiera e afferrando il mouse per scorrere.

    "Quindi se diciamo a un umano questa descrizione, 'lavorare al computer, ' l'essere umano può eseguire queste azioni proprio come le descrizioni. Ma se diciamo ai robot questa descrizione, come fanno esattamente? Il robot non ha questo buon senso. Ha bisogno di passaggi molto chiari, o programmi".

    Poiché non esiste un set di dati che includa tutta questa conoscenza, dice che i ricercatori ne hanno costruito uno usando un'interfaccia web per raccogliere i programmi, che forniscono il nome dell'azione e la descrizione.

    "Poi abbiamo costruito un simulatore in modo da avere un umano virtuale in una casa virtuale che può svolgere queste attività, " lei dice.

    Da parte sua nel progetto in corso, Li utilizza il deep learning, una branca dell'apprendimento automatico che addestra i computer all'apprendimento, per generare automaticamente programmi da testo o video per questi programmi.

    Però, non è un compito facile eseguire ogni azione nel simulatore, dice Li, poiché il set di dati ha prodotto più di 5, 000 programmi.

    "Simulare tutto ciò che si fa in casa è estremamente difficile, e facciamo un passo verso questo attuando le azioni atomiche più frequenti come camminare, sedersi, e raccogliere, "dice Fidler.

    "Speriamo che il nostro simulatore venga utilizzato per addestrare i robot a compiti complessi in un ambiente virtuale, prima di andare nel mondo reale".

    MovieGraphs è stato in parte supportato dal Natural Sciences and Engineering Research Council of Canada (NSERC) e VirtualHome è supportato in parte dalla rete NSERC COmputing Hardware for Emerging Intelligent Sensing Applications (COHESA).


    © Scienza https://it.scienceaq.com