• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Istantanee del futuro:lo strumento impara a prevedere lo sguardo degli utenti nelle riprese dell'headcam

    Credito:CC0 Dominio Pubblico

    La miniaturizzazione delle videocamere ha portato a un'esplosione del loro utilizzo, compresa la loro incorporazione in una gamma di dispositivi portatili come headcam, utilizzato in scenari che vanno dagli eventi sportivi al combattimento armato. Analizzare le attività eseguite in vista di tali dispositivi e fornire una guida in tempo reale alle persone che li utilizzano, sarebbe utile definire dove l'utente si sta effettivamente concentrando all'interno del filmato in ogni momento, ma gli strumenti disponibili per prevederlo sono ancora limitati.

    In un nuovo studio riportato alla 15th European Conference on Computer Vision (ECCV 2018), i ricercatori dell'Università di Tokyo hanno sviluppato uno strumento computazionale in grado di apprendere dai filmati ripresi utilizzando una videocamera, in questo caso di varie mansioni svolte in cucina, e quindi prevedere con precisione dove sarà il prossimo obiettivo dell'utente. Questo nuovo strumento potrebbe essere utile per consentire alle tecnologie collegate ai video di prevedere quali azioni l'utente sta attualmente eseguendo, e fornire una guida appropriata per quanto riguarda il passaggio successivo.

    I programmi esistenti per prevedere dove è probabile che lo sguardo umano cada all'interno di un fotogramma di filmati video sono stati generalmente basati sul concetto di "rilevanza visiva, " che utilizza distinzioni di caratteristiche come il colore, intensità, e il contrasto all'interno dell'immagine per prevedere dove è probabile che una persona guardi. Però, in filmati di soggetti umani che svolgono compiti complessi, questo approccio di salienza visiva è inadeguato, poiché è probabile che l'individuo sposti la propria attenzione da un oggetto all'altro in modo sequenziale, e spesso prevedibile, maniera.

    Per sfruttare questa prevedibilità, in questo studio il team ha utilizzato un nuovo approccio che combina la salienza visiva con "previsione dello sguardo, " che implica un'intelligenza artificiale che apprende tali sequenze di azioni da filmati esistenti e quindi applica le conoscenze ottenute per prevedere la direzione dello sguardo dell'utente in un nuovo filmato.

    "Il nostro nuovo approccio prevede la costruzione di una prima 'mappa di salienza' per ogni fotogramma del filmato, quindi una "mappa dell'attenzione" basata su dove l'utente stava guardando in precedenza e sul movimento della testa dell'utente, e infine la combinazione di entrambi in una "mappa dello sguardo", "" Dice Yoichi Sato. "I nostri risultati hanno mostrato che questo nuovo strumento ha superato le precedenti alternative in termini di previsione di dove fosse effettivamente diretto lo sguardo dell'utente della videocamera".

    Sebbene i risultati del team siano stati ottenuti per filmati di lavori in cucina, come l'acqua bollente su un fornello, potrebbero essere estesi a situazioni quali compiti svolti in uffici o fabbriche. Infatti, secondo l'autore principale Yifei Huang, "Strumenti per valutare i cosiddetti video egocentrici di questo tipo potrebbero essere applicati anche in un contesto medico, come valutare dove si sta concentrando un chirurgo e offrire indicazioni sui passi più appropriati da intraprendere in seguito a un'operazione".

    L'articolo "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition" è pubblicato negli atti della European Conference on Computer Vision (ECCV 2018) e come documento arXiv su arxiv.org/abs/1803.09125.


    © Scienza https://it.scienceaq.com