Il rilevatore "YoTube" aiuta a rendere l'intelligenza artificiale più centrata sull'uomo. Credito:iStock
Quando un agente di polizia inizia ad alzare la mano nel traffico, i conducenti umani si rendono conto che l'ufficiale sta per segnalare loro di fermarsi. Ma i computer trovano più difficile elaborare le prossime azioni probabili delle persone in base al loro comportamento attuale. Ora, un team di ricercatori e colleghi di A*STAR ha sviluppato un rilevatore in grado di individuare con successo dove si verificheranno le azioni umane nei video, quasi in tempo reale.
La tecnologia di analisi delle immagini dovrà migliorare nella comprensione delle intenzioni umane se deve essere impiegata in un'ampia gamma di applicazioni, dice Hongyuan Zhu, un informatico presso l'A*STAR's Institute for Infocomm Research, che ha condotto lo studio. Le auto senza conducente devono essere in grado di rilevare gli agenti di polizia e interpretare le loro azioni in modo rapido e accurato, per una guida sicura, lui spiega. I sistemi autonomi potrebbero anche essere addestrati per identificare attività sospette come combattimenti, furto, o far cadere oggetti pericolosi, e allertare gli agenti di sicurezza.
I computer sono già estremamente bravi a rilevare oggetti nelle immagini statiche, grazie a tecniche di deep learning, che utilizzano reti neurali artificiali per elaborare informazioni di immagini complesse. Ma i video con oggetti in movimento sono più impegnativi. "Capire le azioni umane nei video è un passaggio necessario per costruire macchine più intelligenti e amichevoli, " dice Zhu.
I metodi precedenti per individuare potenziali azioni umane nei video non utilizzavano framework di deep learning ed erano lenti e soggetti a errori, dice Zhu. Per superare questo, il rilevatore YoTube del team combina due tipi di reti neurali in parallelo:una rete neurale statica, che ha già dimostrato di essere accurato nell'elaborazione delle immagini fisse, e una rete neurale ricorrente, tipicamente utilizzato per l'elaborazione dei dati di modifica, per il riconoscimento vocale. "Il nostro metodo è il primo a riunire rilevamento e tracciamento in un'unica pipeline di deep learning, " dice Zhu.
Il team ha testato YoTube su più di 3, 000 video utilizzati abitualmente negli esperimenti di visione artificiale. Riferiscono che ha superato i rilevatori all'avanguardia nell'individuare correttamente potenziali azioni umane di circa il 20% per i video che mostrano attività quotidiane generali e di circa il 6% per i video sportivi. Il rilevatore a volte commette errori se le persone nel video sono piccole, o se ci sono molte persone in background. Ciò nonostante, Zhu dice, "Abbiamo dimostrato di poter rilevare la maggior parte delle potenziali regioni di azione umana in modo quasi in tempo reale".