Credito:CC0 Dominio Pubblico
Gli studiosi della Higher School Of Economics hanno sviluppato un algoritmo che rileva le emozioni in un gruppo di persone su un video di bassa qualità. La soluzione fornisce una decisione finale in appena un centesimo di secondo, che è più veloce di qualsiasi altro algoritmo esistente con una precisione simile. I risultati sono stati descritti nel documento "Emotion Recognition of a Group of People in Video Analytics Using Deep Embedding di immagini standard".
L'analisi del comportamento sociale delle persone con l'uso di immagini e video è uno dei compiti più popolari per gli sviluppatori di interfacce uomo-macchina intelligenti. I ricercatori hanno raggiunto una qualità piuttosto elevata nel riconoscimento delle emozioni a livello di gruppo, ma rimaneva impossibile attuare questo sviluppo su larga scala. Il problema era il requisito della maggior parte dei sistemi video per immagini contenenti primi piani del viso con una buona risoluzione. Ma le normali telecamere installate per strada o in un supermercato hanno una bassa risoluzione e sono montate piuttosto in alto, in modo che le tipiche regioni facciali nei video raccolti siano molto piccole.
Alexander Tarasov e Andrey Savchenko, ricercatori dell'HSE, hanno sviluppato un algoritmo che è paragonabile alle tecniche esistenti di riconoscimento delle emozioni a livello di gruppo in termini di accuratezza del riconoscimento (75,5%). Allo stesso tempo, richiede solo 5 MB nella memoria di sistema, elabora un'immagine o un fotogramma video in appena un centesimo di secondo e può essere utilizzato con dati video di bassa qualità.
L'algoritmo funziona in più fasi. Primo, l'immagine viene elaborata con la rete neurale MTCNN, che viene tradizionalmente utilizzato per il rilevamento di volti piccoli. Quindi, le caratteristiche sono estratte da ogni faccia con una rete completamente convolutiva, che è stato preliminarmente addestrato a classificare le emozioni dei volti con una risoluzione molto bassa, non più grande di un'immagine del profilo sui social media. La decisione finale sull'emozione (negativa, positivo o neutro) dell'intero gruppo è costituito da un insieme di classificatori noti (foresta casuale e macchine vettoriali di supporto) applicati alla somma pesata dei vettori di caratteristiche di tutti i volti rilevati.
Il nuovo sviluppo può essere potenzialmente utilizzato in vari sistemi di videosorveglianza. Può aiutare a rilevare i cambiamenti nelle emozioni del gruppo durante un concerto, partita di calcio, o una manifestazione di protesta, che può aiutare a prevenire i conflitti in modo tempestivo. Integrato in un sistema di sorveglianza del supermercato, rileverà la reazione emotiva dei consumatori alle varie promozioni. Insieme alle telecamere che registrano un discorso pubblico, può valutare la risposta del pubblico.