Un team guidato dal dottorando Xin (Cindy) Guo ha sviluppato un algoritmo in grado di classificare le emozioni dei soggetti nelle foto. Credito:Università del Delaware
Si dice che un'immagine valga più di mille parole. Ma cosa succede se non si può dire cosa mostra l'immagine? Dalle foto di famiglia imbarazzanti alle fotografie di classe, a volte è difficile dire cosa pensano le persone nelle immagini.
Utilizzando l'apprendimento automatico e il deep learning con le reti neurali, un team dell'Università del Delaware lo sta scoprendo. Un team guidato dalla studentessa di dottorato Xin (Cindy) Guo ha ottenuto il primo posto nella sotto-sfida di riconoscimento delle emozioni a livello di gruppo, una delle tre sotto-sfide della sesta sfida Emotion Recognition in the Wild (EmotiW 2018). I vincitori sono stati annunciati alla Conferenza internazionale ACM sull'interazione multimodale 2018, che si è tenuto nell'ottobre 2018.
Ai team è stata data una serie di immagini che ritraggono un gruppo di persone e il compito di sviluppare un algoritmo in grado di classificare le persone nelle foto come felici, neutro o negativo. I team hanno avuto un mese e mezzo e sette tentativi per produrre l'algoritmo più accurato possibile. La soluzione vincente del team UD, intitolato "Riconoscimento delle emozioni a livello di gruppo utilizzando modelli profondi ibridi basati su volti, scene, Scheletri e attenzioni visive, " sarà pubblicato da ACM. Il gruppo ha fuso otto diversi modelli insieme per sviluppare la loro soluzione vincente, che funziona su fotografie a una varietà di risoluzioni, sfocato per cancellare.
L'obiettivo di tale lavoro? Per classificare automaticamente le immagini caricate sui siti web.
"Quando le persone cercano, vedrebbero le immagini che stanno cercando perché l'algoritmo verrebbe eseguito ed etichetterebbe se le persone sono felici o meno, " ha detto Guo. "Potrebbe essere usato per analizzare le emozioni di un gruppo di persone ritratte durante una protesta, una festa, un matrimonio, o un incontro, Per esempio. Questa tecnologia potrebbe anche essere sviluppata per determinare che tipo di evento mostra una determinata immagine".