• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • I modelli personalizzati di apprendimento automatico catturano sottili variazioni nelle espressioni facciali per valutare meglio le emozioni

    I ricercatori del MIT Media Lab hanno sviluppato un modello di apprendimento automatico che avvicina i computer all'interpretazione delle nostre emozioni in modo naturale come fanno gli umani. Il modello cattura meglio le sottili variazioni dell'espressione facciale per valutare meglio gli stati d'animo. Utilizzando dati di allenamento aggiuntivi, il modello può essere adattato anche a un gruppo di persone completamente nuovo, con la stessa efficacia. Credito:Massachusetts Institute of Technology

    I ricercatori del MIT Media Lab hanno sviluppato un modello di apprendimento automatico che avvicina i computer all'interpretazione delle nostre emozioni in modo naturale come fanno gli umani.

    Nel crescente campo del "calcolo affettivo, "si stanno sviluppando robot e computer per analizzare le espressioni facciali, interpretare le nostre emozioni, e rispondere di conseguenza. Le applicazioni includono, ad esempio, monitorare la salute e il benessere di un individuo, misurare l'interesse degli studenti per le aule, aiutando a diagnosticare i segni di alcune malattie, e sviluppando utili compagni robot.

    Una sfida, però, le persone esprimono le emozioni in modo molto diverso, a seconda di molti fattori. Le differenze generali possono essere viste tra le culture, generi, e fasce di età. Ma altre differenze sono ancora più sottili:l'ora del giorno, quanto hai dormito, o anche il tuo livello di familiarità con un interlocutore porta a sottili variazioni nel modo in cui esprimi, dire, felicità o tristezza in un dato momento.

    Il cervello umano cattura istintivamente queste deviazioni, ma le macchine lottano. Negli ultimi anni sono state sviluppate tecniche di apprendimento profondo per aiutare a cogliere le sottigliezze, ma non sono ancora così precisi o adattabili a popolazioni diverse come potrebbero essere.

    I ricercatori di Media Lab hanno sviluppato un modello di apprendimento automatico che supera i sistemi tradizionali nel catturare queste piccole variazioni di espressione facciale, per valutare meglio l'umore mentre ti alleni su migliaia di immagini di volti. Inoltre, utilizzando un po' di dati di addestramento in più, il modello può essere adattato a un gruppo di persone completamente nuovo, con la stessa efficacia. L'obiettivo è migliorare le tecnologie informatiche affettive esistenti.

    "Questo è un modo discreto per monitorare i nostri stati d'animo, " dice Oggi Rudovic, un ricercatore di Media Lab e coautore di un articolo che descrive il modello, che è stato presentato la scorsa settimana alla Conferenza su Machine Learning e Data Mining. "Se vuoi robot con intelligenza sociale, devi farli rispondere in modo intelligente e naturale ai nostri stati d'animo ed emozioni, più come gli umani."

    I coautori del documento sono:il primo autore Michael Feffer, uno studente universitario in ingegneria elettrica e informatica; e Rosalind Picard, un professore di arti e scienze dei media e direttore fondatore del gruppo di ricerca Affective Computing.

    Esperti personalizzati

    I modelli di calcolo affettivo tradizionali utilizzano un concetto di "taglia unica". Si allenano su una serie di immagini raffiguranti varie espressioni facciali, ottimizzando le funzionalità, come il modo in cui un labbro si arriccia quando sorride, e mappando quelle ottimizzazioni delle funzionalità generali su un intero set di nuove immagini.

    I ricercatori, Invece, combinato una tecnica, chiamato "miscela di esperti" (MoE), con tecniche di personalizzazione del modello, che ha aiutato a estrarre dati più dettagliati sulle espressioni facciali degli individui. Questa è la prima volta che queste due tecniche sono state combinate per il calcolo affettivo, dice Rudovico.

    In MoE, una serie di modelli di reti neurali, chiamati "esperti, " sono formati ciascuno per specializzarsi in un'attività di elaborazione separata e produrre un output. I ricercatori hanno anche incorporato una "rete di gating, " che calcola le probabilità di quale esperto rileverà meglio gli stati d'animo di soggetti invisibili. "Fondamentalmente la rete può discernere tra gli individui e dire, 'Questo è l'esperto giusto per l'immagine data, '", dice Feffer.

    Per il loro modello, i ricercatori hanno personalizzato i MoE abbinando ciascun esperto a una delle 18 registrazioni video individuali nel database RECOLA, un database pubblico di persone che conversano su una piattaforma di videochat progettata per applicazioni di informatica affettiva. Hanno addestrato il modello utilizzando nove soggetti e li hanno valutati sugli altri nove, con tutti i video suddivisi in singoli fotogrammi.

    Ogni esperto, e la rete di porte, tracciate le espressioni facciali di ogni individuo, con l'ausilio di una rete residuale ("ResNet"), una rete neurale utilizzata per la classificazione degli oggetti. Così facendo, il modello ha valutato ogni fotogramma in base al livello di valenza (piacevole o spiacevole) e di eccitazione (eccitazione), metriche comunemente utilizzate per codificare diversi stati emotivi. Separatamente, sei esperti umani hanno etichettato ogni fotogramma per valenza ed eccitazione, basato su una scala da -1 (livelli bassi) a 1 (livelli alti), che il modello usava anche per addestrare.

    I ricercatori hanno quindi eseguito un'ulteriore personalizzazione del modello, dove hanno alimentato i dati del modello addestrato da alcuni fotogrammi dei restanti video dei soggetti, e poi testato il modello su tutti i fotogrammi non visti da quei video. I risultati hanno mostrato che, con solo il 5-10% dei dati della nuova popolazione, il modello ha superato di gran lunga i modelli tradizionali, il che significa che ha ottenuto valenza ed eccitazione su immagini invisibili molto più vicine alle interpretazioni degli esperti umani.

    Ciò mostra il potenziale dei modelli di adattarsi da popolazione a popolazione, o da individuo a individuo, con pochissimi dati, dice Rudovico. "Questa è la chiave, " dice. "Quando hai una nuova popolazione, devi avere un modo per tenere conto dello spostamento della distribuzione dei dati [sottili variazioni facciali]. Immagina un modello impostato per analizzare le espressioni facciali in una cultura che deve essere adattato per una cultura diversa. Senza tenere conto di questo spostamento di dati, quei modelli avranno prestazioni inferiori. Ma se assaggi solo un po' di una nuova cultura per adattare il nostro modello, questi modelli possono fare molto meglio, soprattutto a livello individuale. È qui che si può vedere meglio l'importanza della personalizzazione del modello."

    I dati attualmente disponibili per tale ricerca informatica affettiva non sono molto diversi nei colori della pelle, quindi i dati sulla formazione dei ricercatori erano limitati. Ma quando tali dati saranno disponibili, il modello può essere addestrato per l'uso su popolazioni più diverse. Il prossimo passo, Feffer dice, consiste nell'addestrare il modello su "un set di dati molto più grande con culture più diverse".

    Migliori interazioni macchina-uomo

    Un altro obiettivo è addestrare il modello per aiutare computer e robot ad apprendere automaticamente da piccole quantità di dati che cambiano per rilevare in modo più naturale come ci sentiamo e servire meglio i bisogni umani, dicono i ricercatori.

    Potrebbe, Per esempio, eseguire sullo sfondo di un computer o dispositivo mobile per tenere traccia delle conversazioni basate su video di un utente e apprendere sottili cambiamenti dell'espressione facciale in contesti diversi. "Puoi avere cose come app per smartphone o siti web in grado di dire come si sentono le persone e consigliare modi per far fronte allo stress o al dolore, e altre cose che hanno un impatto negativo sulla loro vita, "dice Feffer.

    Questo potrebbe essere utile anche per monitorare, dire, depressione o demenza, poiché le espressioni facciali delle persone tendono a cambiare leggermente a causa di tali condizioni. "Essere in grado di monitorare passivamente le nostre espressioni facciali, " dice Rudovico, "Potremmo essere in grado di personalizzare nel tempo questi modelli per gli utenti e monitorare quante deviazioni hanno su base giornaliera, deviando dal livello medio di espressività facciale, e utilizzarlo per indicatori di benessere e salute".

    Un'applicazione promettente, Rudovico dice, sono le interazioni uomo-robot, come per la robotica personale o i robot utilizzati per scopi didattici, dove i robot devono adattarsi per valutare gli stati emotivi di molte persone diverse. Una versione, ad esempio, è stato utilizzato per aiutare i robot a interpretare meglio gli stati d'animo dei bambini con autismo.

    Roddy Cowie, professore emerito di psicologia alla Queen's University di Belfast e studioso di informatica affettiva, dice il lavoro del MIT "illustra dove siamo veramente" nel campo. "Ci stiamo avvicinando a sistemi che possono posizionare approssimativamente, dalle immagini dei volti delle persone, dove si trovano su scale da molto positivo a molto negativo, e da molto attivo a molto passivo, " dice. "Sembra intuitivo che i segni emotivi che una persona dà non siano gli stessi dei segni che dà un'altra, e quindi ha molto senso che il riconoscimento delle emozioni funzioni meglio quando è personalizzato. Il metodo di personalizzazione riflette un altro punto interessante, che è più efficace formare più esperti, ' e aggregare i loro giudizi, piuttosto che formare un singolo super esperto. I due insieme formano un pacchetto soddisfacente".

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.




    © Scienza https://it.scienceaq.com