Jia Bin Huang, assistente professore presso il Bradley Department of Electrical and Computer Engineering e membro di facoltà presso il Discovery Analytics Center. Credito:Virginia Tech
Jia Bin Huang, professore assistente presso il Bradley Department of Electrical and Computer Engineering e membro di facoltà presso il Discovery Analytics Center, ha ricevuto un Google Faculty Research Award per supportare il suo lavoro nel rilevare l'interazione uomo-oggetto in immagini e video.
Il premio Google, che è nella categoria Machine Perception, consentirà a Huang di affrontare le sfide della rilevazione di due aspetti dell'interazione uomo-oggetto:modellare la relazione tra una persona e oggetti/scena rilevanti per raccogliere informazioni contestuali e estrarre automaticamente esempi concreti da video senza etichetta ma ricchi di interazione.
Secondo Huang, mentre sono stati compiuti progressi significativi nella classificazione, rilevamento, e segmentare gli oggetti, la rappresentazione di immagini/video come una raccolta di istanze di oggetti isolati non è riuscita a catturare le informazioni essenziali per comprendere l'attività.
"Migliorando il modello e aumentando la formazione, miriamo a fare un ulteriore passo avanti verso la costruzione di macchine socialmente intelligenti, "Ha detto Huang.
Data un'immagine o un video, l'obiettivo è localizzare persone e istanze di oggetti, oltre a riconoscere l'interazione, se del caso, tra ogni coppia di una persona e un oggetto. Ciò fornisce una rappresentazione strutturata di un grafico visivamente fondato sugli esseri umani e sulle istanze degli oggetti con cui interagiscono.
Ad esempio:due uomini sono uno accanto all'altro ai margini di un campo da tennis, uno in piedi con in mano un ombrello e uno seduto su una sedia con in mano una racchetta da tennis e guardando una borsa per terra accanto a lui. Man mano che il video avanza, i due si sorridono, scambiare l'ombrellone e la racchetta da tennis, sedersi fianco a fianco, e bere dalle bottiglie d'acqua. Infine, si voltano a guardarsi, scambiare di nuovo l'ombrello e la racchetta da tennis, e infine, parlare tra loro.
"Comprendere l'attività umana in immagini e/o video è un passo fondamentale verso la costruzione di agenti socialmente consapevoli, recupero semantico di immagini/video, sottotitoli, e rispondere alle domande, "Ha detto Huang.
Ha detto che il rilevamento dell'interazione uomo-computer porta a una comprensione più profonda dell'attività incentrata sull'uomo.
"Invece di rispondere 'Cos'è dove?' l'obiettivo del rilevamento dell'interazione uomo-oggetto è rispondere alla domanda "Cosa sta succedendo?" I risultati dell'interazione uomo-oggetto forniscono una descrizione più dettagliata dello stato della scena e ci consentono di prevedere meglio il futuro e comprendere il loro intento, "Ha detto Huang.
dottorato di ricerca lo studente Chen Gao lavorerà al progetto con Huang. Si aspettano che la ricerca farà avanzare in modo significativo il rilevamento di oggetti umani all'avanguardia e consentirà molte applicazioni ad alto impatto, come il monitoraggio della salute a lungo termine e i robot socialmente consapevoli.
Huang prevede di condividere i risultati della ricerca tramite pubblicazioni in conferenze e riviste di alto livello e realizzerà anche il codice sorgente, set di dati raccolti, e modelli pre-addestrati prodotti da questo progetto disponibili pubblicamente.
"Il nostro progetto si allinea bene con molti degli sforzi in corso di Google per costruire "intelligenza visiva sociale". Non vediamo l'ora di interagire con ricercatori e ingegneri di Google per scambiare e condividere idee e favorire futuri rapporti di collaborazione, "Ha detto Huang.