Credito:CC0 Dominio Pubblico
Dati solo pochi fotogrammi di un video, gli umani di solito possono supporre ciò che sta accadendo e accadrà sullo schermo. Se vediamo una prima cornice di lattine impilate, una cornice centrale con un dito alla base della pila, e una cornice tarda che mostra le lattine rovesciate, possiamo intuire che il dito ha abbattuto le lattine. computer, però, lotta con questo concetto.
In un documento presentato alla Conferenza europea sulla visione artificiale di questa settimana, I ricercatori del MIT descrivono un modulo aggiuntivo che aiuta i sistemi di intelligenza artificiale chiamati reti neurali convoluzionali, o CNN, per colmare le lacune tra i fotogrammi video per migliorare notevolmente il riconoscimento dell'attività della rete.
Il modulo dei ricercatori, chiamato Temporal Relation Network (TRN), apprende come gli oggetti cambiano in un video in momenti diversi. Lo fa analizzando alcuni fotogrammi chiave che descrivono un'attività in diverse fasi del video, come oggetti impilati che vengono poi abbattuti. Utilizzando lo stesso procedimento, può quindi riconoscere lo stesso tipo di attività in un nuovo video.
Negli esperimenti, il modulo ha superato di gran lunga i modelli esistenti nel riconoscere centinaia di attività di base, come colpire oggetti per farli cadere, lanciare qualcosa in aria, e dando un pollice in su. Ha anche previsto in modo più accurato cosa accadrà in seguito in un video, mostrando, Per esempio, due mani che fanno un piccolo strappo in un foglio di carta, dato solo un piccolo numero di primi fotogrammi.
Un giorno, il modulo potrebbe essere utilizzato per aiutare i robot a capire meglio cosa sta succedendo intorno a loro.
"Abbiamo costruito un sistema di intelligenza artificiale per riconoscere la trasformazione degli oggetti, piuttosto che l'apparenza degli oggetti, "dice Bolei Zhou, un ex dottorato di ricerca studente del Computer Science and Artificial Intelligence Laboratory (CSAIL) che ora è assistente professore di informatica presso l'Università cinese di Hong Kong. "Il sistema non passa attraverso tutti i fotogrammi:raccoglie i fotogrammi chiave e, usando la relazione temporale dei frame, riconoscere cosa sta succedendo. Ciò migliora l'efficienza del sistema e lo fa funzionare in tempo reale con precisione".
Co-autori del documento sono il ricercatore principale CSAIL Antonio Torralba, che è anche docente presso il Dipartimento di Ingegneria Elettrica e Informatica; CSAIL Principal Research Scientist Aude Oliva; e l'assistente di ricerca CSAIL Alex Andonian.
Raccogliere fotogrammi chiave
Due moduli CNN comuni utilizzati oggi per il riconoscimento delle attività soffrono di inconvenienti in termini di efficienza e precisione. Un modello è accurato ma deve analizzare ogni fotogramma video prima di fare una previsione, che è computazionalmente costoso e lento. L'altro tipo, chiamata rete a due flussi, è meno preciso ma più efficiente. Utilizza un flusso per estrarre le caratteristiche di un fotogramma video, e poi fonde i risultati con "flussi ottici, " un flusso di informazioni estratte sul movimento di ciascun pixel. I flussi ottici sono anche computazionalmente costosi da estrarre, quindi il modello non è ancora così efficiente.
"Volevamo qualcosa che funzionasse tra questi due modelli, ottenendo efficienza e precisione, " dice Zhou.
I ricercatori hanno addestrato e testato il loro modulo su tre set di dati crowdsourcing di brevi video di varie attività svolte. Il primo set di dati, chiamato Qualcosa-Qualcosa, costruito dalla società TwentyBN, ne ha più di 200, 000 video in 174 categorie di azioni, come colpire un oggetto in modo che cada o sollevare un oggetto. Il secondo set di dati, Giullare, contiene quasi 150, 000 video con 27 diversi gesti delle mani, come dare un pollice in su o scorrere verso sinistra. Il terzo, sciarade, costruito dai ricercatori della Carnegie Mellon University, ne ha quasi 10, 000 video di 157 attività classificate, come portare una bicicletta o giocare a basket.
Quando viene fornito un file video, il modulo dei ricercatori elabora simultaneamente frame ordinati, in gruppi di due, tre, e quattro, distanziati un po' di tempo l'uno dall'altro. Quindi assegna rapidamente una probabilità che la trasformazione dell'oggetto in quei frame corrisponda a una classe di attività specifica. Ad esempio, se elabora due frame, dove il frame successivo mostra un oggetto nella parte inferiore dello schermo e il precedente mostra l'oggetto in alto, assegnerà un'alta probabilità alla classe di attività, "spostare l'oggetto verso il basso". Se un terzo fotogramma mostra l'oggetto al centro dello schermo, quella probabilità aumenta ancora di più, e così via. Da questa, apprende le caratteristiche di trasformazione degli oggetti in frame che rappresentano la maggior parte di una certa classe di attività.
Riconoscere e prevedere le attività
Nella prova, una CNN dotata del nuovo modulo ha riconosciuto con precisione molte attività utilizzando due frame, ma la precisione aumentava campionando più fotogrammi. Per giullare, il modulo ha raggiunto la massima precisione del 95% nel riconoscimento dell'attività, battendo diversi modelli esistenti.
Ha anche indovinato su classificazioni ambigue:Qualcosa-Qualcosa, ad esempio, includevano azioni come "fingere di aprire un libro" rispetto a "aprire un libro". Per discernere tra i due, il modulo ha appena campionato alcuni altri fotogrammi chiave, che ha rivelato, ad esempio, una mano vicino a un libro in una cornice iniziale, poi sul libro, poi si allontanò dal libro in una cornice successiva.
Alcuni altri modelli di riconoscimento dell'attività elaborano anche i fotogrammi chiave ma non considerano le relazioni temporali nei fotogrammi, che ne riduce la precisione. I ricercatori riferiscono che il loro modulo TRN quasi raddoppia in termini di precisione rispetto a quei modelli di fotogrammi chiave in determinati test.
Il modulo ha anche superato i modelli sulla previsione di un'attività, dati frame limitati. Dopo aver elaborato il primo 25% dei frame, il modulo ha raggiunto una precisione di diversi punti percentuali superiore a un modello di riferimento. Con il 50 percento dei fotogrammi, ha raggiunto dal 10 al 40 percento in più di precisione. Gli esempi includono la determinazione che un foglio sarebbe stato strappato solo un po', basato su come due mani sono posizionate sulla carta nei primi fotogrammi, e prevedendo che una mano alzata, mostrato rivolto in avanti, scorrerebbe verso il basso.
"Questo è importante per le applicazioni di robotica, " Zhou dice. "Vuoi [un robot] per anticipare e prevedere cosa accadrà presto, quando si esegue un'azione specifica."
Prossimo, i ricercatori mirano a migliorare la raffinatezza del modulo. Il primo passo è implementare il riconoscimento degli oggetti insieme al riconoscimento delle attività. Quindi, sperano di aggiungere "fisica intuitiva, " significa aiutarlo a comprendere le proprietà fisiche degli oggetti del mondo reale. "Poiché conosciamo molto della fisica all'interno di questi video, possiamo addestrare il modulo per apprendere tali leggi della fisica e usarle per riconoscere nuovi video, " Zhou dice. "Abbiamo anche open source tutto il codice ei modelli. La comprensione delle attività è un'area entusiasmante dell'intelligenza artificiale in questo momento".