Una nuova tecnica per l'addestramento dei modelli di riconoscimento video è fino a tre volte più veloce degli attuali metodi all'avanguardia, migliorando le prestazioni di runtime sui dispositivi mobili. Il lavoro è stato recentemente evidenziato da Dario Gil (sopra), direttore della ricerca IBM, alla settimana della ricerca sull'intelligenza artificiale del MIT-IBM Watson AI Lab a Cambridge, Massachusetts. Foto:Song Han
Un ramo dell'apprendimento automatico chiamato deep learning ha aiutato i computer a superare gli umani in attività visive ben definite come la lettura di scansioni mediche, ma man mano che la tecnologia si espande nell'interpretazione di video ed eventi del mondo reale, i modelli stanno diventando più grandi e più intensivi dal punto di vista computazionale.
Secondo una stima, l'addestramento di un modello di riconoscimento video può richiedere fino a 50 volte più dati e una potenza di elaborazione otto volte maggiore rispetto all'addestramento di un modello di classificazione delle immagini. Questo è un problema in quanto la domanda di potenza di elaborazione per addestrare modelli di deep learning continua a crescere in modo esponenziale e crescono le preoccupazioni per l'enorme impronta di carbonio dell'IA. Esecuzione di modelli di riconoscimento video di grandi dimensioni su dispositivi mobili a bassa potenza, dove si stanno dirigendo molte applicazioni di intelligenza artificiale, rimane anche una sfida.
Canzone Han, un assistente professore presso il Dipartimento di Ingegneria Elettrica e Informatica (EECS) del MIT, sta affrontando il problema progettando modelli di deep learning più efficienti. In un articolo alla Conferenza internazionale sulla visione artificiale, Han, Lo studente laureato del MIT Ji Lin e il ricercatore del MIT-IBM Watson AI Lab Chuang Gan, delineare un metodo per ridurre i modelli di riconoscimento video per accelerare la formazione e migliorare le prestazioni di runtime su smartphone e altri dispositivi mobili. Il loro metodo consente di ridurre il modello a un sesto delle dimensioni riducendo i 150 milioni di parametri in un modello all'avanguardia a 25 milioni di parametri.
"Il nostro obiettivo è rendere l'intelligenza artificiale accessibile a chiunque disponga di un dispositivo a bassa potenza, " dice Han. "Per farlo, dobbiamo progettare modelli di intelligenza artificiale efficienti che utilizzino meno energia e possano funzionare senza problemi su dispositivi edge, dove gran parte dell'intelligenza artificiale si sta muovendo."
Il calo dei costi delle fotocamere e dei software di editing video e l'ascesa di nuove piattaforme di streaming video hanno inondato Internet di nuovi contenuti. ogni ora, 30, Solo su YouTube vengono caricate 000 ore di nuovi video. Gli strumenti per catalogare tali contenuti in modo più efficiente aiuterebbero gli spettatori e gli inserzionisti a individuare i video più velocemente, dicono i ricercatori. Tali strumenti aiuterebbero anche istituzioni come ospedali e case di cura a eseguire applicazioni di intelligenza artificiale a livello locale, piuttosto che nel cloud, per mantenere i dati sensibili privati e al sicuro.
I modelli di riconoscimento di immagini e video sottostanti sono le reti neurali, che sono vagamente modellati su come il cervello elabora le informazioni. Che si tratti di una foto digitale o di una sequenza di immagini video, le reti neurali cercano schemi nei pixel e costruiscono una rappresentazione sempre più astratta di ciò che vedono. Con abbastanza esempi, le reti neurali "imparano" a riconoscere le persone, oggetti, e come si relazionano.
I migliori modelli di riconoscimento video attualmente utilizzano circonvoluzioni tridimensionali per codificare il passare del tempo in una sequenza di immagini, che crea più grande, modelli più computazionalmente intensivi. Per ridurre i calcoli coinvolti, Han e i suoi colleghi hanno progettato un'operazione che chiamano modulo di spostamento temporale che sposta le mappe delle caratteristiche di un fotogramma video selezionato nei fotogrammi vicini. Mescolando rappresentazioni spaziali del passato, regalo, e futuro, il modello ottiene un senso del tempo che passa senza rappresentarlo esplicitamente.
Il risultato:un modello che ha superato i suoi pari nel riconoscere le azioni nel set di dati video Qualcosa-Qualcosa, guadagnando il primo posto nella versione 1 e nella versione 2, nelle recenti classifiche pubbliche. Una versione online del modulo del cambio è anche abbastanza agile da leggere i movimenti in tempo reale. In una recente dimostrazione, Lin, un dottorato di ricerca studente in EECS, ha mostrato come un computer a scheda singola collegato a una videocamera potrebbe classificare istantaneamente i gesti delle mani con la quantità di energia necessaria per alimentare una luce per bici.
Normalmente ci vorrebbero circa due giorni per addestrare un modello così potente su una macchina con un solo processore grafico. Ma i ricercatori sono riusciti a prendere in prestito tempo sul supercomputer Summit del Dipartimento dell'Energia degli Stati Uniti, attualmente classificato il più veloce sulla Terra. Con la potenza di fuoco extra di Summit, i ricercatori hanno dimostrato che con 1, 536 processori grafici il modello potrebbe essere addestrato in soli 14 minuti, vicino al suo limite teorico. È fino a tre volte più veloce dei modelli 3D all'avanguardia, dicono.
Dario Gil, direttore della ricerca IBM, ha evidenziato il lavoro nelle sue recenti osservazioni di apertura all'AI Research Week ospitate dal MIT-IBM Watson AI Lab.
"I requisiti di elaborazione per grandi lavori di formazione sull'IA raddoppiano ogni 3,5 mesi, " ha detto in seguito. "La nostra capacità di continuare a spingere i limiti della tecnologia dipenderà da strategie come questa che abbinano algoritmi iper-efficienti a macchine potenti".
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.