Gli scienziati informatici della Rice University Anshumali Shrivastava (a destra) e Aditya Desai hanno creato ROBE Array, una tecnica rivoluzionaria a bassa memoria per modelli di raccomandazione di deep learning, una forma popolare di intelligenza artificiale che impara a dare suggerimenti che gli utenti troveranno rilevanti. Credito:Jeff Fitlow/Rice University
Una tecnica rivoluzionaria per la memoria insufficiente degli scienziati informatici della Rice University potrebbe mettere una delle forme di intelligenza artificiale più dispendiose in termini di risorse, i modelli di raccomandazione per l'apprendimento profondo (DLRM), alla portata delle piccole aziende.
I sistemi di raccomandazione DLRM sono una forma popolare di intelligenza artificiale che impara a dare suggerimenti che gli utenti troveranno rilevanti. Ma con modelli di addestramento all'avanguardia che richiedono più di cento terabyte di memoria ed elaborazione su scala di supercomputer, sono stati disponibili solo per un breve elenco di giganti della tecnologia con tasche profonde.
Il "random offset block embedding array" di Rice, o ROBE Array, potrebbe cambiarlo. È un approccio algoritmico per ridurre le dimensioni delle strutture di memoria DLRM chiamate embedding table, e sarà presentato questa settimana alla Conference on Machine Learning and Systems (MLSys 2022) a Santa Clara, in California, dove ha ottenuto il riconoscimento di Outstanding Paper.
"Utilizzando solo 100 megabyte di memoria e una singola GPU, abbiamo dimostrato di poter eguagliare i tempi di addestramento e raddoppiare l'efficienza di inferenza dei metodi di addestramento DLRM all'avanguardia che richiedono 100 gigabyte di memoria e più processori", ha affermato Anshumali Shrivastava , professore associato di informatica alla Rice che presenterà la ricerca a MLSys 2022 con i co-creatori di ROBE Array Aditya Desai, una studentessa laureata alla Rice nel gruppo di ricerca di Shrivastava, e Li Chou, un ex ricercatore post-dottorato alla Rice che ora si trova nel Texas occidentale Università A&M.
"ROBE Array stabilisce una nuova linea di base per la compressione DLRM", ha affermato Shrivastava. "E mette DLRM alla portata degli utenti medi che non hanno accesso all'hardware di fascia alta o alle competenze ingegneristiche necessarie per addestrare modelli di dimensioni di centinaia di terabyte."
I sistemi DLRM sono algoritmi di apprendimento automatico che apprendono dai dati. Ad esempio, un sistema di consigli che suggerisce prodotti per gli acquirenti verrebbe addestrato con i dati delle transazioni passate, inclusi i termini di ricerca forniti dagli utenti, quali prodotti sono stati offerti e quali, se del caso, hanno acquistato. Un modo per migliorare l'accuratezza dei consigli consiste nell'ordinare i dati di addestramento in più categorie. Ad esempio, invece di raggruppare tutti gli shampoo in un'unica categoria, un'azienda potrebbe creare categorie per shampoo da uomo, donna e bambino.
Per la formazione, queste rappresentazioni categoriali sono organizzate in strutture di memoria chiamate tabelle di incorporamento e Desai ha affermato che le dimensioni di quelle tabelle "sono esplose" a causa della maggiore categorizzazione.
"Le tabelle di incorporamento rappresentano ora oltre il 99,9% dell'impronta di memoria complessiva dei modelli DLRM", ha affermato Desai. "Questo porta a una serie di problemi. Ad esempio, non possono essere addestrati in modo puramente parallelo perché il modello deve essere suddiviso in pezzi e distribuito su più nodi di addestramento e GPU. E dopo che sono stati addestrati e in produzione , la ricerca di informazioni nelle tabelle incorporate rappresenta circa l'80% del tempo necessario per restituire un suggerimento a un utente."
Shrivastava ha affermato che ROBE Array elimina la necessità di archiviare le tabelle di incorporamento utilizzando un metodo di indicizzazione dei dati chiamato hashing per creare "un singolo array di parametri appresi che è una rappresentazione compressa della tabella di incorporamento". L'accesso alle informazioni di incorporamento dall'array può quindi essere eseguito "utilizzando l'hashing universale compatibile con le GPU", ha affermato.
Shrivastava, Desai e Chou hanno testato ROBE Array utilizzando il ricercato benchmark DLRM MLPerf, che misura la velocità con cui un sistema può addestrare i modelli a una metrica di qualità target. Utilizzando una serie di set di dati di riferimento, hanno scoperto che ROBE Array potrebbe eguagliare o battere le tecniche DLRM pubblicate in precedenza in termini di precisione di addestramento anche dopo aver compresso il modello di tre ordini di grandezza.
"I nostri risultati mostrano chiaramente che la maggior parte dei benchmark di deep learning può essere completamente ribaltata da algoritmi fondamentali", ha affermato Shrivastava. "Data la carenza globale di chip, questa è una buona notizia per il futuro dell'IA."
ROBE Array non è il primo grande successo di Shrivastava a MLsys. A MLsys 2020, il suo gruppo ha presentato SLIDE, un "motore di deep learning sublineare" che funzionava su CPU di fascia bassa e poteva superare i trainer basati su GPU. Hanno fatto seguito a MLsys 2021, dimostrando che gli acceleratori di vettorizzazione e ottimizzazione della memoria potrebbero aumentare le prestazioni di SLIDE, consentendogli di addestrare reti neurali profonde fino a 15 volte più velocemente rispetto ai migliori sistemi GPU. + Esplora ulteriormente