Credito:CC0 Dominio Pubblico
La rivoluzione dei microcomputer degli anni '70 ha innescato un'espansione dei personal computer simile al selvaggio West negli anni '80. Nel corso del decennio, decine di dispositivi informatici personali, da Atari a Xerox Alto, inondato nel mercato. CPU e microprocessori avanzarono rapidamente, con le nuove generazioni che escono mensilmente.
In mezzo a tutta quella crescita, non esisteva un metodo standard per confrontare le prestazioni di un computer con un altro. Senza questo, non solo i consumatori non avrebbero saputo quale sistema fosse migliore per le loro esigenze, ma i progettisti di computer non avevano un metodo standard per testare i loro sistemi.
Che è cambiato nel 1988, quando è stata costituita la Standard Performance Evaluation Corporation (SPEC) per produrre, mantenere e approvare una serie standardizzata di benchmark delle prestazioni per i computer. Pensa a benchmark come test standardizzati per computer. Come i SAT o il TOEFL, i benchmark hanno lo scopo di fornire un metodo di confronto tra partecipanti simili chiedendo loro di svolgere gli stessi compiti.
Dal momento che SPEC, dozzine di organizzazioni di benchmarking sono sorte per fornire un metodo per confrontare le prestazioni di vari sistemi su diverse architetture di chip e programmi.
Oggi, c'è un nuovo Far West nell'apprendimento automatico. Attualmente, ci sono almeno 40 diverse aziende di hardware pronte a fare progressi nelle nuove architetture di processori AI.
"Alcune di queste aziende aumenteranno ma molte cadranno, "ha detto Vijay Janapa Reddi, Professore Associato di Ingegneria Elettrica presso la Harvard John A. Paulson School of Engineering and Applied Sciences (SEAS). "La sfida è come possiamo stabilire se un componente hardware è migliore di un altro? È qui che gli standard di riferimento diventano importanti".
Janapa Reddi è uno dei leader di MLPerf, una suite di benchmarking per l'apprendimento automatico. ML Perf nasce come collaborazione tra ricercatori di Baidu, Berkeley, Google, Harvard, e Stanford ed è cresciuto fino a includere molte aziende, una miriade di università, insieme a centinaia di singoli partecipanti in tutto il mondo. Altri collaboratori di Harvard includono David Brooks, la Haley Family Professor of Computer Science presso SEAS e Gu-Yeon Wei, il Robert and Suzanne Case Professor di Ingegneria Elettrica e Informatica presso SEAS.
L'obiettivo di ML Perf è creare un punto di riferimento per misurare le prestazioni dei framework software di machine learning, acceleratori hardware di apprendimento automatico, e piattaforme di cloud computing e edge computing di machine learning.
Abbiamo parlato con Janapa Reddi di MLPerf e del futuro del benchmarking per l'apprendimento automatico.
MARI:Primo, come funziona il benchmarking per l'apprendimento automatico?
Janapa Reddi:Nella sua forma più semplice, uno standard di riferimento è una definizione rigorosa di un'attività di apprendimento automatico, diciamo classificazione delle immagini. Utilizzando un modello che implementa tale compito, come ResNet50, e un set di dati, come COCO o ImageNet, il modello viene valutato con un'accuratezza target o una metrica di qualità che deve raggiungere quando viene eseguito con il set di dati.
SEAS:In che modo il benchmarking influisce sulla tua ricerca presso SEAS?
Janapa Reddi:Personalmente, Sono interessato al benchmarking di sistemi di machine learning autonomi e "minuscoli".
I veicoli autonomi fanno molto affidamento sull'apprendimento automatico per l'elaborazione della visione, fusione di sensori e altro ancora. Il bagagliaio di un'auto autonoma contiene oltre 2, 500 Watt di potenza di calcolo. Giusto per contestualizzarlo, uno smartphone consuma 3 Watt, e il tuo laptop medio utilizza 25 Watt. Quindi questi veicoli autonomi consumano una quantità significativa di energia, grazie in parte a tutto il machine learning su cui si basano. Il mio Edge Computing Lab è interessato a ridurre il consumo di energia, pur spingendo i limiti di tutte le capacità di elaborazione necessarie, apprendimento automatico e tutto incluso.
All'altra estremità dello spettro ci sono dispositivi "minuscoli". Pensa a minuscoli microcontrollori che consumano milliwatt di potenza che possono essere gettati in giro e dimenticati. I minuscoli microcontrollori oggi sono dispositivi passivi con poca o nessuna intelligenza a bordo. Ma "TinyML" è un concetto emergente che si concentra sull'apprendimento automatico per piccoli microcontrollori incorporati. Il mio gruppo sta studiando come possiamo abilitare TinyML poiché vediamo molti usi diversi. I dispositivi TinyML possono monitorare la tua salute in modo intelligente, o minuscoli droni che si adattano al palmo della mano possono navigare attraverso spazi ristretti in caso di edificio caduto per operazioni di ricerca e soccorso, e vola tra alberi e foglie per monitorare la salute dei raccolti degli agricoltori e tenere lontani i parassiti
Questi sono due domini che mi interessano molto, in particolare nel contesto dei sistemi di apprendimento automatico, perché ci sono diversi problemi di ricerca interessanti da risolvere che vanno oltre le semplici prestazioni dell'hardware di apprendimento automatico e includono la progettazione e l'implementazione del software del sistema di apprendimento automatico.
SEAS:quali lezioni può trarre il machine learning dai precedenti sforzi di benchmarking, come quelli avviati da SPEC tre decenni fa?
Janapa Reddi:Nel corso degli anni, SPEC CPU è stato guidato da un consorzio di diversi partner del settore che si uniscono per determinare una serie di carichi di lavoro che possono portare a risultati di benchmark equi e utili. Quindi, I carichi di lavoro SPEC sono diventati uno standard nella ricerca e nel mondo accademico per misurare e confrontare le prestazioni della CPU. Come spesso ama sottolineare David Patterson, un rinomato architetto di computer e vincitore del Turing Award 2017, I carichi di lavoro SPEC hanno portato all'età d'oro della progettazione dei microprocessori.
Possiamo prendere in prestito alcune lezioni da SPEC e applicarle all'apprendimento automatico. Dobbiamo riunire la comunità accademica e di ricerca per creare un consorzio simile di partner industriali che possano aiutare a definire standard e benchmark che siano rappresentativi dei casi d'uso del mondo reale.
SEAS:È così che funziona ML Perf?
Janapa Reddi:Sì. MLPerf è lo sforzo di molte organizzazioni e diversi individui impegnati, tutti insieme con l'unica visione coerente di costruire un punto di riferimento equo e utile per i sistemi di apprendimento automatico. Grazie a questo lavoro di squadra, elaboriamo benchmark basati sulla saggezza di molte persone e su una profonda comprensione dei casi d'uso dei clienti del mondo reale. Gli ingegneri che lavorano su sistemi di apprendimento automatico contribuiscono con le loro esperienze con i problemi dei sistemi sfumati e le aziende possono fornire i loro casi d'uso nel mondo reale (con il permesso dell'utente, Certo). Sulla base di tutte le informazioni che raccogliamo, il team collaborativo di ricercatori e ingegneri MLPerf cura un benchmark utile per piattaforme e sistemi di apprendimento.
SEAS:MLPerf ha appena annunciato alcuni nuovi benchmark per l'apprendimento automatico, Giusto?
Janapa Reddi:Giusto. Abbiamo appena annunciato la nostra prima suite di inferenza, che consiste in cinque benchmark su tre diverse attività di machine learning:classificazione delle immagini, rilevamento di oggetti e traduzione automatica. Queste tre attività includono modelli ben noti come MobileNets e ResNet che supportano diverse risoluzioni di immagine per diversi casi d'uso come veicoli autonomi e smartphone.
Stimoliamo i modelli con il "LoadGen, " che è un generatore di carico che imita diverse modalità di casi d'uso che si trovano nel mondo reale. Ad esempio, negli smartphone, facciamo una foto, inserirlo in un modello di apprendimento automatico, e attendo con impazienza di vedere se è in grado di identificare l'immagine. Ovviamente, vogliamo che l'inferenza sia il più veloce possibile. In un sistema di monitoraggio della telecamera, vogliamo guardare più immagini provenienti da diverse fotocamere, quindi il caso d'uso è sensibile sia alla latenza che al throughput (quante immagini posso elaborare in un periodo di tempo limitato). Questo LoadGen con i nostri benchmark distingue MLPerf dagli altri benchmark.
MARI:Allora, Quello che viene dopo?
Janapa Reddi:I benchmark sono un passo verso un obiettivo più grande. MLPerf è interessato ad espandere i propri sforzi dalla cura dei benchmark per la valutazione delle prestazioni del sistema allo sviluppo di nuovi set di dati che possono favorire nuove innovazioni negli algoritmi di apprendimento automatico, comunità software e hardware. Finora, ci siamo affidati a set di dati che sono stati in gran parte resi accessibili tramite accademici nelle comunità open source. Ma in alcuni domini, come la parola, c'è una reale necessità di sviluppare nuovi set di dati che siano almeno da 10 a 100 volte più grandi. Ma più grande da solo è insufficiente. Dobbiamo anche affrontare l'equità e la mancanza di diversità nei set di dati per garantire che i modelli addestrati su questi set di dati siano imparziali
SEAS:Come stai affrontando l'equità e la diversità nell'apprendimento automatico?
Janapa Reddi:Abbiamo creato "Harvard MLPerf Research" in collaborazione con il Center for Research on Computation and Society (CRCS), che riunisce scienziati e studiosi di una vasta gamma di campi per fare progressi nella ricerca computazionale che servono l'interesse pubblico. Attraverso il centro, speriamo di entrare in contatto con gli esperti di altre scuole per affrontare questioni come l'equità e la distorsione nei set di dati. Abbiamo bisogno di più che scienziati informatici per affrontare questi problemi.