• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Il set di dati del centro di supercalcolo mira ad accelerare la ricerca sull'IA per ottimizzare i sistemi di elaborazione ad alte prestazioni

    Credito:Pixabay/CC0 di dominio pubblico

    Quando il MIT Lincoln Laboratory Supercomputing Center (LLSC) ha presentato il suo supercomputer TX-GAIA nel 2019, ha fornito alla comunità del MIT una nuova potente risorsa per applicare l'intelligenza artificiale alla loro ricerca. Chiunque al MIT può inviare un lavoro al sistema, che sforna trilioni di operazioni al secondo per addestrare modelli per diverse applicazioni, come individuare tumori in immagini mediche, scoprire nuovi farmaci o modellare gli effetti climatici. Ma con questo grande potere deriva la grande responsabilità di gestirlo e gestirlo in modo sostenibile e il team è alla ricerca di modi per migliorare.

    "Disponiamo di questi potenti strumenti computazionali che consentono ai ricercatori di costruire modelli complessi per risolvere i problemi, ma possono essenzialmente essere utilizzati come scatole nere. Ciò che si perde lì dentro è se stiamo effettivamente utilizzando l'hardware nel modo più efficace possibile", afferma Siddharth Samsi , ricercatore presso il LLSC.

    Per ottenere informazioni su questa sfida, l'LLSC ha raccolto dati dettagliati sull'utilizzo di TX-GAIA nell'ultimo anno. Più di un milione di lavori di utenti dopo, il team ha rilasciato il set di dati open source alla comunità informatica.

    Il loro obiettivo è consentire agli informatici e agli operatori di data center di comprendere meglio le vie per l'ottimizzazione del data center, un compito importante poiché le esigenze di elaborazione continuano a crescere. Vedono anche il potenziale per sfruttare l'IA nel data center stesso, utilizzando i dati per sviluppare modelli per prevedere i punti di guasto, ottimizzare la pianificazione dei lavori e migliorare l'efficienza energetica. Sebbene i fornitori di servizi cloud stiano lavorando attivamente per ottimizzare i loro data center, spesso non mettono a disposizione i loro dati o modelli per la più ampia comunità di calcolo ad alte prestazioni (HPC). Il rilascio di questo set di dati e del codice associato cerca di riempire questo spazio.

    "I data center stanno cambiando. Abbiamo un'esplosione di piattaforme hardware, i tipi di carichi di lavoro si stanno evolvendo e i tipi di persone che utilizzano i data center stanno cambiando", afferma Vijay Gadepally, ricercatore senior presso l'LLSC. "Finora, non c'era un ottimo modo per analizzare l'impatto sui data center. Consideriamo questa ricerca e questo set di dati come un grande passo avanti verso l'elaborazione di un approccio di principio per comprendere come queste variabili interagiscono tra loro e quindi applicare l'IA per approfondimenti e miglioramenti."

    I documenti che descrivono il set di dati e le potenziali applicazioni sono stati accettati in numerose sedi, tra cui l'IEEE International Symposium on High-Performance Computer Architecture, l'IEEE International Parallel and Distributed Processing Symposium, la conferenza annuale del North American Chapter dell'Association for Computational Linguistics, IEEE High-Performance and Embedded Computing Conference e International Conference for High Performance Computing, Networking, Storage and Analysis.

    Classificazione del carico di lavoro

    Tra i supercomputer TOP500 al mondo, TX-GAIA combina hardware di elaborazione tradizionale (unità di elaborazione centrale o CPU) con quasi 900 acceleratori di unità di elaborazione grafica (GPU). Queste GPU NVIDIA sono specializzate per il deep learning, la classe di intelligenza artificiale che ha dato origine al riconoscimento vocale e alla visione artificiale.

    Il set di dati copre l'utilizzo di CPU, GPU e memoria per lavoro; registri di pianificazione; e dati di monitoraggio fisico. Rispetto a set di dati simili, come quelli di Google e Microsoft, il set di dati LLSC offre "dati etichettati, una varietà di carichi di lavoro di intelligenza artificiale noti e dati di serie temporali più dettagliati rispetto ai set di dati precedenti. A nostra conoscenza, è uno dei più completi e set di dati a grana fine disponibili", afferma Gadepally.

    In particolare, il team ha raccolto dati di serie temporali a un livello di dettaglio senza precedenti:intervalli di 100 millisecondi su ogni GPU e intervalli di 10 secondi su ogni CPU, poiché le macchine hanno elaborato più di 3.000 processi di deep learning noti. Uno dei primi obiettivi è utilizzare questo set di dati etichettato per caratterizzare i carichi di lavoro che diversi tipi di lavori di deep learning impongono sul sistema. Questo processo estrarrebbe caratteristiche che rivelano differenze nel modo in cui l'hardware elabora i modelli del linguaggio naturale rispetto alla classificazione delle immagini o ai modelli di progettazione dei materiali, ad esempio.

    Il team ha ora lanciato la MIT Datacenter Challenge per mobilitare questa ricerca. La sfida invita i ricercatori a utilizzare le tecniche di intelligenza artificiale per identificare con una precisione del 95% il tipo di lavoro eseguito, utilizzando i dati delle serie temporali etichettati come verità di base.

    Tali informazioni potrebbero consentire ai data center di abbinare meglio la richiesta di lavoro di un utente con l'hardware più adatto, risparmiando potenzialmente energia e migliorando le prestazioni del sistema. La classificazione dei carichi di lavoro potrebbe inoltre consentire agli operatori di notare rapidamente discrepanze dovute a guasti hardware, schemi di accesso ai dati inefficienti o utilizzo non autorizzato.

    Troppe scelte

    Oggi, LLSC offre strumenti che consentono agli utenti di inviare il proprio lavoro e selezionare i processori che desiderano utilizzare, "ma sono molte congetture da parte degli utenti", afferma Samsi. "Qualcuno potrebbe voler utilizzare la GPU più recente, ma forse i loro calcoli non ne hanno effettivamente bisogno e potrebbero ottenere risultati altrettanto impressionanti su CPU o macchine a bassa potenza."

    Il professor Devesh Tiwari della Northeastern University sta lavorando con il team LLSC per sviluppare tecniche che possano aiutare gli utenti ad abbinare i loro carichi di lavoro all'hardware appropriato. Tiwari spiega che l'emergere di diversi tipi di acceleratori di intelligenza artificiale, GPU e CPU ha lasciato agli utenti troppe scelte. Senza gli strumenti giusti per sfruttare questa eterogeneità, si stanno perdendo i vantaggi:prestazioni migliori, costi inferiori e maggiore produttività.

    "Stiamo risolvendo proprio questo divario di capacità, rendendo gli utenti più produttivi e aiutandoli a fare scienza meglio e più velocemente senza doversi preoccupare di gestire hardware eterogeneo", afferma Tiwari. "Il mio dottorando, Baolin Li, sta costruendo nuove capacità e strumenti per aiutare gli utenti HPC a sfruttare l'eterogeneità in modo quasi ottimale senza l'intervento dell'utente, utilizzando tecniche basate sull'ottimizzazione bayesiana e altri metodi di ottimizzazione basati sull'apprendimento. Ma questo è solo il Stiamo cercando modi per introdurre l'eterogeneità nei nostri data center in un approccio di principio per aiutare i nostri utenti a ottenere il massimo vantaggio dell'eterogeneità in modo autonomo ed economico."

    La classificazione del carico di lavoro è il primo di molti problemi da porre attraverso il Datacenter Challenge. Altri includono lo sviluppo di tecniche di intelligenza artificiale per prevedere i fallimenti del lavoro, risparmiare energia o creare approcci di pianificazione del lavoro che migliorano l'efficienza di raffreddamento del data center.

    Risparmio energetico

    Per mobilitare la ricerca sull'informatica più ecologica, il team prevede anche di rilasciare un set di dati ambientali delle operazioni TX-GAIA, contenente la temperatura del rack, il consumo energetico e altri dati rilevanti.

    Secondo i ricercatori, esistono enormi opportunità per migliorare l'efficienza energetica dei sistemi HPC utilizzati per l'elaborazione dell'IA. Ad esempio, il recente lavoro in LLSC ha determinato che una semplice ottimizzazione dell'hardware, come la limitazione della quantità di energia che una singola GPU può assorbire, potrebbe ridurre il costo energetico dell'addestramento di un modello di intelligenza artificiale del 20%, con solo modesti aumenti del tempo di elaborazione. "Questa riduzione si traduce in circa un'intera settimana di energia domestica per un aumento di sole tre ore", afferma Gadepally.

    Hanno anche sviluppato tecniche per prevedere l'accuratezza del modello, in modo che gli utenti possano terminare rapidamente esperimenti che difficilmente produrranno risultati significativi, risparmiando energia. Il Datacenter Challenge condividerà dati rilevanti per consentire ai ricercatori di esplorare altre opportunità per risparmiare energia.

    Il team si aspetta che le lezioni apprese da questa ricerca possano essere applicate alle migliaia di data center gestiti dal Dipartimento della Difesa degli Stati Uniti.

    Altri collaboratori includono ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). Il Supertech Research Group del professor Charles Leiserson sta studiando tecniche di miglioramento delle prestazioni per il calcolo parallelo e il ricercatore Neil Thompson sta progettando studi su come spingere gli utenti dei data center verso comportamenti rispettosi del clima.

    Samsi ha presentato questo lavoro al workshop inaugurale AI for Datacenter Optimization (ADOPT'22) la scorsa primavera nell'ambito dell'IEEE International Parallel and Distributed Processing Symposium. Il workshop ha presentato ufficialmente il loro Datacenter Challenge alla comunità HPC.

    "Ci auguriamo che questa ricerca consentirà a noi e ad altri che gestiscono centri di supercalcolo di essere più reattivi alle esigenze degli utenti, riducendo al contempo il consumo di energia a livello centrale", afferma Samsi. + Esplora ulteriormente

    Primi studi con Quantum Machine Learning a LHCb

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca, l'innovazione e l'insegnamento del MIT.




    © Scienza https://it.scienceaq.com