Un'illustrazione concettuale del metodo multigrid per la QCD reticolare mostra griglie sia fini che grossolane. Le modalità energetiche ad alta frequenza di un protone appaiono come fuzz su una griglia fine (in alto). Il processo multigrid è più fluido, modalità di lunghezza d'onda più lunghe che possono essere catturate con una griglia più grossolana, che richiede meno lavoro da risolvere (in basso). Il processo multigrid esegue cicli tra le griglie per risolvere in modo ottimale il problema. Credito:Joanna Griffin, Jefferson Lab
Alla ricerca di previsioni numeriche per particelle esotiche, i ricercatori stanno simulando particelle di quark e gluoni per la costruzione di atomi oltre 70 volte più velocemente su Summit, il supercomputer scientifico più potente del mondo, rispetto al suo predecessore Titan presso l'Oak Ridge National Laboratory (ORNL) del Dipartimento dell'Energia degli Stati Uniti (DOE). Le interazioni di quark e gluoni vengono calcolate utilizzando la cromodinamica quantistica reticolare (QCD), una versione computerizzata del quadro matematico che descrive queste interazioni di forza forte.
Con nuovi algoritmi e ottimizzazioni per sistemi basati su GPU come Summit, i fisici computazionali Balint Joo del Jefferson Lab del DOE e Kate Clark dello sviluppatore di GPU NVIDIA stanno combinando due codici QCD open source, Chroma e la libreria QUADA per GPU, sul vertice. Situato presso l'Oak Ridge Leadership Computing Facility (OLCF), Summit è un 200 petaflop, Sistema IBM AC922 lanciato a giugno come il sistema più in alto nell'elenco Top500.
I calcoli QCD possono aiutare a rivelare sfuggenti, particelle di breve durata che sono difficili da catturare nell'esperimento. I progressi nelle applicazioni QCD per questa nuova generazione di supercalcolo andranno a beneficio del team, guidato dal fisico Robert Edwards del Jefferson Lab, nella sua ricerca per scoprire le proprietà delle particelle esotiche.
"Otteniamo previsioni da QCD, " disse Joo. "Dove ci sono incognite teoriche, i calcoli computazionali possono darci stati energetici e decadimenti delle particelle da cercare negli esperimenti".
Edwards e Joo lavorano a stretto contatto con un esperimento di acceleratore di particelle al Jefferson Lab chiamato GlueX che sta collegando le previsioni teoriche da QCD e prove sperimentali.
"GlueX è un esperimento di punta dell'aggiornamento da 338 milioni di dollari recentemente completato dell'acceleratore CEBAF del Jefferson Lab. L'esperimento nella nuova sala D del laboratorio utilizza il fascio di elettroni per creare un intenso fascio di fotoni polarizzati per produrre particelle, compresi forse mesoni esotici, "Ha detto Edwards. "I nostri calcoli QCD stanno informando e guidando queste ricerche sperimentali".
Avanti tutta
Il team ha ricevuto l'accesso anticipato a Summit per testare le prestazioni del proprio codice sull'architettura del sistema. Summit ha circa un quarto del numero di nodi del supercomputer Titan da 27 petaflop. Però, I nodi di Summit, che comprendono due CPU IBM Power9 e sei GPU NVIDIA Tesla V100, sono eccezionalmente veloci e ad alta densità di memoria, inclusi 42 teraflop di prestazioni e 512 gigabyte di memoria per nodo.
Attraverso una combinazione di miglioramenti hardware e ottimizzazioni software, il team ha aumentato il throughput su Summit nove volte rispetto alle precedenti simulazioni di Titan, mentre si comprime la dimensione del problema originale per utilizzare otto volte meno GPU per un'accelerazione delle prestazioni totali di circa 72 volte.
Nelle simulazioni QCD reticolari, lo spazio-tempo è rappresentato da un reticolo, e gli scienziati generano istantanee del campo di forza forte sui collegamenti di questo reticolo, note come configurazioni del calibro. Questo passaggio iniziale è chiamato generazione di indicatori. Quindi, in una fase nota come calcolo del propagatore di quark, i ricercatori introducono una carica nel campo di gauge e risolvono un ampio sistema di equazioni che rappresenta il modo in cui un quark si muoverebbe nello spazio e nel tempo. In una fase di analisi finale, questi propagatori di quark sono combinati negli stati iniziali e finali delle particelle, da cui possono essere calcolati gli spettri di energia e messi in relazione con l'esperimento.
Per preparare il loro codice per il Summit, il team ha apportato miglioramenti algoritmici per aumentare l'efficienza. Primo, hanno avanzato un solutore multigrid adattivo nella libreria QUADA che genera griglie grossolane e fini basate su stati energetici a bassa e alta energia, rispettivamente. Il processo multigrid prevede una fase di setup, che viene poi utilizzato nelle fasi di soluzione.
"Le GPU Summit sono molto adatte a questo algoritmo multigrid, e abbiamo visto il potenziale di accelerazione lì, " ha detto Clark.
In precedenza, i passaggi della soluzione sono stati ottimizzati per le GPU di Titan, e il solutore multigrid è stato utilizzato per la fase di propagazione dei quark dei calcoli effettuati per ciascuna configurazione di gauge. Per il vertice, il team ha integrato il risolutore multigrid nella fase iniziale di generazione del misuratore.
"Nella fase di generazione del calibro, le configurazioni del misuratore cambiano rapidamente e richiedono che il processo di installazione venga ripetuto frequentemente, " Joo ha detto. "Pertanto, un passaggio cruciale per l'ottimizzazione è stato spostare questa fase di configurazione interamente sulle GPU".
Il team ha visto un'altra opportunità per accelerare la generazione della configurazione del misuratore incorporando altri miglioramenti algoritmici e software insieme al risolutore multigrid.
Primo, per ridurre la quantità di lavoro necessaria per passare da una configurazione del misuratore alla successiva, il team ha implementato un integratore a gradiente di forza che utilizza un metodo di dinamica molecolare precedentemente adattato per QCD.
"Il processo è matematicamente simile alla simulazione di molecole di un gas, quindi una procedura di dinamica molecolare viene riproposta per generare ogni nuova configurazione di gauge dalla precedente, " ha detto Jo.
Secondo, considerando che la libreria QUADA esegue automaticamente i calcoli necessari per la generazione della configurazione del misuratore su GPU, l'algoritmo completo ha molti altri pezzi di codice che possono causare un collo di bottiglia delle prestazioni se non anche accelerati dalla GPU. Per evitare questo collo di bottiglia e migliorare le prestazioni, il team ha utilizzato la versione QDP-Just-in-Time (JIT) del livello software QDP++ sottostante Chroma per indirizzare tutte le espressioni matematiche per l'esecuzione completa su GPU.
"I miglioramenti nell'accelerazione derivanti da queste ottimizzazioni ci hanno permesso di avviare una serie di simulazioni che prima non potevamo pensare di eseguire, " disse Joo. "Su Titano, abbiamo già iniziato una nuova corsa attraverso il programma ASCR Leadership Computing Challenge con quark che hanno masse più simili a quelle in natura, che si rivolge direttamente al nostro programma di spettroscopia al Jefferson Lab."