L'evoluzione high-tech dell'informatica scientifica. Credito:Dipartimento dell'Energia degli Stati Uniti
La scienza ha sempre fatto affidamento su una combinazione di approcci per ottenere una risposta o sviluppare una teoria. I semi per la teoria della selezione naturale di Darwin sono cresciuti sotto un'erculea aggregazione di osservazione, dati, e sperimentare. La più recente conferma delle onde gravitazionali da parte del Laser Interferometer Gravitational-Wave Observatory (LIGO) è stata una decennale interazione di teoria, sperimentare, e calcolo.
Certamente, questa idea non è andata perduta nell'Argonne National Laboratory del Dipartimento dell'Energia degli Stati Uniti (DOE), che ha contribuito a far avanzare i confini delle tecnologie di elaborazione ad alte prestazioni attraverso l'Argonne Leadership Computing Facility (ALCF).
Realizzando la promessa dell'exascale computing, l'ALCF sta sviluppando il quadro attraverso il quale sfruttare questa immensa potenza di calcolo per una combinazione avanzata di simulazione, analisi dei dati, e apprendimento automatico. Questo sforzo riformulerà senza dubbio il modo in cui viene condotta la scienza, e farlo su scala globale.
Da quando l'ALCF è stato istituito nel 2006, i metodi utilizzati per raccogliere, analizzare e utilizzare i dati sono cambiati radicalmente. Laddove un tempo i dati erano il prodotto e i limiti dell'osservazione fisica e dell'esperimento, progressi nei feed da strumentazione scientifica come le linee di luce, collisori, e i telescopi spaziali, solo per citarne alcuni, hanno aumentato sostanzialmente la produzione di dati, dando il via a nuove terminologie, come "big data".
Mentre il metodo scientifico rimane intatto e l'istinto umano di porsi grandi domande guida ancora la ricerca, il modo in cui rispondiamo a questa nuova manna di informazioni richiede un cambiamento fondamentale nel modo in cui utilizziamo le tecnologie informatiche emergenti per l'analisi e la scoperta.
Questa convergenza di simulazione, dati, e l'apprendimento sta guidando un ciclo di feedback sempre più complesso ma logico.
La maggiore capacità di calcolo supporta simulazioni scientifiche più grandi che generano enormi set di dati utilizzati per alimentare un processo di apprendimento automatico, il cui output informa un'ulteriore e più precisa simulazione. Questo, pure, è ulteriormente potenziato dai dati delle osservazioni, esperimenti, eccetera., perfezionare il processo utilizzando approcci basati sui dati.
"Anche se abbiamo sempre avuto questa tradizione di eseguire simulazioni, lavoriamo in modo incrementale da più di qualche anno per integrare in modo robusto dati e apprendimento, "dice Michael Papka, Direttore dell'ALCF e vice direttore del laboratorio associato per l'informatica, Ambiente e Scienze della Vita (CELS).
Per portare avanti tale obiettivo, la struttura ha lanciato il suo programma ALCF Data Science nel 2016 per esplorare e migliorare i metodi computazionali che potrebbero consentire scoperte basate sui dati in tutte le discipline scientifiche. L'ALCF ha inoltre recentemente ampliato il suo programma Aurora Early Science con l'aggiunta di 10 nuovi progetti che aiuteranno a preparare il futuro supercomputer esascala della struttura per i dati e gli approcci di apprendimento.
E all'inizio di quest'anno, la direzione del CELS ha annunciato la creazione delle divisioni Computational Science (CPS) e Data Science and Learning (DSL) per esplorare problemi scientifici impegnativi attraverso la modellazione e la simulazione avanzate, e analisi dei dati e altri metodi di intelligenza artificiale, rispettivamente.
"Questi sforzi combinati si concentreranno sulle scienze del dominio e identificheranno importanti problemi che possono essere affrontati attraverso una combinazione di simulazione, scienza dei dati, e approcci di apprendimento automatico. In molti casi, attingeremo a persone con competenze pertinenti in più divisioni, ", afferma il direttore del CPS Paul Messina.
Già, questa combinazione di programmi ed enti viene testata e dimostrata attraverso studi che attraversano lo spettro scientifico, dalla comprensione delle origini dell'universo alla decifrazione della connettività neurale del cervello.
Convergenza per un futuro migliore
I dati sono sempre stati un fattore chiave nella scienza e sì, è vero che c'è una quantità esponenzialmente più grande di quella che c'era, dire, dieci anni fa. Ma mentre le dimensioni e la complessità dei dati ora disponibili pongono delle sfide, fornisce anche opportunità per nuove intuizioni.
Senza dubbio la ricerca di Darwin era costituita da big data per l'epoca, ma è stato il culmine di quasi 30 anni di meticolose raccolte e analisi. Avrebbe potuto ridurre considerevolmente il processo se avesse avuto accesso a computer ad alte prestazioni, e analisi dei dati e tecniche di apprendimento automatico, come l'estrazione di dati.
"Queste tecniche non cambiano radicalmente il metodo scientifico, ma cambiano la scala o la velocità o il tipo di complessità con cui puoi affrontare, " nota Rick Stevens, Direttore associato del laboratorio CELS e professore dell'Università di Chicago.
Prendere, Per esempio, ricerca di nuovi materiali progettati per generare energia solare mentre la luce del sole passa attraverso le finestre. La tecnologia è stata ostacolata dalla mancanza della giusta molecola di colorante, la cui scoperta richiede il lungo compito di ricercare attraverso risme di letteratura chimica per trovare molecole con i parametri giusti.
La chimica e fisica Jacqueline Cole guida uno sforzo collaborativo tra Argonne e l'Università di Cambridge per portare alla luce tali molecole. Cole ha sviluppato un processo a più stadi che passa attraverso la simulazione; Estrazione dati, arricchimento, e minerario; previsione dei materiali e validazione sperimentale.
Il team esegue simulazioni su larga scala su molecole mirate per prevedere coloranti chimici con proprietà ottiche chiave. Da questi dati, le molecole sono selezionate per la sintesi, e le sostanze chimiche risultanti vengono fabbricate in dispositivi per convalidare le loro prospettive in finestre a energia solare. I risultati determinano se sono necessarie ulteriori indagini.
"C'è un ciclo di feedback positivo insito in questo, " dice. "Anche se il processo di convalida non va bene, può comunque fornire alcuni spunti utili. potremmo imparare, Per esempio, che dobbiamo perfezionare le relazioni struttura-funzione delle molecole per una particolare applicazione o aggiungere un nuovo tipo di dati ai dati esistenti".
Gran parte dello sforzo si è concentrato sulla costruzione di un database di molecole organiche desiderabili, gran parte del quale è stato compilato da data mining circa 300, 000 articoli di ricerca pubblicati. La ricerca è stata stimolata dalla Materials Genome Initiative, un'iniziativa del governo per portare sul mercato materiali funzionali molto più velocemente dei decenni che ci volevano una volta.
"Il vantaggio di questo processo è quello di eliminare davvero la vecchia cura manuale dei database, che sono vite di lavoro, e ridurlo a pochi mesi. In definitiva, pochi giorni, "dice Cole.
Una macchina per legarli tutti
Che si tratti della ricerca di molecole di colorante molto specifiche o della comprensione della fisica del flusso chiave per sviluppare pale di turbine eoliche più efficienti, la fusione e il fiorire della simulazione, dati, e l'apprendimento è possibile solo grazie allo sviluppo esponenziale e deliberato di sistemi di elaborazione e consegna dati ad alte prestazioni.
"Le architetture dei supercomputer vengono strutturate per renderle più adatte a gestire grandi quantità di dati e facilitare l'apprendimento, oltre alle tradizionali simulazioni, "dice Venkat Vishwanath, Responsabile delle scienze dei dati ALCF. "E stiamo dotando queste macchine di enormi condotti che ci consentono di trasmettere grandi quantità di dati dal mondo esterno, come il Large Hadron Collider del CERN e la nostra Advanced Photon Source (APS) e consentono modelli basati sui dati".
Molte architetture attuali richiedono ancora il trasferimento di dati da computer a computer, da una macchina, la cui unica funzione è la simulazione, a un altro che eccelle nell'analisi dei dati e/o nell'apprendimento automatico.
Negli ultimi anni, Argonne e l'ALCF hanno fatto un solido investimento nell'elaborazione ad alte prestazioni che li avvicina a una macchina completamente integrata. Il processo ha accelerato nel 2017, con l'introduzione del sistema Intel-Cray, Teta, che è in grado di combinare simulazioni tradizionali e tecniche di apprendimento automatico.
L'ALCF aiuterà a guidare la simulazione, dati, e imparare a un nuovo livello nel 2021, quando svelano la prima macchina exascale della nazione, Aurora. Sebbene possa eseguire miliardi di miliardi di calcoli al secondo, il suo principale vantaggio potrebbe essere la sua capacità di condurre e convergere la simulazione, analisi dei dati, e apprendimento automatico sotto un unico cofano. Il risultato finale consentirà ai ricercatori di affrontare nuovi tipi e problemi molto più grandi e ridurre i tempi per la soluzione.
"L'Aurora cambierà il gioco, ", afferma Papka dell'ALCF. "Stiamo lavorando con i fornitori Intel e Cray per assicurarci di poter supportare la scienza attraverso questa confluenza di simulazione, dati, e imparando tutto il primo giorno del dispiegamento di Aurora."
Sia da Darwin o Turing, sia con lavagna o carta millimetrata, alcune delle grandi innovazioni scientifiche del mondo erano il prodotto di uno o più individui determinati che comprendevano bene il peso dell'applicazione di approcci equilibrati e vari per supportare o confutare un'ipotesi.
Poiché l'innovazione attuale è guidata dalla collaborazione tra colleghi e tra discipline, il potenziale di scoperta attraverso l'applicazione pragmatica di nuove risorse computazionali, insieme a un flusso di dati illimitato, sconvolge l'immaginazione.