Un team di scienziati computazionali presso l’Oak Ridge National Laboratory del Dipartimento dell’Energia ha generato e pubblicato set di dati di scala senza precedenti che forniscono le proprietà spettrali visibili nell’ultravioletto di oltre 10 milioni di molecole organiche. Comprendere come una molecola interagisce con la luce è essenziale per scoprirne le proprietà elettroniche e ottiche, che a loro volta hanno potenziali applicazioni fotoattive in prodotti come celle solari o sistemi di imaging medico.
Utilizzando risorse informatiche ad alte prestazioni presso l’Oak Ridge Leadership Computing Facility, il team ORNL ha eseguito calcoli di chimica quantistica per generare vasti set di dati. Per ciascuna di queste molecole organiche, il team ha eseguito calcoli di modellazione del materiale atomistico con varie approssimazioni per calcolare diverse proprietà di interesse dello stato eccitato. I risultati del team sono stati pubblicati in Scientific Data .
L'uso finale previsto per i set di dati open source è quello di addestrare un modello di deep learning per identificare molecole con proprietà optoelettroniche e fotoreattività personalizzate, un approccio che è molto più veloce e più facile da condurre rispetto ai metodi attuali.
"L'uso di modelli DL per la progettazione molecolare è essenziale perché lo spazio chimico che deve essere esplorato per la ricerca di queste molecole è estremamente ampio", ha affermato l'autore principale Massimiliano Lupo Pasini, data scientist presso la Divisione di Scienze e Ingegneria Computazionali dell'ORNL.
"Sia gli esperimenti che i calcoli dei principi primi esistenti, che si basano sulle leggi fisiche che determinano come la materia e l'energia interagiscono a livello subatomico, sono semplicemente inaccessibili per diverse ragioni. Gli esperimenti richiedono molta manodopera e i calcoli dei principi primi possono facilmente scontrarsi con il supercalcolo strutture, ma i modelli DL forniscono strumenti molto promettenti per superare queste barriere," ha detto Lupo Pasini.
Il progetto ha preso il via quando Stephan Irle, leader del gruppo di chimica computazionale e scienze dei nanomateriali dell'ORNL, ha identificato gli spettri ultravioletti-visibili delle molecole come una proprietà utile da prevedere con i modelli DL.
Per costruire un modello DL sufficientemente complesso da identificare le proprietà molecolari desiderabili è necessario addestrarlo con enormi volumi di dati che esplorino tutte le diverse regioni dello spazio chimico. Quanti più dati vengono raccolti, tanto più il modello DL addestrato su di essi può raggiungere la robustezza e la generalizzabilità necessarie per funzionare in modo efficace. Tuttavia, la raccolta di volumi così grandi di dati scientifici per un DL scalabile può presentare problemi di flusso di dati, soprattutto in strutture con più utenti come l'OLCF, una struttura per utenti del DOE Office of Science situata presso ORNL.
"Una sfida che si presenta quando si generano grandi volumi di dati è che il numero di file da gestire aumenta drasticamente. Se non gestito correttamente, un volume di dati così grande può compromettere il funzionamento del file system parallelo, che è una componente importante dello stato strutture HPC all'avanguardia", ha affermato Lupo Pasini.
Per affrontare questa sfida, Lupo Pasini ha collaborato con l'informatico dell'ORNL Kshitij Mehta per sviluppare un software di flusso di lavoro scalabile che garantisca che i file generati dal codice della meccanica quantistica siano gestiti correttamente senza stressare il file system, come Orion dell'OLCF, che è un file condiviso risorsa che gestisce l'input, l'output e l'archiviazione dei dati sui sistemi di supercomputer.
Come test di prova, il team ha generato il set di dati GDB-9-Ex di 96.766 molecole composte da carbonio, azoto, ossigeno e fluoro, con al massimo nove atomi non di idrogeno. Ha dimostrato che il flusso di lavoro progettato è efficace e che l'addestramento DL predice accuratamente la posizione e l'intensità dei picchi più rilevanti dello spettro ultravioletto-visibile.
Da quel successo iniziale, il team ha aumentato il proprio volume con il set di dati ORNL_AISD-Ex, che contiene 10.502.917 molecole composte da carbonio, azoto, ossigeno, fluoro e zolfo, con un massimo di 71 atomi non di idrogeno. Pilsun Yoo, un ricercatore associato post-dottorato nel gruppo di Irle, ha sviluppato strumenti per analizzare i set di dati risultanti.
Per ciascuna delle oltre 10 milioni di molecole è stato calcolato lo spettro ultravioletto-visibile, che descrive le modalità di eccitazione di una molecola. Queste informazioni rivelano quale frequenza della luce è necessaria per colpire una molecola e rompere alcuni legami del composto chimico.
Un'altra proprietà di interesse calcolata per ciascuna molecola è stata il gap HOMO-LUMO – il divario energetico tra l'orbitale molecolare occupato più alto e l'orbitale molecolare più basso non occupato – che misura in modo affidabile la stabilità della molecola. Con queste informazioni, un modello DL potrebbe vagliare in modo efficiente i dati per identificare molecole promettenti per diversi usi potenziali.
Infatti, Lupo Pasini e il suo team all'ORNL, tra cui lo scienziato computazionale specializzato nell'apprendimento automatico Pei Zhang e lo scienziato ricercatore sui dati HPC Jong Youl Choi, stanno sviluppando proprio un modello DL di questo tipo:HydraGNN.
"L'architettura HydraGNN prende la struttura atomica, la converte in un grafico e poi cerca di prevedere come output ciò che il codice dei principi primi produrrebbe. È un modello surrogato per i costosi calcoli dei principi primi", ha detto Lupo Pasini.
I risultati della formazione di HydraGNN sui set di dati e le sue scoperte molecolari saranno dettagliati in un prossimo articolo.
Ulteriori informazioni: Massimiliano Lupo Pasini et al, Due set di dati in stato eccitato per spettri UV-vis chimici quantistici di molecole organiche, Dati scientifici (2023). DOI:10.1038/s41597-023-02408-4
Informazioni sul giornale: Dati scientifici
Fornito da Oak Ridge National Laboratory