I risultati di un'analisi della rete neurale artificiale (ANN) potrebbero non essere affidabili per molecole troppo diverse da quelle su cui è stata addestrata la ANN. Le nuvole nere mostrate qui coprono complessi di metalli di transizione nel set di dati le cui rappresentazioni numeriche sono troppo distanti da quelle dei complessi di addestramento per essere considerate affidabili. Credito:Massachusetts Institute of Technology
Negli ultimi anni, l'apprendimento automatico si è dimostrato uno strumento prezioso per identificare nuovi materiali con proprietà ottimizzate per applicazioni specifiche. Lavorare con grandi, set di dati ben definiti, i computer imparano a svolgere un compito analitico per generare una risposta corretta e quindi utilizzano la stessa tecnica su un set di dati sconosciuto.
Sebbene tale approccio abbia guidato lo sviluppo di nuovi materiali di valore, sono stati principalmente composti organici, note Heather Kulik Ph.D. '09, un assistente professore di ingegneria chimica. Kulik si concentra invece sui composti inorganici, in particolare, quelli a base di metalli di transizione, una famiglia di elementi (tra cui ferro e rame) che hanno proprietà uniche e utili. In quei composti, noti come complessi di metalli di transizione, l'atomo di metallo si trova al centro con bracci legati chimicamente, o ligandi, in carbonio, idrogeno, azoto, o atomi di ossigeno che si irradiano verso l'esterno.
I complessi di metalli di transizione svolgono già ruoli importanti in aree che vanno dallo stoccaggio di energia alla catalisi per la produzione di prodotti della chimica fine, ad esempio, per i prodotti farmaceutici. Ma Kulik pensa che l'apprendimento automatico potrebbe espandere ulteriormente il loro utilizzo. Infatti, il suo gruppo ha lavorato non solo per applicare l'apprendimento automatico agli inorganici, un'impresa nuova e stimolante, ma anche per utilizzare la tecnica per esplorare nuovi territori. "Eravamo interessati a capire fino a che punto potevamo spingere i nostri modelli per fare scoperte, per fare previsioni su composti che non erano mai stati visti prima, "dice Kulik.
Sensori e computer
Negli ultimi quattro anni, Kulik e Jon Paul Janet, uno studente laureato in ingegneria chimica, si sono concentrati sui complessi di metalli di transizione con "spin", una proprietà della meccanica quantistica degli elettroni. Generalmente, gli elettroni si trovano in coppia, uno con spin up e l'altro con spin down, quindi si annullano a vicenda e non c'è rotazione netta. Ma in un metallo di transizione, gli elettroni possono essere spaiati, e lo spin netto risultante è la proprietà che rende complessi inorganici di interesse, dice Kulik. "Adeguare quanto sono spaiati gli elettroni ci dà una manopola unica per personalizzare le proprietà".
Un dato complesso ha uno stato di spin preferito. Ma aggiungi un po' di energia, diciamo, dalla luce o dal calore e può passare all'altro stato. Nel processo, può mostrare cambiamenti nelle proprietà della macroscala come la dimensione o il colore. Quando l'energia necessaria per provocare il ribaltamento, chiamata energia di scissione dello spin, è vicina allo zero, il complesso è un buon candidato per l'uso come sensore, o forse come componente fondamentale in un computer quantistico.
I chimici conoscono molte combinazioni metallo-ligando con energie di scissione dello spin vicine allo zero, rendendoli potenziali complessi "spin-crossover" (SCO) per tali applicazioni pratiche. Ma l'intera gamma di possibilità è vasta. L'energia di scissione dello spin di un complesso di metalli di transizione è determinata da quali ligandi sono combinati con un dato metallo, e ci sono quasi infiniti ligandi tra cui scegliere. La sfida è trovare nuove combinazioni con la proprietà desiderata per diventare SCO, senza ricorrere a milioni di test per tentativi ed errori in laboratorio.
Tradurre le molecole in numeri
Il modo standard per analizzare la struttura elettronica delle molecole è utilizzare un metodo di modellazione computazionale chiamato teoria del funzionale della densità, o DFT. I risultati di un calcolo DFT sono abbastanza accurati, specialmente per i sistemi organici, ma l'esecuzione di un calcolo per un singolo composto può richiedere ore, o addirittura giorni. In contrasto, uno strumento di apprendimento automatico chiamato rete neurale artificiale (ANN) può essere addestrato per eseguire la stessa analisi e poi farlo in pochi secondi. Di conseguenza, Le ANN sono molto più pratiche per cercare possibili SCO nell'enorme spazio dei complessi fattibili.
Questo grafico rappresenta un complesso di metalli di transizione campione. Un complesso di metalli di transizione è costituito da un atomo di metallo di transizione centrale (arancione) circondato da una serie di molecole organiche legate chimicamente in strutture note come ligandi. Credito:Massachusetts Institute of Technology
Poiché una RNA richiede un input numerico per funzionare, la prima sfida dei ricercatori è stata quella di trovare un modo per rappresentare un dato complesso di metalli di transizione come una serie di numeri, ciascuno che descrive una proprietà selezionata. Esistono regole per definire le rappresentazioni per le molecole organiche, dove la struttura fisica di una molecola dice molto sulle sue proprietà e sul suo comportamento. Ma quando i ricercatori hanno seguito quelle regole per i complessi di metalli di transizione, non ha funzionato. "Il legame metallo-organico è molto difficile da ottenere, " dice Kulik. "Ci sono proprietà uniche del legame che sono più variabili. Ci sono molti altri modi in cui gli elettroni possono scegliere di formare un legame." Quindi i ricercatori avevano bisogno di creare nuove regole per definire una rappresentazione che fosse predittiva nella chimica inorganica.
Utilizzando l'apprendimento automatico, hanno esplorato vari modi di rappresentare un complesso di metalli di transizione per l'analisi dell'energia di scissione dello spin. I risultati sono stati migliori quando la rappresentazione ha dato maggiore enfasi alle proprietà del centro metallico e della connessione metallo-ligando e meno enfasi alle proprietà dei ligandi più lontani. interessante, i loro studi hanno mostrato che le rappresentazioni che davano un'enfasi maggiore nel complesso funzionavano meglio quando l'obiettivo era prevedere altre proprietà, come la lunghezza del legame ligando-metallo o la tendenza ad accettare elettroni.
Testare l'ANN
Come prova del loro approccio, Kulik e Janet, assistiti da Lydia Chan, uno stagista estivo della Troy High School di Fullerton, California—definito un insieme di complessi di metalli di transizione basati su quattro metalli di transizione:cromo, manganese, ferro da stiro, e cobalto, in due stati di ossidazione con 16 ligandi (ogni molecola può averne fino a due). Combinando questi elementi costitutivi, hanno creato uno "spazio di ricerca" di 5, 600 complessi, alcuni dei quali familiari e ben studiati, e alcuni di loro totalmente sconosciuti.
Nei lavori precedenti, i ricercatori avevano addestrato una RNA su migliaia di composti ben noti nella chimica dei metalli di transizione. Per testare la capacità della RNA addestrata di esplorare un nuovo spazio chimico per trovare composti con le proprietà mirate, hanno provato ad applicarlo al pool di 5, 600 complessi, 113 di cui aveva visto nello studio precedente.
Il risultato è stato il grafico etichettato "Figura 1" nella presentazione sopra, che ordina i complessi su una superficie come determinato dalla RNA. Le regioni bianche indicano complessi con energie di scissione dello spin entro 5 chilocalorie per mole di zero, il che significa che sono potenzialmente buoni candidati SCO. Le regioni rosse e blu rappresentano complessi con energie di scissione di spin troppo grandi per essere utili. I diamanti verdi che appaiono nell'inserto mostrano complessi che hanno centri di ferro e ligandi simili, in altre parole, composti correlati le cui energie di spin-crossover dovrebbero essere simili. La loro comparsa nella stessa regione della trama è la prova della buona corrispondenza tra la rappresentazione dei ricercatori e le proprietà chiave del complesso.
Ma c'è un problema:non tutte le previsioni sulla suddivisione degli spin sono accurate. Se un complesso è molto diverso da quelli su cui è stata addestrata la rete, l'analisi ANN potrebbe non essere affidabile, un problema standard quando si applicano modelli di apprendimento automatico alla scoperta nella scienza dei materiali o nella chimica, osserva Kulik. Utilizzando un approccio che sembrava di successo nel loro lavoro precedente, i ricercatori hanno confrontato le rappresentazioni numeriche per i complessi di allenamento e di test e hanno escluso tutti i complessi di test in cui la differenza era troppo grande.
Concentrandosi sulle migliori opzioni
Eseguendo l'analisi ANN di tutti e 5, 600 complessi hanno richiesto solo un'ora. Ma nel mondo reale, il numero di complessi da esplorare potrebbe essere migliaia di volte più grande e qualsiasi candidato promettente richiederebbe un calcolo DFT completo. I ricercatori avevano quindi bisogno di un metodo per valutare un grande set di dati per identificare eventuali candidati inaccettabili anche prima dell'analisi ANN. A quello scopo, hanno sviluppato un algoritmo genetico, un approccio ispirato alla selezione naturale, per valutare i singoli complessi e scartare quelli ritenuti non idonei.
Una rete neurale artificiale precedentemente addestrata su composti noti ha analizzato 5, 600 complessi di metalli di transizione per identificare potenziali complessi di spin-crossover. Il risultato fu questa trama, in cui i complessi sono colorati in base alla loro energia di scissione dello spin in chilocalorie per mole (kcal/mol). Nei candidati promettenti, quell'energia è entro 5 kcal/mol da zero. I brillanti diamanti verdi nell'inserto sono complessi correlati. Credito:Massachusetts Institute of Technology
Per preselezionare un set di dati, l'algoritmo genetico prima seleziona casualmente 20 campioni dall'intero set di complessi. Quindi assegna un punteggio di "idoneità" a ciascun campione basato su tre misure. Primo, la sua energia di spin-crossover è abbastanza bassa da essere un buon SCO? Per scoprirlo, la rete neurale valuta ciascuno dei 20 complessi. Secondo, il complesso è troppo lontano dai dati di allenamento? Se è così, l'energia di spin-crossover della RNA potrebbe essere imprecisa. E infine, il complesso è troppo vicino ai dati di allenamento? Se è così, i ricercatori hanno già eseguito un calcolo DFT su una molecola simile, quindi il candidato non è interessato alla ricerca di nuove opzioni.
Sulla base della sua valutazione in tre parti dei primi 20 candidati, l'algoritmo genetico elimina le opzioni non idonee e salva il più adatto per il round successivo. Per garantire la diversità dei composti salvati, l'algoritmo richiede che alcuni di essi mutino un po'. Ad un complesso può essere assegnato un nuovo, ligando selezionato a caso, o due complessi promettenti possono scambiare ligandi. Dopotutto, se un complesso sembra buono, allora qualcosa di molto simile potrebbe essere ancora migliore, e l'obiettivo qui è trovare nuovi candidati. L'algoritmo genetico aggiunge quindi alcuni nuovi, complessi scelti a caso per compilare il secondo gruppo di 20 ed eseguire la sua analisi successiva. Ripetendo questo processo per un totale di 21 volte, produce 21 generazioni di opzioni. Si procede quindi attraverso lo spazio di ricerca, permettendo ai candidati più idonei di sopravvivere e riprodursi, e gli inadatti a morire.
Eseguendo l'analisi di 21 generazioni sull'intero 5, 600 set di dati complessi richiesti poco più di cinque minuti su un computer desktop standard, e ha prodotto 372 lead con una buona combinazione di elevata diversità e sicurezza accettabile. I ricercatori hanno quindi utilizzato DFT per esaminare 56 complessi scelti casualmente tra quei cavi, ei risultati hanno confermato che due terzi di essi potrebbero essere buoni SCO.
Anche se una percentuale di successo di due terzi potrebbe non sembrare eccezionale, i ricercatori fanno due punti. Primo, la loro definizione di ciò che potrebbe costituire un buon SCO era molto restrittiva:affinché un complesso sopravviva, la sua energia di scissione doveva essere estremamente piccola. E secondo, dato uno spazio di 5, 600 complessi e niente da fare, quante analisi DFT sarebbero necessarie per trovare 37 lead? Come nota Janet, "Non importa quanti ne abbiamo valutati con la rete neurale perché è così economica. Sono i calcoli DFT che richiedono tempo".
Meglio di tutto, l'utilizzo del loro approccio ha consentito ai ricercatori di trovare alcuni candidati SCO non convenzionali che non sarebbero stati pensati in base a ciò che è stato studiato in passato. "Ci sono regole che le persone hanno - euristiche nelle loro teste - su come costruire un complesso spin-crossover, " dice Kulik. "Abbiamo dimostrato che è possibile trovare combinazioni inaspettate di metalli e ligandi che normalmente non sono studiati ma possono essere promettenti come candidati spin-crossover".
Condividere i nuovi strumenti
Per supportare la ricerca mondiale di nuovi materiali, i ricercatori hanno incorporato l'algoritmo genetico e la ANN in "molSimplify, " il gruppo è online, toolkit software open source che chiunque può scaricare e utilizzare per costruire e simulare complessi di metalli di transizione. Per aiutare i potenziali utenti, il sito fornisce tutorial che dimostrano come utilizzare le funzionalità chiave dei codici software open source. Lo sviluppo di molSimplify è iniziato con il finanziamento della MIT Energy Initiative nel 2014, e da allora tutti gli studenti del gruppo di Kulik vi hanno contribuito.
I ricercatori continuano a migliorare la loro rete neurale per studiare potenziali SCO e per pubblicare versioni aggiornate di molSimplify. Nel frattempo, altri nel laboratorio di Kulik stanno sviluppando strumenti in grado di identificare composti promettenti per altre applicazioni. Per esempio, un'importante area di interesse è la progettazione del catalizzatore. La studentessa laureata in chimica Aditya Nandy si sta concentrando sulla ricerca di un catalizzatore migliore per convertire il gas metano in un combustibile liquido più facile da maneggiare come il metanolo, un problema particolarmente impegnativo. "Ora abbiamo una molecola esterna in arrivo, e il nostro complesso, il catalizzatore, deve agire su quella molecola per eseguire una trasformazione chimica che avviene in tutta una serie di passaggi, " afferma Nandy. "L'apprendimento automatico sarà estremamente utile per capire gli importanti parametri di progettazione per un complesso di metalli di transizione che renderanno ogni fase di quel processo energeticamente favorevole".
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.