Un nuovo sistema informatico prevede i prodotti delle reazioni chimiche. "La visione è che sarai in grado di avvicinarti a un sistema e dire, "Voglio fare questa molecola." Il software ti dirà il percorso da cui dovresti farlo, e la macchina ce la farà, ” afferma il professor Klays Jensen. Credito:MIT News
Quando i chimici organici identificano un composto chimico utile, un nuovo farmaco, per esempio:sta agli ingegneri chimici determinare come produrlo in serie.
Potrebbero esserci 100 diverse sequenze di reazioni che producono lo stesso prodotto finale. Ma alcuni di loro usano reagenti più economici e temperature più basse di altri, e forse, cosa più importante, alcuni sono molto più facili da eseguire continuamente, con tecnici che rabboccano occasionalmente i reagenti in diverse camere di reazione.
Storicamente, determinare il modo più efficiente ed economico per produrre una data molecola è stato tanto arte quanto scienza. Ma i ricercatori del MIT stanno cercando di mettere questo processo su una base empirica più sicura, con un sistema informatico addestrato su migliaia di esempi di reazioni sperimentali e che impara a prevedere quali saranno i principali prodotti di una reazione.
Il lavoro dei ricercatori appare sulla rivista dell'American Chemical Society ACS Central Science . Come tutti i sistemi di apprendimento automatico, la loro presenta i suoi risultati in termini di probabilità. Nei test, il sistema era in grado di prevedere il prodotto principale di una reazione il 72 percento delle volte; l'87 percento delle volte, ha classificato il prodotto principale tra i suoi tre risultati più probabili.
"C'è chiaramente molto capito sulle reazioni di oggi, "dice Klavs Jensen, il Warren K. Lewis Professor of Chemical Engineering al MIT e uno dei quattro autori senior del documento, "ma è molto evoluto, ha acquisito l'abilità di guardare una molecola e decidere come sintetizzarla dai materiali di partenza".
Con il nuovo lavoro, Jensen dice, "la visione è che sarai in grado di avvicinarti a un sistema e dire, "Voglio creare questa molecola." Il software ti dirà il percorso da cui dovresti farlo, e la macchina ce la farà."
Con una probabilità del 72% di identificare il prodotto principale di una reazione, il sistema non è ancora pronto per ancorare il tipo di sintesi chimica completamente automatizzata che Jensen prevede. Ma potrebbe aiutare gli ingegneri chimici a convergere più rapidamente sulla migliore sequenza di reazioni e forse suggerire sequenze che altrimenti non avrebbero studiato.
Jensen è affiancato sulla carta dal primo autore Connor Coley, uno studente laureato in ingegneria chimica; William Verde, il professore di ingegneria chimica Hoyt C. Hottel, chi, con Jensen, co-consiglia Coley; Regina Barzilay, il Professore di Ingegneria Elettrica e Informatica della Delta Electronics; e Tommi Jaakkola, il Thomas Siebel Professore di Ingegneria Elettrica e Informatica.
Agire a livello locale
Una singola molecola organica può essere costituita da dozzine e persino centinaia di atomi. Ma una reazione tra due di queste molecole potrebbe coinvolgere solo due o tre atomi, che rompono i loro legami chimici esistenti e ne formano di nuovi. Migliaia di reazioni tra centinaia di reagenti diversi spesso si riducono a un singolo, reazione condivisa tra la stessa coppia di "siti di reazione".
Una grande molecola organica, però, potrebbe avere più siti di reazione, e quando incontra un'altra grande molecola organica, solo una delle tante possibili reazioni tra di loro si verificherà effettivamente. Questo è ciò che rende così difficile la previsione automatica della reazione.
Nel passato, i chimici hanno costruito modelli informatici che caratterizzano le reazioni in termini di interazioni nei siti di reazione. Ma spesso richiedono l'enumerazione di eccezioni, che devono essere ricercati in modo indipendente e codificati a mano. Il modello potrebbe dichiarare, ad esempio, che se la molecola A ha il sito di reazione X, e la molecola B ha il sito di reazione Y, quindi X e Y reagiranno per formare il gruppo Z, a meno che la molecola A non abbia anche siti di reazione P, Q, R, S, T, tu, o v.
Non è raro che un singolo modello richieda più di una dozzina di eccezioni enumerate. E scoprire queste eccezioni nella letteratura scientifica e aggiungerle ai modelli è un compito laborioso, che ha limitato l'utilità dei modelli.
Uno degli obiettivi principali del nuovo sistema dei ricercatori del MIT è aggirare questo arduo processo. Coley e i suoi coautori hanno iniziato con 15, 000 reazioni osservate empiricamente riportate nei depositi di brevetti statunitensi. Però, perché il sistema di apprendimento automatico doveva imparare quali reazioni non si sarebbero verificate, così come quelli che sarebbero, esempi di reazioni riuscite non bastavano.
Esempi negativi
Quindi per ogni coppia di molecole in una delle reazioni elencate, Coley ha anche generato una batteria di possibili prodotti aggiuntivi, in base ai siti di reazione delle molecole. Ha poi alimentato descrizioni di reazioni, insieme alle sue liste artificialmente ampliate di possibili prodotti, a un sistema di intelligenza artificiale noto come rete neurale, che aveva il compito di classificare i possibili prodotti in ordine di probabilità.
Da questa formazione, la rete ha essenzialmente appreso una gerarchia di reazioni - quali interazioni in quali siti di reazione tendono ad avere la precedenza su quali altre - senza la laboriosa annotazione umana.
Altre caratteristiche di una molecola possono influenzare la sua reattività. Gli atomi in un dato sito di reazione possono, ad esempio, hanno diverse distribuzioni di carica, a seconda di quali altri atomi sono intorno a loro. E la forma fisica di una molecola può rendere difficile l'accesso a un sito di reazione. Quindi il modello dei ricercatori del MIT include anche misure numeriche di entrambe queste caratteristiche.
Secondo Richard Robinson, ricercatore di tecnologie chimiche presso l'azienda farmaceutica Novartis, il sistema dei ricercatori del MIT "offre un approccio diverso all'apprendimento automatico nel campo della sintesi mirata, che in futuro potrebbe trasformare la pratica del disegno sperimentale in molecole mirate".
"Attualmente contiamo molto sulla nostra formazione retrosintetica, che è allineato con le nostre esperienze personali e ampliato con motori di ricerca di database di reazioni, " dice Robinson. "Questo ci serve bene, ma spesso si traduce ancora in un significativo tasso di fallimento. Anche i chimici più esperti sono spesso sorpresi. Se dovessi sommare tutti i fallimenti di sintesi cumulativi come industria, questo probabilmente riguarderebbe un investimento significativo in termini di tempo e costi. E se potessimo migliorare il nostro tasso di successo?"
I ricercatori del MIT, Robinson dice, "hanno abilmente dimostrato un nuovo approccio per ottenere prestazioni di reazione predittiva più elevate rispetto agli approcci convenzionali. Aumentando la letteratura riportata con esempi di reazioni negative, il set di dati ha più valore."
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.