• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  science >> Scienza >  >> Chimica
    Il metodo di apprendimento automatico crea una grammatica chimica imparabile per costruire monomeri e polimeri sintetizzabili

    Credito:Pixabay/CC0 di dominio pubblico

    Gli ingegneri chimici e gli scienziati dei materiali sono costantemente alla ricerca del prossimo materiale, chimico e farmaco rivoluzionario. L'aumento degli approcci di apprendimento automatico sta accelerando il processo di scoperta, che altrimenti potrebbe richiedere anni. "Idealmente, l'obiettivo è addestrare un modello di apprendimento automatico su alcuni campioni chimici esistenti e quindi consentirgli di produrre quante più molecole producibili della stessa classe possibile, con proprietà fisiche prevedibili", afferma Wojciech Matusik, professore di ingegneria elettrica e informatica al MIT. "Se hai tutti questi componenti, puoi costruire nuove molecole con proprietà ottimali e sai anche come sintetizzarle. Questa è la visione generale che le persone in quello spazio vogliono ottenere"

    Tuttavia, le tecniche attuali, principalmente il deep learning, richiedono set di dati estesi per i modelli di addestramento e molti set di dati chimici specifici di classe contengono una manciata di composti di esempio, limitando la loro capacità di generalizzare e generare molecole fisiche che potrebbero essere create nel mondo reale.

    Ora, un nuovo articolo dei ricercatori del MIT e dell'IBM affronta questo problema utilizzando un modello di grafo generativo per costruire nuove molecole sintetizzabili all'interno della stessa classe chimica dei loro dati di addestramento. Per fare ciò, trattano la formazione di atomi e legami chimici come un grafico e sviluppano una grammatica del grafico, un'analogia linguistica di sistemi e strutture per l'ordinamento delle parole, che contiene una sequenza di regole per la costruzione di molecole, come monomeri e polimeri. Utilizzando la grammatica e le regole di produzione che sono state dedotte dal set di addestramento, il modello non solo può decodificare i suoi esempi, ma può creare nuovi composti in modo sistematico ed efficiente in termini di dati. "Sostanzialmente abbiamo costruito un linguaggio per la creazione di molecole", afferma Matusik, "Questa grammatica è essenzialmente il modello generativo".

    I coautori di Matusik includono gli studenti laureati del MIT Minghao Guo, che è l'autore principale, e Beichen Li, nonché Veronika Thost, Payal Das e Jie Chen, membri dello staff di ricerca di IBM Research. Matusik, Thost e Chen sono affiliati al MIT-IBM Watson AI Lab. Il loro metodo, che hanno chiamato data-efficient graph grammar (DEG), sarà presentato alla Conferenza internazionale sulle rappresentazioni dell'apprendimento.

    "Vogliamo utilizzare questa rappresentazione grammaticale per la generazione di monomeri e polimeri, perché questa grammatica è spiegabile ed espressiva", afferma Guo. "Con solo un numero limitato di regole di produzione, possiamo generare molti tipi di strutture."

    Una struttura molecolare può essere pensata come una rappresentazione simbolica in un grafo:una stringa di atomi (nodi) uniti tra loro da legami chimici (bordi). In questo metodo, i ricercatori consentono al modello di prendere la struttura chimica e collassare una sottostruttura della molecola fino a un nodo; questo può essere due atomi collegati da un legame, una breve sequenza di atomi legati o un anello di atomi. Questo viene fatto ripetutamente, creando le regole di produzione man mano, finché non rimane un singolo nodo. Le regole e la grammatica potrebbero quindi essere applicate nell'ordine inverso per ricreare il training set da zero o combinate in diverse combinazioni per produrre nuove molecole della stessa classe chimica.

    "I metodi di generazione dei grafi esistenti produrrebbero un nodo o un arco in sequenza alla volta, ma stiamo osservando strutture di livello superiore e, in particolare, sfruttando la conoscenza della chimica, in modo da non trattare i singoli atomi e legami come l'unità. Ciò semplifica il processo di generazione e rende anche più efficiente l'apprendimento dei dati", afferma Chen.

    Inoltre, i ricercatori hanno ottimizzato la tecnica in modo che la grammatica dal basso verso l'alto fosse relativamente semplice e diretta, in modo tale da fabbricare molecole che potevano essere prodotte.

    "Se cambiassimo l'ordine di applicazione di queste regole di produzione, otterremmo un'altra molecola; inoltre, possiamo enumerare tutte le possibilità e generarne tonnellate", afferma Chen. "Alcune di queste molecole sono valide e altre no, quindi l'apprendimento della grammatica stessa è in realtà quello di capire una raccolta minima di regole di produzione, in modo tale che la percentuale di molecole che possono essere effettivamente sintetizzate sia massimizzata". Mentre i ricercatori si sono concentrati su tre training set di meno di 33 campioni ciascuno (acrilati, estensori di catena e isocianati), hanno notato che il processo potrebbe essere applicato a qualsiasi classe chimica.

    Per vedere come funzionava il loro metodo, i ricercatori hanno testato DEG contro altri modelli e tecniche all'avanguardia, osservando le percentuali di molecole chimicamente valide e uniche, la diversità di quelle create, il tasso di successo della retrosintesi e la percentuale di molecole appartenenti a la classe del monomero dei dati di addestramento.

    "Mostriamo chiaramente che, per la sintetizzabilità e l'appartenenza, il nostro algoritmo supera tutti i metodi esistenti con un margine molto ampio, mentre è paragonabile ad alcune altre metriche ampiamente utilizzate", afferma Guo. Inoltre, "la cosa sorprendente del nostro algoritmo è che abbiamo bisogno solo dello 0,15 percento circa del set di dati originale per ottenere risultati molto simili rispetto agli approcci all'avanguardia che si allenano su decine di migliaia di campioni. Il nostro algoritmo può gestire in modo specifico il problema della scarsità dei dati."

    Nell'immediato futuro, il team prevede di aumentare questo processo di apprendimento della grammatica per essere in grado di generare grafici di grandi dimensioni, nonché produrre e identificare sostanze chimiche con le proprietà desiderate.

    Lungo la strada, i ricercatori vedono molte applicazioni per il metodo DEG, poiché è adattabile oltre a generare nuove strutture chimiche, sottolinea il team. Un grafico è una rappresentazione molto flessibile e molte entità possono essere simbolizzate in questa forma, ad esempio robot, veicoli, edifici e circuiti elettronici. "In sostanza, il nostro obiettivo è costruire la nostra grammatica, in modo che la nostra rappresentazione grafica possa essere ampiamente utilizzata in molti domini diversi", afferma Guo, poiché "DEG può automatizzare la progettazione di nuove entità e strutture", afferma Chen. + Esplora ulteriormente

    Ricerca di una grammatica dei materiali per aiutare nella scoperta di catalizzatori

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca, l'innovazione e l'insegnamento del MIT.




    © Scienza https://it.scienceaq.com