In BigSMILES, i frammenti polimerici sono rappresentati da un elenco di unità ripetitive racchiuso tra parentesi graffe. Le strutture chimiche delle unità ripetitive sono codificate utilizzando la normale sintassi SMILES, ma con ulteriori descrittori di legame che specificano come le diverse unità ripetitive sono collegate per formare i polimeri. Questo semplice design della sintassi consentirebbe la codifica di macromolecole su un'ampia gamma di sostanze chimiche. Attestazione:Tzyy-Shyang Lin
Avere un compatto, eppure robusto, un identificatore o un sistema di rappresentazione strutturato per le strutture molecolari è un fattore chiave per la condivisione e la diffusione efficiente dei risultati all'interno della comunità di ricerca. Tali sistemi pongono anche le basi essenziali per l'apprendimento automatico e altre ricerche basate sui dati. Sebbene siano stati fatti sostanziali progressi per le piccole molecole, la comunità dei polimeri ha faticato a trovare un sistema di rappresentazione efficiente.
Per piccole molecole, la premessa di base è che ad ogni specie chimica distinta corrisponde una struttura chimica ben definita. Questo non vale per i polimeri. I polimeri sono molecole intrinsecamente stocastiche che sono spesso insiemi con una distribuzione di strutture chimiche. Questa difficoltà limita l'applicabilità di tutte le rappresentazioni deterministiche sviluppate per piccole molecole. In un articolo pubblicato il 12 settembre in Scienze Centrali ACS , ricercatori del MIT, Duke University, e la Northwestern University riportano un nuovo sistema di rappresentazione in grado di gestire la natura stocastica dei polimeri, chiamato BigSMILES.
"BigSMILES affronta una sfida significativa nella rappresentazione digitale dei polimeri, " spiega Connor Coley Ph.D. '19, coautore del paper. "I polimeri sono quasi sempre insiemi di strutture chimiche multiple, generato attraverso processi stocastici, quindi non possiamo usare le stesse strategie per scrivere le loro strutture come per le piccole molecole".
I coautori sono Coley; professore associato di ingegneria chimica Bradley D. Olsen al MIT; Warren K. Lewis Professore di ingegneria chimica Klavs F. Jensen al MIT; assistente professore di chimica Julia A. Kalow alla Northwestern University; professore associato di chimica Jeremiah A. Johnson al MIT; William T. Miller Professore di Chimica Stephen L. Craig alla Duke University; lo studente laureato Eliot Woods alla Northwestern University; lo studente laureato Zi Wang alla Duke University; studente laureato Wencong Wang al MIT; studente laureato Haley K. Beech al MIT; il ricercatore in visita Hidenobu Mochigase al MIT; e lo studente laureato Tzyy-Shyang Lin al MIT.
Ci sono diverse notazioni di linea per comunicare la struttura molecolare, con il sistema di ingresso di linea a input molecolare semplificato (SMILES) è il più popolare. SMILES è generalmente considerata la variante più leggibile dall'uomo, con il supporto software di gran lunga più ampio. In pratica, SMILES fornisce un semplice insieme di rappresentazioni adatte come etichette per dati chimici e come identificatore compatto di memoria per lo scambio di dati tra ricercatori. Essendo un sistema basato su testo, SMILES è anche una soluzione naturale per molti algoritmi di apprendimento automatico basati su testo. Queste caratteristiche hanno reso SMILES uno strumento perfetto per tradurre le conoscenze di chimica in una forma a misura di macchina, ed è stato applicato con successo per la previsione delle proprietà di piccole molecole e la pianificazione della sintesi assistita da computer.
polimeri, però, hanno resistito alla descrizione di questo e di altri linguaggi strutturali. Questo perché la maggior parte dei linguaggi strutturali come SMILES sono stati progettati per descrivere molecole o frammenti chimici che sono grafici atomistici ben definiti. Poiché i polimeri sono molecole stocastiche, non hanno rappresentazioni SMILES univoche. Questa mancanza di una denominazione unificata o di una convenzione di identificazione per i materiali polimerici è uno dei principali ostacoli che rallentano lo sviluppo del campo dell'informatica dei polimeri. Durante gli sforzi pionieristici sull'informatica dei polimeri, come il Polymer Genome Project, hanno dimostrato l'utilità delle estensioni SMILES nell'informatica dei polimeri, il rapido sviluppo della nuova chimica e il rapido sviluppo dell'informatica dei materiali e della ricerca basata sui dati rendono importante la necessità di una convenzione di denominazione universalmente applicabile per i polimeri.
"L'apprendimento automatico rappresenta un'enorme opportunità per accelerare lo sviluppo e la scoperta di sostanze chimiche, "dice Lin He, vicedirettore ad interim della divisione della National Science Foundation (NSF) Division of Chemistry. "Questo strumento ampliato per etichettare le strutture, specificamente ideato per affrontare le sfide uniche inerenti ai polimeri, migliora notevolmente la ricercabilità dei dati strutturali chimici, e ci avvicina di un passo allo sfruttamento della rivoluzione dei dati".
I ricercatori hanno creato un nuovo costrutto basato sulla struttura come aggiunta alla rappresentazione SMILES di grande successo che può trattare la natura casuale dei materiali polimerici. Poiché i polimeri sono molecole ad alta massa molare, questo costrutto è chiamato BigSMILES. In BigSMILES, i frammenti polimerici sono rappresentati da un elenco di unità ripetitive racchiuso tra parentesi graffe. Le strutture chimiche delle unità ripetitive sono codificate utilizzando la normale sintassi SMILES, ma con ulteriori descrittori di legame che specificano come diverse unità ripetitive sono collegate per formare polimeri. Questo semplice design della sintassi consentirebbe la codifica di macromolecole su un'ampia gamma di sostanze chimiche diverse, compreso l'omopolimero, copolimeri random e copolimeri a blocchi, e una varietà di connettività molecolare, che vanno dai polimeri lineari ai polimeri ad anello fino ai polimeri anche ramificati. Come in SORRISI, Le rappresentazioni BigSMILES sono compatte, stringhe di testo autonome.
"Standardizzare la rappresentazione digitale delle strutture polimeriche con BigSMILES incoraggerà la condivisione e l'aggregazione dei dati polimerici, migliorare la qualità del modello nel tempo e rafforzare i benefici del suo utilizzo, "dice Jason Clark, i materiali sono leader nell'Open Innovation per prodotti chimici e materiali rinnovabili a Braskem, che non era associato alla ricerca. "BigSMILES è un contributo significativo al campo in quanto risponde alla necessità di un sistema flessibile per rappresentare digitalmente strutture polimeriche complesse".
Clark aggiunge, "Le sfide affrontate dall'industria della plastica nel contesto dell'economia circolare iniziano con la fonte delle materie prime e continuano fino alla gestione del fine vita. Affrontare queste sfide richiede la progettazione innovativa di materiali a base di polimeri, che ha tradizionalmente sofferto di lunghi cicli di sviluppo. I progressi nell'intelligenza artificiale e nell'apprendimento automatico hanno mostrato risultati promettenti per accelerare il ciclo di sviluppo per applicazioni che utilizzano leghe metalliche e piccole molecole organiche, motivare l'industria delle materie plastiche a cercare un approccio parallelo." Le rappresentazioni digitali BigSMILES facilitano la valutazione delle relazioni struttura-prestazioni mediante l'applicazione di metodi di data science, lui dice, in ultima analisi, accelerando la convergenza alle strutture o alle composizioni polimeriche che contribuiranno a consentire l'economia circolare.
"Una moltitudine di complesse strutture polimeriche può essere costruita attraverso la composizione di tre nuovi operatori di base e simboli SMILES originali, "dice Olsen, "Interi campi della chimica, scienza dei materiali, e ingegneria, compresa la scienza dei polimeri, biomateriali, chimica dei materiali, e gran parte della biochimica, sono basati su macromolecole che hanno strutture stocastiche. Questo può essere fondamentalmente pensato come un nuovo linguaggio su come scrivere la struttura di grandi molecole".
"Una delle cose di cui sono entusiasta è il modo in cui l'immissione dei dati potrebbe essere collegata direttamente ai metodi sintetici utilizzati per creare un particolare polimero, "dice Craig, "Per questo, esiste un'opportunità per acquisire ed elaborare effettivamente più informazioni sulle molecole rispetto a quelle normalmente disponibili dalle caratterizzazioni standard. Se questo può essere fatto, consentirà ogni sorta di scoperte."
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.