• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  science >> Scienza >  >> Chimica
    Automatizzare la progettazione di molecole per accelerare lo sviluppo di farmaci

    I ricercatori del MIT hanno sviluppato un modello di apprendimento automatico che seleziona meglio le molecole candidate per le terapie, consentendo anche la modifica automatizzata della struttura molecolare per una maggiore potenza. L'innovazione ha il potenziale per accelerare lo sviluppo di farmaci. Credito:Massachusetts Institute of Technology

    La progettazione di nuove molecole per i prodotti farmaceutici è principalmente un manuale, processo che richiede tempo e che è soggetto a errori. Ma i ricercatori del MIT hanno ora compiuto un passo verso la completa automazione del processo di progettazione, che potrebbe accelerare drasticamente le cose e produrre risultati migliori.

    La scoperta di farmaci si basa sull'ottimizzazione dei lead. In questo processo, i chimici selezionano una molecola bersaglio ("piombo") con un potenziale noto per combattere una malattia specifica, quindi modifica le sue proprietà chimiche per una maggiore potenza e altri fattori.

    Spesso, i chimici utilizzano le conoscenze degli esperti e conducono la messa a punto manuale delle molecole, aggiungendo e sottraendo gruppi funzionali, atomi e legami responsabili di specifiche reazioni chimiche, uno per uno. Anche se utilizzano sistemi che prevedono proprietà chimiche ottimali, i chimici devono ancora eseguire da soli ogni passaggio di modifica. Questo può richiedere ore per ogni iterazione e potrebbe ancora non produrre un candidato farmaco valido.

    I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT e del Department of Electrical Engineering and Computer Science (EECS) hanno sviluppato un modello che seleziona meglio le molecole principali candidate in base alle proprietà desiderate. Modifica anche la struttura molecolare necessaria per ottenere una potenza più elevata, assicurando che la molecola sia ancora chimicamente valida.

    Il modello prende fondamentalmente come input i dati della struttura molecolare e crea direttamente grafici molecolari, rappresentazioni dettagliate di una struttura molecolare, con nodi che rappresentano atomi e bordi che rappresentano legami. Scompone quei grafici in gruppi più piccoli di gruppi funzionali validi che utilizza come "mattoni" che lo aiutano a ricostruire più accuratamente e modificare meglio le molecole.

    "La motivazione alla base di ciò era sostituire l'inefficiente processo di modifica umana della progettazione di molecole con l'iterazione automatizzata e garantire la validità delle molecole che generiamo, " dice Wengong Jin, un dottorato di ricerca studente in CSAIL e autore principale di un documento che descrive il modello che verrà presentato alla International Conference on Machine Learning 2018 a luglio.

    Insieme a Jin sul giornale ci sono Regina Barzilay, il Delta Electronics Professor presso CSAIL e EECS e Tommi S. Jaakkola, il Thomas Siebel Professore di Ingegneria Elettrica e Informatica in CSAIL, EECS, e presso l'Istituto per i dati, Sistemi, e Società.

    La ricerca è stata condotta nell'ambito del consorzio Machine Learning for Pharmaceutical Discovery and Synthesis tra il MIT e otto aziende farmaceutiche, annunciato a maggio. Il consorzio ha identificato l'ottimizzazione del piombo come una sfida chiave nella scoperta di farmaci.

    "Oggi, è davvero un mestiere, che richiede molti chimici abili per avere successo, ed è quello che vogliamo migliorare, " Dice Barzilay. "Il prossimo passo è portare questa tecnologia dal mondo accademico per utilizzarla su casi reali di progettazione farmaceutica, e dimostrare che può aiutare i chimici umani a svolgere il loro lavoro, che può essere impegnativo".

    "L'automazione del processo presenta anche nuove sfide di apprendimento automatico, " dice Jaakkola. "Imparare a relazionarsi, modificare, e generare grafici molecolari guida nuove idee e metodi tecnici."

    Generazione di grafici molecolari

    Negli ultimi anni sono emersi sistemi che tentano di automatizzare la progettazione delle molecole, ma il loro problema è la validità. Quei sistemi, Jin dice, spesso generano molecole non valide secondo le regole chimiche, e non riescono a produrre molecole con proprietà ottimali. Ciò rende essenzialmente impossibile la completa automazione della progettazione della molecola.

    Questi sistemi funzionano su notazioni lineari di molecole, chiamati "sistemi di ingresso di linea a input molecolare semplificati, "o SORRISI, dove lunghe stringhe di lettere, numeri, e i simboli rappresentano singoli atomi o legami che possono essere interpretati dal software del computer. Quando il sistema modifica una molecola di piombo, espande la sua rappresentazione di stringa simbolo per simbolo, atomo per atomo, e legame per legame, finché non genera una stringa SMILES finale con una potenza maggiore di una proprietà desiderata. Alla fine, il sistema può produrre una stringa SMILES finale che sembra valida sotto la grammatica SMILES, ma in realtà non è valido.

    I ricercatori risolvono questo problema costruendo un modello che funziona direttamente su grafici molecolari, invece delle stringhe SMILES, che possono essere modificati in modo più efficiente e preciso.

    Ad alimentare il modello c'è un autoencoder variazionale personalizzato, una rete neurale che "codifica" una molecola di input in un vettore, che è fondamentalmente uno spazio di archiviazione per i dati strutturali della molecola, e quindi "decodifica" quel vettore in un grafico che corrisponde alla molecola di input.

    In fase di codifica, il modello scompone ogni grafo molecolare in cluster, o "sottografi, " ognuno dei quali rappresenta un blocco costitutivo specifico. Tali cluster sono costruiti automaticamente da un concetto comune di machine learning, chiamato decomposizione dell'albero, dove un grafo complesso è mappato in una struttura ad albero di cluster—"che fornisce un'impalcatura del grafo originale, " dice Jin.

    Sia la struttura ad albero dell'impalcatura che la struttura del grafico molecolare sono codificate nei propri vettori, dove le molecole sono raggruppate per similarità. Questo rende la ricerca e la modifica delle molecole un compito più facile.

    In fase di decodifica, il modello ricostruisce il grafico molecolare in modo "da grossolano a fine", aumentando gradualmente la risoluzione di un'immagine a bassa risoluzione per creare una versione più raffinata. Genera prima lo scaffold ad albero, e quindi assembla i cluster associati (nodi nell'albero) insieme in un grafo molecolare coerente. Ciò garantisce che il grafico molecolare ricostruito sia una replica esatta della struttura originale.

    Per l'ottimizzazione dei lead, il modello può quindi modificare le molecole di piombo in base a una proprietà desiderata. Lo fa con l'aiuto di un algoritmo di previsione che assegna ad ogni molecola un valore di potenza di quella proprietà. Nella carta, ad esempio, i ricercatori hanno cercato molecole con una combinazione di due proprietà:elevata solubilità e accessibilità sintetica.

    Data una proprietà desiderata, il modello ottimizza una molecola di piombo utilizzando l'algoritmo di previsione per modificare il suo vettore e, perciò, struttura, modificando i gruppi funzionali della molecola per ottenere un punteggio di potenza più elevato. Ripete questo passaggio per più iterazioni, finché non trova il punteggio di potenza previsto più alto. Quindi, il modello infine decodifica una nuova molecola dal vettore aggiornato, con struttura modificata, compilando tutti i cluster corrispondenti.

    Valido e più potente

    I ricercatori hanno addestrato il loro modello su 250, 000 grafici molecolari dal database ZINC, una raccolta di strutture molecolari 3-D disponibili per l'uso pubblico. Hanno testato il modello su compiti per generare molecole valide, trovare le migliori molecole di piombo, e progettare nuove molecole con potenze aumentate.

    Nella prima prova, il modello dei ricercatori ha generato molecole chimicamente valide al 100% da una distribuzione di campioni, rispetto ai modelli SMILES che hanno generato il 43% di molecole valide dalla stessa distribuzione.

    Il secondo test ha coinvolto due compiti. Primo, il modello ha cercato nell'intera collezione di molecole per trovare la migliore molecola di piombo per le proprietà desiderate:solubilità e accessibilità sintetica. In quel compito, il modello ha trovato una molecola di piombo con una potenza del 30% superiore rispetto ai sistemi tradizionali. Il secondo compito prevedeva la modifica di 800 molecole per una maggiore potenza, ma sono strutturalmente simili alla molecola di piombo. Così facendo, il modello ha creato nuove molecole, molto simile alla struttura del piombo, in media un miglioramento di oltre l'80% della potenza.

    I ricercatori ora mirano a testare il modello su più proprietà, oltre la solubilità, che sono più rilevanti dal punto di vista terapeutico. Quella, però, richiede più dati. "Le aziende farmaceutiche sono più interessate alle proprietà che combattono contro i bersagli biologici, ma hanno meno dati su quelli. Una sfida è sviluppare un modello in grado di funzionare con una quantità limitata di dati di addestramento, " dice Jin.

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.




    © Scienza https://it.scienceaq.com