• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  science >> Scienza >  >> Chimica
    Il modello apprende come i singoli aminoacidi determinano la funzione delle proteine

    Un nuovo modello sviluppato dai ricercatori del MIT crea più ricchi, rappresentazioni più facilmente calcolabili di come i singoli amminoacidi determinano la funzione di una proteina, che potrebbe essere utilizzato per progettare e testare nuove proteine. Credito:Massachusetts Institute of Technology

    Un modello di apprendimento automatico dei ricercatori del MIT analizza computazionalmente il modo in cui i segmenti delle catene di amminoacidi determinano la funzione di una proteina, che potrebbe aiutare i ricercatori a progettare e testare nuove proteine ​​per lo sviluppo di farmaci o la ricerca biologica.

    Le proteine ​​sono catene lineari di amminoacidi, collegati da legami peptidici, che si piegano in strutture tridimensionali estremamente complesse, a seconda della sequenza e delle interazioni fisiche all'interno della catena. quella struttura, a sua volta, determina la funzione biologica della proteina. Conoscere la struttura 3D di una proteina, perciò, è prezioso per, dire, predire come le proteine ​​possono rispondere a determinati farmaci.

    Però, nonostante decenni di ricerca e lo sviluppo di molteplici tecniche di imaging, conosciamo solo una piccolissima frazione delle possibili strutture proteiche, decine di migliaia su milioni. I ricercatori stanno iniziando a utilizzare modelli di apprendimento automatico per prevedere le strutture proteiche in base alle loro sequenze di amminoacidi, che potrebbe consentire la scoperta di nuove strutture proteiche. Ma questo è impegnativo, poiché diverse sequenze di amminoacidi possono formare strutture molto simili. E non ci sono molte strutture su cui addestrare i modelli.

    In un documento presentato alla Conferenza internazionale sulle rappresentazioni dell'apprendimento a maggio, i ricercatori del MIT sviluppano un metodo per "apprendere" rappresentazioni facilmente calcolabili di ciascuna posizione di amminoacidi in una sequenza proteica, inizialmente utilizzando la struttura proteica 3D come guida all'allenamento. I ricercatori possono quindi utilizzare quelle rappresentazioni come input che aiutano i modelli di apprendimento automatico a prevedere le funzioni dei singoli segmenti di amminoacidi, senza mai più aver bisogno di dati sulla struttura della proteina.

    Nel futuro, il modello potrebbe essere utilizzato per una migliore ingegneria proteica, dando ai ricercatori la possibilità di concentrarsi meglio su e modificare specifici segmenti di amminoacidi. Il modello potrebbe persino allontanare del tutto i ricercatori dalla previsione della struttura delle proteine.

    "Voglio emarginare la struttura, " dice il primo autore Tristan Bepler, uno studente laureato nel gruppo di Calcolo e Biologia nel Laboratorio di Informatica e Intelligenza Artificiale (CSAIL). "Vogliamo sapere cosa fanno le proteine, e conoscere la struttura è importante per questo. Ma possiamo prevedere la funzione di una proteina data solo la sua sequenza di amminoacidi? La motivazione è quella di allontanarsi da strutture specificamente predittive, e andare verso [scoprire] come le sequenze di amminoacidi si riferiscono alla funzione."

    Insieme a Bepler c'è la co-autrice Bonnie Berger, il Simons Professor of Mathematics al MIT con una posizione di facoltà congiunta nel Dipartimento di Ingegneria Elettrica e Informatica, e capo del gruppo di Calcolo e Biologia.

    Imparare dalla struttura

    Invece di prevedere direttamente la struttura, come tentano i modelli tradizionali, i ricercatori hanno codificato le informazioni strutturali delle proteine ​​previste direttamente nelle rappresentazioni. Fare così, usano somiglianze strutturali note delle proteine ​​per supervisionare il loro modello, mentre il modello apprende le funzioni di specifici amminoacidi.

    Hanno addestrato il loro modello su circa 22, 000 proteine ​​dal database di classificazione strutturale delle proteine ​​(SCOP), che contiene migliaia di proteine ​​organizzate in classi da somiglianze di strutture e sequenze di amminoacidi. Per ogni coppia di proteine, hanno calcolato un punteggio di somiglianza reale, significa quanto sono vicini nella struttura, in base alla loro classe SCOP.

    I ricercatori hanno quindi alimentato il loro modello di coppie casuali di strutture proteiche e le loro sequenze di amminoacidi, che sono stati convertiti in rappresentazioni numeriche chiamate incorporamenti da un codificatore. Nell'elaborazione del linguaggio naturale, gli embedding sono essenzialmente tabelle di diverse centinaia di numeri combinati in modo che corrispondano a una lettera oa una parola in una frase. I due incorporamenti più simili sono, più è probabile che le lettere o le parole compaiano insieme in una frase.

    Nel lavoro dei ricercatori, ogni inclusione nella coppia contiene informazioni su quanto ciascuna sequenza di amminoacidi sia simile all'altra. Il modello allinea i due incorporamenti e calcola un punteggio di somiglianza per quindi prevedere quanto simili saranno le loro strutture 3D. Quindi, il modello confronta il suo punteggio di somiglianza previsto con il punteggio di somiglianza SCOP reale per la loro struttura, e invia un segnale di feedback all'encoder.

    Contemporaneamente, il modello prevede una "mappa dei contatti" per ogni inclusione, che sostanzialmente dice quanto è lontano ogni amminoacido da tutti gli altri nella struttura 3-D prevista della proteina, essenzialmente, entrano in contatto o no? Il modello confronta anche la mappa dei contatti prevista con la mappa dei contatti nota di SCOP, e invia un segnale di feedback all'encoder. Questo aiuta il modello a capire meglio dove cadono esattamente gli amminoacidi nella struttura di una proteina, che aggiorna ulteriormente la funzione di ciascun amminoacido.

    Fondamentalmente, i ricercatori addestrano il loro modello chiedendogli di prevedere se gli incorporamenti di sequenze accoppiate condivideranno o meno una struttura proteica SCOP simile. Se il punteggio previsto del modello è vicino al punteggio reale, sa di essere sulla strada giusta; altrimenti, si regola.

    Progettazione di proteine

    Alla fine, per una catena di amminoacidi immessa, il modello produrrà una rappresentazione numerica, o incorporamento, per ogni posizione amminoacidica in una struttura 3-D. I modelli di apprendimento automatico possono quindi utilizzare tali incorporamenti di sequenza per prevedere con precisione la funzione di ciascun amminoacido in base al "contesto" strutturale 3-D previsto:la sua posizione e il contatto con altri amminoacidi.

    Ad esempio, i ricercatori hanno utilizzato il modello per prevedere quali segmenti, se del caso, passare attraverso la membrana cellulare. Data solo una sequenza di amminoacidi, il modello dei ricercatori ha previsto tutti i segmenti transmembrana e non transmembrana in modo più accurato rispetto ai modelli all'avanguardia.

    "Il lavoro di Bepler e Berger è un progresso significativo nel rappresentare le proprietà strutturali locali di una sequenza proteica, "dice Serafim Batzoglou, professore di informatica alla Stanford University. "La rappresentazione viene appresa utilizzando metodi di deep learning all'avanguardia, che hanno fatto passi da gigante nella previsione della struttura proteica in sistemi come RaptorX e AlphaFold. Questo lavoro ha un'applicazione definitiva nella salute umana e nella farmacogenomica, in quanto facilita il rilevamento di mutazioni deleterie che distruggono le strutture proteiche".

    Prossimo, i ricercatori mirano ad applicare il modello a più compiti di previsione, come capire quali segmenti di sequenza si legano a piccole molecole, che è fondamentale per lo sviluppo di farmaci. Stanno anche lavorando sull'utilizzo del modello per la progettazione delle proteine. Usando i loro incorporamenti di sequenza, possono prevedere, dire, a quali lunghezze d'onda di colore una proteina diventa fluorescente.

    "Il nostro modello ci consente di trasferire informazioni da strutture proteiche note a sequenze con struttura sconosciuta. Utilizzando i nostri incorporamenti come caratteristiche, possiamo prevedere meglio la funzione e consentire una progettazione proteica basata sui dati più efficiente, " dice Bepler. "A un livello alto, quel tipo di ingegneria proteica è l'obiettivo."

    Berger aggiunge:"I nostri modelli di apprendimento automatico ci consentono quindi di apprendere il 'linguaggio' del ripiegamento delle proteine, uno dei problemi originali del 'Santo Graal', da un numero relativamente piccolo di strutture conosciute".

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.




    © Scienza https://it.scienceaq.com