• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  Science >> Scienza >  >> Biologia
    L’intelligenza artificiale può aiutare i ricercatori a capire cosa stanno facendo i virus negli oceani e nel nostro intestino

    Credito:dominio pubblico Pixabay/CC0

    I virus sono una forza misteriosa e poco compresa negli ecosistemi microbici. I ricercatori sanno che possono infettare, uccidere e manipolare le cellule umane e batteriche in quasi ogni ambiente, dagli oceani all’intestino. Ma gli scienziati non hanno ancora un quadro completo di come i virus influenzano l'ambiente circostante, in gran parte a causa della loro straordinaria diversità e capacità di evolversi rapidamente.



    Le comunità di microbi sono difficili da studiare in un ambiente di laboratorio. Molti microbi sono difficili da coltivare e il loro ambiente naturale ha molte più caratteristiche che ne influenzano il successo o il fallimento di quante gli scienziati possano replicare in laboratorio.

    Quindi i biologi di sistema come me spesso sequenziano tutto il DNA presente in un campione – ad esempio, un campione fecale di un paziente – separano le sequenze di DNA virale, quindi annotano le sezioni del genoma virale che codificano per le proteine. Queste note sulla posizione, la struttura e altre caratteristiche dei geni aiutano i ricercatori a comprendere le funzioni che i virus potrebbero svolgere nell’ambiente e aiutano a identificare diversi tipi di virus. I ricercatori annotano i virus abbinando le sequenze virali in un campione alle sequenze precedentemente annotate disponibili nei database pubblici di sequenze genetiche virali.

    Tuttavia, gli scienziati stanno identificando sequenze virali nel DNA raccolto dall’ambiente a una velocità che supera di gran lunga la nostra capacità di annotare quei geni. Ciò significa che i ricercatori stanno pubblicando scoperte sui virus negli ecosistemi microbici utilizzando frazioni inaccettabilmente piccole di dati disponibili.

    Per migliorare la capacità dei ricercatori di studiare i virus in tutto il mondo, io e il mio team abbiamo sviluppato un nuovo approccio per annotare le sequenze virali utilizzando l’intelligenza artificiale. Attraverso modelli di linguaggio proteico simili a modelli linguistici di grandi dimensioni come ChatGPT ma specifici per le proteine, siamo stati in grado di classificare sequenze virali mai viste prima. Ciò apre la strada ai ricercatori non solo per saperne di più sui virus, ma anche per affrontare questioni biologiche a cui è difficile rispondere con le tecniche attuali.

    Annotare i virus con l'intelligenza artificiale

    I modelli linguistici di grandi dimensioni utilizzano le relazioni tra le parole in grandi set di dati di testo per fornire potenziali risposte a domande a cui non viene esplicitamente "insegnata" la risposta. Quando chiedi a un chatbot "Qual è la capitale della Francia?" ad esempio, il modello non cerca la risposta in una tabella delle capitali. Piuttosto, sta utilizzando la sua formazione su enormi set di dati di documenti e informazioni per dedurre la risposta:"La capitale della Francia è Parigi".

    Allo stesso modo, i modelli del linguaggio proteico sono algoritmi di intelligenza artificiale addestrati a riconoscere le relazioni tra miliardi di sequenze proteiche provenienti da ambienti di tutto il mondo. Attraverso questa formazione, potrebbero essere in grado di dedurre qualcosa sull'essenza delle proteine ​​virali e sulle loro funzioni.

    Ci siamo chiesti se i modelli del linguaggio delle proteine ​​potessero rispondere a questa domanda:"Date tutte le sequenze genetiche virali annotate, qual è la funzione di questa nuova sequenza?"

    Nella nostra prova di concetto, abbiamo addestrato reti neurali su sequenze di proteine ​​virali precedentemente annotate in modelli di linguaggio proteico pre-addestrati e poi le abbiamo utilizzate per prevedere l’annotazione di nuove sequenze di proteine ​​virali. Il nostro approccio ci consente di sondare ciò che il modello "vede" in una particolare sequenza virale che porta a una particolare annotazione. Ciò aiuta a identificare le proteine ​​candidate di interesse in base alle loro funzioni specifiche o al modo in cui è organizzato il loro genoma, restringendo lo spazio di ricerca di vasti set di dati.

    Identificando funzioni genetiche virali più lontanamente correlate, i modelli del linguaggio proteico possono integrare i metodi attuali per fornire nuove informazioni sulla microbiologia. Ad esempio, io e il mio team siamo stati in grado di utilizzare il nostro modello per scoprire un’integrasi precedentemente non riconosciuta – un tipo di proteina che può spostare informazioni genetiche dentro e fuori le cellule – nei picocianobatteri marini Prophylococcus e Synechococcus, abbondanti in tutto il mondo. In particolare, questa integrasi potrebbe essere in grado di spostare i geni dentro e fuori queste popolazioni di batteri negli oceani e consentire a questi microbi di adattarsi meglio ai cambiamenti ambientali.

    Il nostro modello linguistico ha anche identificato una nuova proteina virale del capside diffusa negli oceani globali. Abbiamo prodotto la prima immagine di come sono disposti i suoi geni, dimostrando che può contenere diversi set di geni che, a nostro avviso, indicano che questo virus svolge funzioni diverse nel suo ambiente.

    Questi risultati preliminari rappresentano solo due delle migliaia di annotazioni fornite dal nostro approccio.

    Analizzare l'ignoto

    La maggior parte delle centinaia di migliaia di virus appena scoperti rimangono non classificati. Molte sequenze genetiche virali corrispondono a famiglie di proteine ​​con una funzione sconosciuta o mai viste prima. Il nostro lavoro mostra che modelli simili del linguaggio delle proteine ​​potrebbero aiutare a studiare la minaccia e la promessa dei numerosi virus non caratterizzati del nostro pianeta.

    Sebbene il nostro studio si sia concentrato sui virus negli oceani globali, una migliore annotazione delle proteine ​​virali è fondamentale per comprendere meglio il ruolo che i virus svolgono nella salute e nelle malattie del corpo umano. Noi e altri ricercatori abbiamo ipotizzato che l’attività virale nel microbioma intestinale umano potrebbe essere alterata quando si è malati. Ciò significa che i virus possono aiutare a identificare lo stress nelle comunità microbiche.

    Tuttavia, il nostro approccio è anche limitato perché richiede annotazioni di alta qualità. I ricercatori stanno sviluppando nuovi modelli di linguaggio proteico che incorporano altri "compiti" come parte della loro formazione, in particolare prevedere le strutture proteiche per rilevare proteine ​​simili, per renderle più potenti.

    Rendere disponibili tutti gli strumenti di intelligenza artificiale tramite FAIR Data Principles (dati reperibili, accessibili, interoperabili e riutilizzabili) può aiutare i ricercatori in generale a realizzare il potenziale di questi nuovi modi di annotare sequenze proteiche che portano a scoperte a beneficio della salute umana.

    Fornito da The Conversation

    Questo articolo è ripubblicato da The Conversation sotto una licenza Creative Commons. Leggi l'articolo originale.




    © Scienza https://it.scienceaq.com