• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  Science >> Scienza >  >> Biologia
    Gli ingegneri sviluppano strumenti software innovativi per l'analisi del microbioma
    Credito:dominio pubblico CC0

    Da quando il primo genoma microbico è stato sequenziato nel 1995, gli scienziati hanno ricostruito la composizione genomica di centinaia di migliaia di microrganismi e hanno persino ideato metodi per censire le comunità batteriche sulla pelle, nell’intestino o nel suolo, nell’acqua e in altri luoghi. su campioni sfusi, portando all'emergere di un campo di studio relativamente nuovo noto come metagenomica.



    Analizzare i dati metagenomici può essere un compito arduo, proprio come provare a mettere insieme diversi enormi puzzle con tutti i pezzi mescolati insieme. Affrontando questa sfida computazionale unica, l'esperto di intelligenza artificiale (AI) della Rice University Santiago Segarra e il biologo computazionale Todd Treangen si sono uniti per esplorare come l'analisi dei dati basata sull'intelligenza artificiale potrebbe aiutare a creare nuovi strumenti per potenziare la ricerca metagenomica.

    Il duo di scienziati si è concentrato su due tipi di dati che rendono l'analisi metagenomica particolarmente impegnativa (ripetizioni e varianti strutturali) e ha sviluppato strumenti per gestire questi tipi di dati che superano i metodi attuali.

    Le ripetizioni sono sequenze di DNA identiche che si verificano ripetutamente sia nel genoma di singoli organismi che in più genomi in una comunità di organismi.

    "Il DNA in un campione metagenomico proveniente da più organismi può essere rappresentato come un grafico", ha affermato Segarra, assistente professore di ingegneria elettrica e informatica.

    "In sostanza, uno degli strumenti che abbiamo sviluppato sfrutta la struttura di questo grafico per determinare quali pezzi di DNA compaiono ripetutamente tra i microbi o all'interno dello stesso microrganismo."

    Denominato GraSSRep, il metodo combina l'apprendimento autosuperato, un processo di apprendimento automatico in cui un modello di intelligenza artificiale si addestra a distinguere tra input nascosti e disponibili, e reti neurali grafiche, sistemi che elaborano i dati che rappresentano oggetti e le loro interconnessioni come grafici.

    Il documento, disponibile anche su arXiv server di prestampa, è stato presentato alla 28a sessione di una conferenza internazionale annuale sulla ricerca in biologia molecolare computazionale, RECOMB 2024. Il progetto è stato guidato dallo studente laureato e assistente di ricerca della Rice Ali Azizpour. Anche Advait Balaji, ex studente del dottorato della Rice, è un autore dello studio.

    Le ripetizioni sono interessanti perché svolgono un ruolo significativo nei processi biologici come la risposta dei batteri ai cambiamenti nel loro ambiente o l'interazione dei microbiomi con gli organismi ospiti. Un esempio specifico di fenomeno in cui le ripetizioni possono svolgere un ruolo è la resistenza agli antibiotici.

    In generale, il monitoraggio della storia o delle dinamiche delle ripetizioni in un genoma batterico può far luce sulle strategie di adattamento o evoluzione dei microrganismi. Inoltre, le ripetizioni a volte possono essere in realtà virus sotto mentite spoglie o batteriofagi. Dalla parola greca "divorare", i fagi vengono talvolta utilizzati per uccidere i batteri.

    "Questi fagi in realtà appaiono come ripetizioni, quindi è possibile tracciare le dinamiche dei batteri-fagi in base alle ripetizioni contenute nei genomi", ha affermato Treangen, professore associato di informatica.

    "Questo potrebbe fornire indizi su come eliminare i batteri difficili da uccidere o dipingere un quadro più chiaro di come questi virus interagiscono con una comunità batterica."

    In precedenza, quando veniva utilizzato un approccio basato su grafici per eseguire il rilevamento ripetuto, i ricercatori utilizzavano specifiche predefinite su cosa cercare nei dati del grafico. Ciò che distingue GraSSRep da questi approcci precedenti è la mancanza di parametri o riferimenti predefiniti che indichino come vengono elaborati i dati.

    "Il nostro metodo impara come utilizzare meglio la struttura del grafico per rilevare le ripetizioni invece di fare affidamento sull'input iniziale", ha affermato Segarra. "L'apprendimento auto-supervisionato consente a questo strumento di addestrarsi da solo in assenza di qualsiasi verità fondamentale che stabilisca cosa è una ripetizione e cosa non lo è. Quando maneggi un campione metagenomico, non è necessario sapere nulla su cosa c'è dentro lì per analizzarlo."

    Lo stesso vale nel caso di un altro metodo di analisi metagenomica sviluppato in collaborazione da Segarra e Treangen:rilevamento di varianti strutturali senza riferimento nei microbiomi tramite grafici di coassemblaggio a lettura lunga, o nandù. Il loro articolo sul nandù sarà presentato alla conferenza annuale della International Society for Computational Biology, che si svolgerà dal 12 al 16 luglio a Montreal.

    L'autrice principale dell'articolo è Kristen Curry, ex studentessa del dottorato in informatica della Rice, che entrerà a far parte del laboratorio di Rayan Chikhi, anche lui coautore dell'articolo, presso l'Institut Pasteur di Parigi come scienziata post-dottorato. Una versione dell'articolo è disponibile su bioRxiv server di prestampa.

    Mentre GraSSRep è progettato per gestire le ripetizioni, il nandù gestisce le varianti strutturali, che sono alterazioni genomiche di 10 paia di basi o più rilevanti per la medicina e la biologia molecolare a causa del loro ruolo in varie malattie, regolazione dell'espressione genica, dinamiche evolutive e promozione della diversità genetica all'interno delle popolazioni e tra le specie.

    "Identificare le varianti strutturali nei genomi isolati è relativamente semplice, ma è più difficile farlo nei metagenomi dove non esiste un genoma di riferimento chiaro per aiutare a classificare i dati", ha detto Treangen.

    Attualmente uno dei metodi ampiamente utilizzati per l'elaborazione dei dati metagenomici è attraverso genomi o MAG assemblati nel metagenoma.

    "Questi assemblatori de novo o guidati da riferimenti sono strumenti piuttosto consolidati che comportano un'intera pipeline operativa con il rilevamento ripetuto o l'identificazione di varianti strutturali che sono solo alcune delle loro funzionalità", ha affermato Segarra.

    "Una cosa che stiamo esaminando è sostituire gli algoritmi esistenti con i nostri e vedere come ciò possa migliorare le prestazioni di questi assemblatori metagenomici molto utilizzati."

    Rhea non ha bisogno di genomi di riferimento o MAG per rilevare varianti strutturali e, quando testato rispetto a due metagenomi fittizi, ha sovraperformato i metodi che si basano su parametri prespecificati.

    "Ciò è stato particolarmente evidente perché abbiamo ottenuto una lettura dei dati molto più granulare rispetto a quella ottenuta utilizzando i genomi di riferimento", ha affermato Segarra.

    "L'altra cosa che stiamo attualmente esaminando è applicare lo strumento a set di dati del mondo reale e vedere come i risultati si collegano ai processi biologici e quali informazioni questo potrebbe fornirci."

    Treangen ha affermato che GraSSRep e nandù combinati, basandosi sui precedenti contributi nell'area, hanno il potenziale "per sbloccare le regole sottostanti della vita che governano l'evoluzione microbica".

    I progetti sono il risultato di una collaborazione durata anni tra i laboratori Segarra e Treangen.

    "Questo è il risultato di una ricerca collaborativa pluriennale in diverse aree di competenza, che ha consentito ai nostri studenti Ali e Kristen di sfidare i paradigmi esistenti e sviluppare nuovi approcci ai problemi esistenti nella metagenomica", ha affermato Treangen.

    Ulteriori informazioni: Ali Azizpour et al, GraSSRep:Apprendimento autosupervisionato basato su grafici per il rilevamento ripetuto nell'assemblaggio metagenomico, arXiv (2024). DOI:10.48550/arxiv.2402.09381

    Kristen D. Curry et al, Rilevamento di varianti strutturali senza riferimento nei microbiomi tramite grafici di coassemblaggio a lettura lunga, bioRxiv (2024). DOI:10.1101/2024.01.25.577285

    Informazioni sul giornale: bioRxiv , arXiv

    Fornito dalla Rice University




    © Scienza https://it.scienceaq.com