Mihai Pop, professore di informatica presso l'Università del Maryland con un incarico congiunto presso l'Istituto per gli studi informatici avanzati dell'Università del Maryland. Credito:John T. Consoli, Università del Maryland
Comunità di batteri vivono ovunque:all'interno del nostro corpo, sui nostri corpi e intorno a noi. L'intestino umano da solo contiene centinaia di specie di batteri che aiutano a digerire il cibo e forniscono sostanze nutritive, ma può anche farci ammalare. Per saperne di più su questi gruppi di batteri e su come influenzano le nostre vite, gli scienziati devono studiarli. Ma questo compito pone delle sfide, perché portare i batteri in laboratorio è impossibile o interromperebbe i processi biologici che gli scienziati desiderano studiare.
Per aggirare queste difficoltà, gli scienziati si sono rivolti al campo della metagenomica. Nella metagenomica, i ricercatori utilizzano algoritmi per mettere insieme il DNA di un campione ambientale per determinare il tipo e il ruolo dei batteri presenti. A differenza di campi consolidati come la chimica, dove i ricercatori valutano i loro risultati rispetto a una serie di standard noti, la metagenomica è un campo relativamente giovane che manca di tali parametri di riferimento.
Mihai Pop, professore di informatica presso l'Università del Maryland con un incarico congiunto presso l'Istituto per gli studi informatici avanzati dell'Università del Maryland, ha recentemente contribuito a giudicare una sfida internazionale chiamata Critical Assessment of Metagenome Interpretation (CAMI), che ha confrontato il software di metagenomica. I risultati sono stati pubblicati sulla rivista Metodi della natura il 2 ottobre, 2017.
"Non esiste un algoritmo che possiamo dire sia il migliore in tutto, "ha detto papà, che è anche co-direttore del Center for Health-related Informatics and Bioimaging presso l'UMD. "Abbiamo scoperto che uno strumento funziona meglio in un contesto, ma un altro fa meglio in un altro contesto. È importante che i ricercatori sappiano che devono scegliere il software in base alle domande specifiche a cui stanno cercando di rispondere".
I risultati dello studio non sono stati sorprendenti per Pop, a causa delle numerose sfide che gli sviluppatori di software di metagenomica devono affrontare. Primo, L'analisi del DNA è impegnativa nella metagenomica perché il DNA recuperato spesso proviene dal campo, non un ambiente di laboratorio strettamente controllato. Inoltre, Il DNA di molti organismi, alcuni dei quali potrebbero non avere genomi conosciuti, si mescolano in un campione, rendendo difficile il montaggio corretto, o mettere insieme, genomi individuali. Inoltre, Il DNA si degrada in ambienti difficili.
"Mi piace pensare alla metagenomica come a un nuovo tipo di microscopio, " Pop ha detto. "Ai vecchi tempi, useresti un microscopio per studiare i batteri. Ora abbiamo un microscopio molto più potente, che è il sequenziamento del DNA accoppiato con algoritmi avanzati. La metagenomica mantiene la promessa di aiutarci a capire cosa fanno i batteri nel mondo. Ma prima dobbiamo mettere a punto quel microscopio".
Il leader di CAMI ha invitato Pop ad aiutare a valutare le proposte sfidando i partecipanti a causa della sua esperienza nell'assemblaggio del genoma e del metagenoma. Nel 2009, Pop ha aiutato a pubblicare Bowtie, uno dei pacchetti software più comunemente utilizzati per l'assemblaggio di genomi. Più recentemente, ha collaborato con l'Università del Maryland School of Medicine per analizzare centinaia di migliaia di sequenze geniche come parte del più grande, studio più completo sulle malattie diarroiche infantili mai condotto nei paesi in via di sviluppo.
"Abbiamo scoperto di nuovo, batteri sconosciuti che causano malattie diarroiche, e abbiamo anche trovato interazioni tra batteri che potrebbero peggiorare o migliorare la malattia, " Pop ha detto. "Sento che è uno dei progetti di maggior impatto che ho realizzato utilizzando la metagenomica".
Per il concorso, I ricercatori CAMI hanno combinato circa 700 genomi microbici e 600 genomi virali con altre fonti di DNA e hanno simulato come una tale raccolta di DNA potrebbe apparire sul campo. Il compito dei partecipanti era ricostruire e analizzare i genomi del pool di DNA simulato.
I ricercatori CAMI hanno valutato le presentazioni dei partecipanti in tre aree:quanto bene hanno assemblato i genomi frammentati; quanto bene hanno "cestinato, "o organizzato, Frammenti di DNA in gruppi correlati per determinare le famiglie di organismi nella miscela; e come bene hanno "profilato, "o ricostruito, l'identità e la relativa abbondanza degli organismi presenti nella miscela. Pop ha fornito metriche e software per valutare i genomi assemblati presentati.
Diciannove gruppi hanno presentato 215 voci utilizzando sei assemblatori di genomi, nove raccoglitori e 10 profiler per affrontare questa sfida.
I risultati hanno mostrato che per il montaggio, gli algoritmi che hanno messo insieme un genoma utilizzando diverse lunghezze di frammenti di DNA più piccoli hanno superato quelli che hanno utilizzato frammenti di DNA di lunghezza fissa. Però, nessun assemblatore è stato bravo a separare i diversi, ancora genomi simili.
Per il compito di raccolta, i ricercatori hanno trovato dei compromessi nell'accuratezza con cui i programmi software hanno identificato il gruppo a cui apparteneva un particolare frammento di DNA, rispetto a quanti frammenti di DNA il software ha assegnato a qualsiasi gruppo. Questo risultato suggerisce che i ricercatori devono scegliere il loro software di raccolta in base al fatto che l'accuratezza o la copertura siano più importanti. Inoltre, le prestazioni di tutti gli algoritmi di binning sono diminuite quando i campioni includevano più genomi correlati.
Nella profilazione, il software ha recuperato meglio l'abbondanza relativa di batteri nel campione o ha rilevato meglio gli organismi, anche a quantità molto basse. Però, questi ultimi algoritmi identificavano più spesso l'organismo sbagliato.
Andando avanti, Pop ha affermato che il gruppo CAMI continuerà a eseguire nuove sfide con diversi set di dati e nuove valutazioni mirate ad aspetti più specifici delle prestazioni del software. Pop è entusiasta di vedere gli scienziati utilizzare i benchmark per affrontare le domande di ricerca in laboratorio e in clinica.
"Il campo della metagenomica ha bisogno di standard per garantire che i risultati siano corretti, ben convalidato e seguire le migliori pratiche, " Pop ha detto. "Per esempio, se un medico sta per mettere in scena un intervento basato sui risultati del software metagenomico, è essenziale che questi risultati siano corretti. Il nostro lavoro fornisce una tabella di marcia per la scelta del software appropriato."