Tabella che mostra i risultati parziali degli assemblatori applicati al 1° CAMI Challenge, Set di dati 1. Fare clic qui per visualizzare la tabella completa.
Loro sono ovunque, ma invisibile ad occhio nudo. I microbi sono l'invisibile, forze influenti dietro la regolazione di processi ambientali chiave come il ciclo del carbonio, eppure la maggior parte di loro rimane sconosciuta. Da più di un decennio, il Dipartimento dell'Energia degli Stati Uniti Joint Genome Institute (DOE JGI), una struttura per gli utenti dell'Office of Science del DOE, ha consentito ai ricercatori di studiare microbi non coltivati incapaci di crescere in laboratorio, utilizzando approcci all'avanguardia come il sequenziamento genomico ad alto rendimento delle comunità ambientali ("metagenomica") e lo sviluppo di strumenti computazionali per scoprire e caratterizzare le comunità microbiche dall'ambiente. Per affrontare l'assemblaggio di metagenomi in un insieme di segmenti di DNA sovrapposti che insieme rappresentano una regione di consenso di DNA o contig, quindi raggruppando questi contig nei contenitori del genoma, e infine conducendo il profilo tassonomico dei contenitori del genoma, analisti di tutto il mondo hanno sviluppato una serie di diversi strumenti di calcolo, tuttavia fino ad ora c'era una mancanza di consenso su come valutare le loro prestazioni.
Pubblicato il 2 ottobre 2017 in Metodi della natura , un team di ricercatori DOE JGI ha descritto i risultati della sfida CAMI (Critical Assessment of Metagenome Interpretation), il primo in assoluto, valutazione di benchmarking organizzata dalla comunità di strumenti computazionali per metagenomi. La CAMI Challenge è stata guidata da Alexander Sczyrba, capo del gruppo di metagenomica computazionale presso l'Università di Bielefeld e precedentemente borsista post-dottorato DOE JGI, e Alice McHardy, capo del laboratorio di ricerca sulla biologia computazionale delle infezioni presso il Centro Helmholtz per la ricerca sulle infezioni.
"È molto difficile per i ricercatori scoprire quale programma utilizzare per un particolare set di dati e analisi sulla base dei risultati dei documenti sui metodi, " ha detto McHardy. "I set di dati e le misure di valutazione utilizzati nelle valutazioni variano ampiamente. Un altro problema è che gli sviluppatori di solito trascorrono molto tempo a confrontare lo stato dell'arte quando valutano le prestazioni del nuovo software in questo modo. CAMI vuole cambiare queste cose e coinvolge la comunità nella definizione degli standard e delle migliori pratiche per la valutazione e nell'applicazione di questi principi nelle sfide di benchmarking".
La CAMI Challenge si è svolta nell'arco di tre mesi nel 2015. Per valutare gli strumenti di calcolo, gli organizzatori hanno sviluppato 3 set di dati metagenomici simulati utilizzando più di 300 bozze di genomi di isolati batterici e archeali sequenziati e assemblati dal DOE JGI, che facevano parte del progetto Genomic Encyclopedia of Bacteria and Archaeal pubblicato di recente in Biotecnologie naturali . Questi genomi sono stati condivisi con il consorzio CAMI Challenges prima di essere rilasciati al pubblico per facilitare il benchmarking oggettivo di diversi strumenti. I set di dati includevano anche circa lo stesso numero di genomi del Max Planck Institute di Colonia, Germania, insieme a elementi circolari e virus. I set di dati simulati erano un singolo set di dati campione di 15 miliardi di basi (Gb), un dataset da 40 Gb con 40 genomi e 20 elementi circolari, e un set di dati di serie temporali da 75 Gb composto da cinque campioni e comprendente centinaia di genomi ed elementi circolari.
"JGI ha un forte interesse nel benchmarking di strumenti e tecnologie che farebbero avanzare l'analisi dei metagenomi e migliorerebbero la qualità dei dati che forniamo agli utenti. Avendo pubblicato il primissimo studio sull'uso di set di dati simulati per il benchmarking degli strumenti di metagenomica dal JGI, è bello vedere come questa metodologia si sia espansa nel corso degli anni e ora attraverso questo studio, evolversi in un modello per gli sforzi comunitari standardizzati nel campo, " disse Nikos Kyrpides, Responsabile del Super Programma Procarioti DOE JGI.
"JGI è molto impegnato non solo nel benchmarking dei protocolli di laboratorio, ma anche flussi di lavoro computazionali, " ha aggiunto Tanja Woyke, capo della DOE JGI Microbial Genomics. "Questo rende così importante la nostra partecipazione a iniziative comunitarie critiche come CAMI".
Con più di 40 squadre iscritte alla Challenge, e gli organizzatori CAMI hanno ricevuto 215 proposte da 25 programmi in tutto il mondo, sebbene solo 17 team fossero disposti a pubblicare le proprie implementazioni software. Gli organizzatori di CAMI hanno valutato gli strumenti di calcolo in 3 categorie. Una mezza dozzina di assemblatori e pipeline di assemblaggio sono stati valutati sull'assemblaggio di sequenze genomiche generate da tecnologie di sequenziamento a lettura breve. Nella sfida del binning, five genome binners and 4 taxonomic binners were evaluated on criteria including the tools' efficacy in recovering individual genomes. Finalmente, 10 taxonomic profilers with various parameter settings were evaluated on how well they could predict the identities and relative abundances of the microbes and circular elements. The benchmarking results are available on https://data.cami-challenge.org/results.
The CAMI organizers are already planning future benchmarking challenges, for example to evaluate and aid method development for long read sequencing technologies. "CAMI is an ongoing initiative, " noted Sczyrba. "We are currently further automating the benchmarking and comparative result visualizations. And we invite everyone interested to join and work with CAMI on providing comprehensive performance overviews of the computational metagenomics toolkit, to inform developers about current challenges in computational metagenomics and applied scientists of the most suitable software for their research questions."