• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  science >> Scienza >  >> Biologia
    Nuovo metodo statistico per valutare la riproducibilità negli studi sull'organizzazione del genoma

    Rappresentazione schematica del metodo HiCRep. HiCRep utilizza due passaggi per valutare con precisione la riproducibilità dei dati dagli esperimenti Hi-C. Passaggio 1:i dati degli esperimenti Hi-C (rappresentati in grafici triangolari) vengono prima smussati per consentire ai ricercatori di vedere più chiaramente le tendenze nei dati. Passaggio 2:i dati vengono stratificati in base alla distanza per tenere conto della sovrabbondanza di interazioni vicine nei dati Hi-C. Credito:Laboratorio Li, Penn State University

    Un nuovo metodo statistico per valutare la riproducibilità dei dati da Hi-C, uno strumento all'avanguardia per studiare come funziona il genoma in tre dimensioni all'interno di una cellula, contribuirà a garantire che i dati in questi studi sui "big data" siano affidabili.

    "Hi-C cattura le interazioni fisiche tra le diverse regioni del genoma, " disse Qunhua Li, assistente professore di statistica alla Penn State e autore principale dell'articolo. "Queste interazioni giocano un ruolo nel determinare cosa rende una cellula muscolare una cellula muscolare invece di una cellula nervosa o cancerosa. Tuttavia, le misure standard per valutare la riproducibilità dei dati spesso non possono dire se due campioni provengono dallo stesso tipo di cellula o da tipi di cellule completamente non correlati. Ciò rende difficile giudicare se i dati sono riproducibili. Abbiamo sviluppato un nuovo metodo per valutare con precisione la riproducibilità dei dati Hi-C, che consentirà ai ricercatori di interpretare con maggiore sicurezza la biologia dai dati".

    Il nuovo metodo, chiamato HiCRep, sviluppato da un team di ricercatori della Penn State e dell'Università di Washington, è il primo a spiegare una caratteristica unica dei dati Hi-C:è molto più probabile che le interazioni tra regioni del genoma vicine tra loro accadano per caso e quindi creino spurie, o falso, somiglianza tra campioni non correlati. Un articolo che descrive il nuovo metodo appare sulla rivista Ricerca sul genoma .

    "Con l'enorme quantità di dati che viene prodotta negli studi sull'intero genoma, è fondamentale garantire la qualità dei dati, " ha detto Li. "Con tecnologie ad alto rendimento come Hi-C, siamo in grado di acquisire nuove informazioni su come funziona il genoma all'interno di una cellula, ma solo se i dati sono affidabili e riproducibili."

    All'interno del nucleo di una cellula c'è un'enorme quantità di materiale genetico sotto forma di cromosomi, molecole estremamente lunghe fatte di DNA e proteine. I cromosomi, che contengono i geni e le sequenze regolatorie di DNA che controllano quando e dove vengono utilizzati i geni, sono organizzati e confezionati in una struttura chiamata cromatina. Il destino della cellula, se diventa un muscolo o una cellula nervosa, Per esempio, dipende, almeno in parte, su quali parti della struttura della cromatina è accessibile per l'espressione dei geni, quali parti sono chiuse, e come interagiscono queste regioni. HiC identifica queste interazioni bloccando insieme le regioni interagenti del genoma, isolandoli, e poi sequenziarli per scoprire da dove provenivano nel genoma.

    Il metodo HiCRep è in grado di ricostruire con precisione la relazione biologica tra diversi tipi cellulari, dove altri metodi falliscono. Credito:Laboratorio Li, Penn State University

    "È un po' come una gigantesca ciotola di spaghetti in cui ogni punto in cui vengono toccati i noodles potrebbe essere un'interazione biologicamente importante, " ha detto Li. "Hi-C trova tutte queste interazioni, ma la stragrande maggioranza di essi si verifica tra regioni del genoma che sono molto vicine tra loro sui cromosomi e non hanno funzioni biologiche specifiche. Una conseguenza di ciò è che la forza dei segnali dipende fortemente dalla distanza tra le regioni di interazione. Ciò rende estremamente difficile per le misure di riproducibilità comunemente utilizzate, come coefficienti di correlazione, per differenziare i dati Hi-C perché questo modello può sembrare molto simile anche tra tipi di cellule molto diversi. Il nostro nuovo metodo tiene conto di questa caratteristica di Hi-C e ci consente di distinguere in modo affidabile diversi tipi di cellule".

    "Questo ci riporta una lezione statistica di base che spesso viene trascurata sul campo, " disse Li. "Molto spesso, la correlazione è trattata come un proxy di riproducibilità in molte discipline scientifiche, ma in realtà non sono la stessa cosa. La correlazione riguarda la forza della relazione tra due oggetti. Due oggetti irrilevanti possono avere un'elevata correlazione essendo correlati a un fattore comune. Questo è il caso qui. La distanza è il fattore comune nascosto nei dati Hi-C che guida la correlazione, facendo in modo che la correlazione non rifletta le informazioni di interesse. Ironia della sorte, mentre questo fenomeno, noto come effetto confondente in termini statistici, è discusso in ogni corso elementare di statistica, è ancora abbastanza sorprendente vedere quanto spesso venga trascurato nella pratica, anche tra scienziati ben preparati".

    I ricercatori hanno progettato HiCRep per tenere conto sistematicamente di questa caratteristica dei dati Hi-C dipendente dalla distanza. Per realizzare ciò, i ricercatori prima levigano i dati per consentire loro di vedere più chiaramente le tendenze nei dati. Hanno quindi sviluppato una nuova misura di somiglianza che è in grado di distinguere più facilmente i dati da diversi tipi di cellule stratificando le interazioni in base alla distanza tra le due regioni. "È come studiare l'effetto del trattamento farmacologico per una popolazione con età molto diverse. La stratificazione per età ci aiuta a concentrarci sull'effetto della droga. Per il nostro caso, stratificare per distanza ci aiuta a concentrarci sulla vera relazione tra i campioni".

    Per testare il loro metodo, il team di ricerca ha valutato i dati Hi-C da diversi tipi di cellule utilizzando HiCRep e due metodi tradizionali. Laddove i metodi tradizionali sono stati inciampati da correlazioni spurie basate sull'eccesso di interazioni vicine, HiCRep è stato in grado di differenziare in modo affidabile i tipi di cellule. Inoltre, HiCRep potrebbe quantificare la quantità di differenza tra i tipi di cellule e ricostruire con precisione quali cellule erano più strettamente correlate tra loro.


    © Scienza https://it.scienceaq.com