Credito:CC0 Dominio Pubblico
Gli scienziati informatici della Carnegie Mellon University hanno adottato un metodo di apprendimento profondo che ha rivoluzionato il riconoscimento facciale e altre applicazioni basate su immagini negli ultimi anni e ha reindirizzato il suo potere per esplorare la relazione tra i geni.
Il trucco, dicono, consiste nel trasformare enormi quantità di dati sull'espressione genica in qualcosa di più simile a un'immagine. Reti neurali convoluzionali (CNN), che sono abili nell'analizzare le immagini visive, può quindi dedurre quali geni interagiscono tra loro. Le CNN superano i metodi esistenti in questo compito.
Il rapporto dei ricercatori su come le CNN possono aiutare a identificare i geni correlati alla malattia e i percorsi genetici e di sviluppo che potrebbero essere bersagli per i farmaci è stato pubblicato oggi nel Atti dell'Accademia Nazionale delle Scienze . Ma Ziv Bar-Joseph, professore di biologia computazionale e apprendimento automatico, ha detto che le applicazioni per il nuovo metodo, chiamato CNNC, potrebbe andare ben oltre le interazioni genetiche.
La nuova intuizione descritta nel documento suggerisce che la CNNC potrebbe essere impiegata in modo simile per indagare sulla causalità in un'ampia varietà di fenomeni, inclusi dati finanziari e social network, disse Bar-Joseph, che è stato coautore del documento con Ye Yuan, un ricercatore post-dottorato nel Dipartimento di Machine Learning della CMU.
"CNN, che sono stati sviluppati un decennio fa, sono rivoluzionari, " Bar-Joseph ha detto. "Sono ancora sbalordito da Google Foto, che li utilizza per il riconoscimento facciale, " ha aggiunto mentre scorreva le foto sul suo smartphone, mostrando come l'app potrebbe identificare suo figlio in età diverse, o identificare suo padre in base a un'immagine della parte posteriore destra della sua testa. "A volte diamo per scontata questa tecnologia perché la usiamo sempre. Ma è incredibilmente potente e non si limita alle immagini. È tutta una questione di come rappresenti i tuoi dati".
In questo caso, lui e Yuan stavano esaminando le relazioni genetiche. I circa 20, 000 geni negli esseri umani lavorano di concerto, quindi è necessario sapere come i geni lavorano insieme in complessi o reti per comprendere lo sviluppo umano o le malattie.
Un modo per dedurre queste relazioni è osservare l'espressione genica, che rappresenta i livelli di attività dei geni nelle cellule. In genere, se il gene A è attivo nello stesso momento in cui il gene B è attivo, questo è un indizio che i due stanno interagendo, ha detto Yuan. Ancora, è possibile che questa sia una coincidenza o che entrambi siano attivati da un terzo gene C. Diversi metodi precedenti sono stati sviluppati per scoprire queste relazioni.
Per impiegare le CNN per aiutare ad analizzare le relazioni geniche, Yuan e Bar-Joseph hanno utilizzato dati di espressione di singole cellule, esperimenti che possono determinare il livello di ogni gene in una singola cellula. I risultati di centinaia di migliaia di queste analisi di singole cellule sono stati quindi disposti sotto forma di matrice o istogramma in modo che ogni cellula della matrice rappresentasse un diverso livello di coespressione per una coppia di geni.
Presentare i dati in questo modo ha aggiunto un aspetto spaziale che ha reso i dati più simili a immagini e, così, più accessibile alle CNN. Utilizzando i dati di geni le cui interazioni erano già state stabilite, i ricercatori sono stati in grado di addestrare le CNN a riconoscere quali geni stavano interagendo e quali non erano basati sui modelli visivi nella matrice dei dati, ha detto Yuan.
"È molto, molto difficile distinguere tra causalità e correlazione, "Yuan ha detto, ma il metodo CNNC si è dimostrato statisticamente più accurato dei metodi esistenti. Lui e Bar-Joseph prevedono che la CNNC sarà una delle numerose tecniche che i ricercatori alla fine utilizzeranno per analizzare grandi set di dati.
"Questo è un metodo molto generale che potrebbe essere applicato a una serie di analisi, " ha detto Bar-Joseph. Il limite principale sono i dati:più dati ci sono, le migliori CNN funzionano. La biologia cellulare è adatta per l'utilizzo del CNNC, come un tipico esperimento può coinvolgere decine di migliaia di cellule e generare un'enorme quantità di dati.