• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Accelerare le scoperte nel campo delle scienze della vita e della salute:trasformare i dati in approfondimenti

    Paradigm4 consente agli utenti di integrare dati da fonti come il sequenziamento genomico, misurazioni biometriche, fattori ambientali, e altro ancora nelle loro indagini per consentire nuove scoperte in una vasta gamma di campi delle scienze della vita. Credito:Massachusetts Institute of Technology

    Poiché tecnologie come il sequenziamento genomico di una singola cellula, imaging biomedico avanzato, e proliferano i dispositivi medici dell'"Internet delle cose", scoperte chiave sulla salute umana si trovano sempre più all'interno di vaste raccolte di dati complessi sulla scienza della vita e sulla salute.

    Ma trarre conclusioni significative da quei dati è un problema difficile che può comportare il mettere insieme diversi tipi di dati e la manipolazione di enormi set di dati in risposta a diverse indagini scientifiche. Il problema riguarda tanto l'informatica quanto altre aree della scienza. È qui che entra in gioco Paradigm4.

    L'azienda, fondata da Marilyn Matz SM '80 e vincitrice del Turing Award e professore del MIT Michael Stonebraker, aiuta le aziende farmaceutiche, istituti di ricerca, e le aziende biotecnologiche trasformano i dati in approfondimenti.

    Lo fa con un sistema di gestione del database computazionale che è costruito da zero per ospitare i diversi, dati sfaccettati alle frontiere della ricerca nelle scienze della vita. Ciò include dati provenienti da fonti come le biobanche nazionali, test clinici, l'internet medico delle cose, atlanti di cellule umane, immagini mediche, fattori ambientali, e multi-omica, un campo che include lo studio dei genomi, microbiomi, metabolomi, e altro ancora.

    Oltre all'architettura unica del sistema, l'azienda ha anche costruito la preparazione dei dati, gestione dei metadati, e strumenti di analisi per aiutare gli utenti a trovare i modelli e le correlazioni importanti che si nascondono all'interno di tutti quei numeri.

    In molti casi, i clienti stanno esplorando set di dati che, secondo i fondatori, sono troppo grandi e complessi per essere rappresentati efficacemente dai tradizionali sistemi di gestione dei database.

    "Vogliamo consentire agli scienziati e ai data scientist di fare cose che prima non avrebbero potuto fare, rendendo più facile per loro gestire il calcolo su larga scala e l'apprendimento automatico su dati diversi, " Dice Matz. "Stiamo aiutando scienziati e bioinformatici con collaborazioni, ricerca riproducibile per porre e rispondere a domande difficili più velocemente."

    Un nuovo paradigma

    Stonebraker è da decenni un pioniere nel campo dei sistemi di gestione di database. Ha avviato nove società, e le sue innovazioni hanno fissato gli standard per il modo in cui i sistemi moderni consentono alle persone di organizzare e accedere a grandi insiemi di dati.

    Gran parte della carriera di Stonebraker si è concentrata sui database relazionali, che organizzano i dati in colonne e righe. Ma a metà degli anni 2000, Stonebraker si rese conto che molti dati generati sarebbero stati meglio archiviati non in righe o colonne ma in array multidimensionali.

    Per esempio, i satelliti rompono la superficie terrestre in grandi quadrati, e i sistemi GPS tracciano il movimento di una persona attraverso quei quadrati nel tempo. Tale operazione comporta verticale, orizzontale, e misurazioni del tempo che non sono facilmente raggruppabili o altrimenti manipolabili per l'analisi nei sistemi di database relazionali.

    Stonebraker ricorda che i suoi colleghi scientifici si lamentavano del fatto che i sistemi di gestione dei database disponibili erano troppo lenti per lavorare con set di dati scientifici complessi in campi come la genomica, dove i ricercatori studiano le relazioni tra dati multi-omici su scala di popolazione, dati fenotipici, e cartelle cliniche.

    "[Sistemi di database relazionali] scansionano orizzontalmente o verticalmente, ma non entrambi, " Spiega Stonebraker. "Quindi hai bisogno di un sistema che faccia entrambe le cose, e ciò richiede un gestore di archiviazione nella parte inferiore del sistema che è in grado di muoversi sia orizzontalmente che verticalmente attraverso un array molto grande. Questo è ciò che fa Paradigma4."

    Nel 2008, Stonebraker ha iniziato a sviluppare un sistema di gestione di database al MIT che memorizzava i dati in array multidimensionali. Ha confermato che l'approccio offriva importanti vantaggi in termini di efficienza, consentendo strumenti analitici basati sull'algebra lineare, comprese molte forme di apprendimento automatico e di elaborazione di dati statistici, da applicare a enormi set di dati in modi nuovi.

    Stonebraker ha deciso di trasformare il progetto in una società nel 2010, quando ha collaborato con Matz, un imprenditore di successo che ha co-fondato Cognex Corporation, una grande azienda industriale di visione artificiale che è stata quotata in borsa nel 1989. I fondatori e il loro team si sono messi al lavoro per sviluppare le caratteristiche chiave del sistema, compresa la sua architettura distribuita che consente al sistema di funzionare su server a basso costo, e la sua capacità di pulire e organizzare automaticamente i dati in modi utili per gli utenti.

    I fondatori descrivono il loro sistema di gestione del database come un motore di calcolo per dati scientifici, e l'hanno chiamato SciDB. Oltre a SciDB, hanno sviluppato una piattaforma di analisi, chiamato motore di scoperta REVEAL, sulla base delle attività e delle aspirazioni di ricerca quotidiana degli utenti.

    "Se sei uno scienziato o un data scientist, I prodotti REVEAL e SciDB di Paradigm si prendono cura di tutto il wrangling dei dati e dell'impianto idraulico e del cablaggio computazionale, " così non devi preoccuparti di accedere ai dati, dati in movimento, o configurare il calcolo distribuito parallelo, " Dice Matz. "I tuoi dati sono pronti per la scienza. Basta fare la tua domanda scientifica e la piattaforma orchestra tutta la gestione e il calcolo dei dati per te."

    SciDB è progettato per essere utilizzato sia da scienziati che da sviluppatori, così gli utenti possono interagire con il sistema tramite interfacce utente grafiche o sfruttando linguaggi statistici e di programmazione come R e Python.

    "È stato molto importante vendere soluzioni, non blocchi da costruzione, " dice Matz. "Una parte importante del nostro successo nelle scienze della vita con le migliori aziende farmaceutiche e biotecnologiche e istituti di ricerca sta portando loro la nostra suite REVEAL di soluzioni specifiche per le applicazioni ai problemi. Non stiamo consegnando loro una piattaforma analitica che è un insieme di blocchi LEGO; stiamo dando loro soluzioni che gestiscono i dati con cui si occupano quotidianamente, and solutions that use their vocabulary and answer the questions they want to work on."

    Accelerating discovery

    Today Paradigm4's customers include some of the biggest pharmaceutical and biotech companies in the world as well as research labs at the National Institutes of Health, Università di Stanford, and elsewhere.

    Customers can integrate genomic sequencing data, biometric measurements, data on environmental factors, and more into their inquiries to enable new discoveries across a range of life science fields.

    Matz says SciDB did 1 billion linear regressions in less than an hour in a recent benchmark, and that it can scale well beyond that, which could speed up discoveries and lower costs for researchers who have traditionally had to extract their data from files and then rely on less efficient cloud-computing-based methods to apply algorithms at scale.

    "If researchers can run complex analytics in minutes and that used to take days, that dramatically changes the number of hard questions you can ask and answer, " Matz says. "That is a force-multiplier that will transform research daily."

    Beyond life sciences, Paradigm4's system holds promise for any industry dealing with multifaceted data, including earth sciences, where Matz says a NASA climatologist is already using the system, and industrial IoT, where data scientists consider large amounts of diverse data to understand complex manufacturing systems. Matz says the company will focus more on those industries next year.

    In the life sciences, però, the founders believe they already have a revolutionary product that's enabling a new world of discoveries. Giù la linea, they see SciDB and REVEAL contributing to national and worldwide health research that will allow doctors to provide the most informed, personalized care imaginable.

    "The query that every doctor wants to run is, when you come into his or her office and display a set of symptoms, the doctor asks, "Who in this national database has genetics that look like mine, symptoms that look like mine, lifestyle exposures that look like mine? And what was their diagnosis? What was their treatment? And what was their morbidity?" Stonebraker explains. "This is cross correlating you with everybody else to do very personalized medicine, and I think this is within our grasp."

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.




    © Scienza https://it.scienceaq.com