I ricercatori hanno creato un nuovo sistema di gestione dei dati open source per scienziati, con la speranza che il sistema possa facilitare la collaborazione. Credito:Markus Spiske su Unsplash
I dati sono spesso al centro della scienza:i ricercatori tengono traccia delle velocità, misurare la luce proveniente dalle stelle, analizzare la frequenza cardiaca e i livelli di colesterolo e scansionare il cervello umano alla ricerca di impulsi elettrici.
Ma spesso, condividere quei dati con altri scienziati o con editori di riviste sottoposti a revisione paritaria, o finanziatori, è difficile. Il software potrebbe essere proprietario, e proibitivo per l'acquisto. Potrebbero essere necessari anni di formazione prima che una persona sia in grado di gestire e comprendere il software. Oppure la società che ha creato il software potrebbe aver cessato l'attività.
Un team di ricerca ha sviluppato un sistema di gestione dei dati open source che gli scienziati sperano possa risolvere tutti questi problemi. I ricercatori hanno delineato il loro sistema oggi sulla rivista PLOS UNO .
"Volevamo creare un formato di file e un modello di set di dati che incapsulasse la maggior parte dei set di dati su cui lavoriamo, su tutti gli strumenti di un laboratorio, " disse Filippo Grandinetti, professore di chimica presso la Ohio State University e autore senior del documento. "C'è questo problema di vecchia data, diffuso tra gli scienziati, che acquisti uno strumento multimilionario e le aziende che producono quello strumento hanno il loro formato proprietario, ed è un incubo da condividere con chiunque altro".
I set di dati di grandi dimensioni sono difficili da condividere, in parte perché il software è spesso proprietario, ma anche in parte perché i file sono spesso così grandi che è difficile condividerli in un'e-mail o tramite un server basato su cloud. E anche se i file possono essere esportati come un tipo di file che può essere condiviso, metadati importanti, le cose che spiegano cosa sia effettivamente il set di dati, spesso vengono persi.
Il loro sistema, che Grandinetti e colleghi hanno chiamato "Core Scientific Data Model, " è progettato per condividere facilmente set di dati complessi, senza file di grandi dimensioni che occupano molta larghezza di banda e spazio sul disco rigido, e senza perdere i metadati. Considera un set di dati che include la temperatura dell'aria, pressione dell'aria, velocità del vento e flusso solare:questo sistema è in grado di gestirlo. Oppure considera le misurazioni e il colore di una luce proveniente da una stella in una galassia lontana:questo sistema può gestirlo.
"Hai bisogno di un set di dati che sia incredibilmente flessibile nella sua capacità di contenere tutte queste cose in un unico formato di file senza perdere informazioni, " Ha detto Grandinetti. "Quindi l'idea è che abbiamo creato un modello che pensavamo fosse abbastanza flessibile per farlo".
Il team dell'Ohio State University, in collaborazione con il professor Thomas Vosegaard dell'Università di Aarhus in Danimarca, e il Dott. Dominique Massiot presso l'Università di Orléans in Francia, software costruito che può essere eseguito su un Mac o PC. L'hanno caricato sul web e reso il codice open-source (il che significa che chiunque può guardarlo, usalo, e scaricalo gratuitamente.) La pubblicazione in PLOS UNO è intenzionale:il diario è anche a disposizione di chiunque, gratuito.
E, i ricercatori sperano, il sistema potrebbe essere un semplice, modo gratuito per combinare più tipi di dati in un unico posto.
"Studiamo più set di dati come scienziati, e come scienziato io stesso, Mi piacerebbe essere in grado di ottenere i dati da tutti quei file e metterli insieme in un modo con cui posso lavorare, " disse Deepansh Srivastava, ricercatore post-dottorato nel gruppo di Grandinetti.
"Invece di cercare dati e estrarli dai set di dati, se potessimo semplicemente esportarlo come questo tipo di file, come un tipo di file di dati scientifici di base, saremmo in grado di lavorare in un sistema comune".