• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  science >> Scienza >  >> Altro
    Le gemme nascoste delle dichiarazioni sull'accessibilità dei dati

    A volte la parte migliore della lettura di un articolo scientifico è un momento inaspettato di riconoscimento, non nella scienza, ma nell'umanità degli scienziati. È rassicurante in un certo senso trovare piccoli scostamenti dalla seria formula scientifica:una nota che esula dalla sintassi prevista di Astratto-Introduzione-Metodi-Risultati-Discussione. Come scienziato all'inizio della sua carriera, impegnato a trasformare in manoscritti capitoli di tesi di laurea, è bello ricordare che i #365papers che leggo sono prodotti di autori che, come me, ha lottato attraverso le revisioni e si è preso gioco dei coautori e ha trovato umorismo cupo nei momenti bui.

    blog di ecologia, cinguettio, e anche i media più ampi amano notare i titoli stravaganti, riconoscimenti divertenti (e seri), figure memorabili, e determinazioni uniche dell'ordine di co-autore che sono apparse nelle pagine delle riviste scientifiche. Mi piace imbattermi in questi momenti di leggerezza nel mio file DA LEGGERE; la scorsa primavera ho procrastinato la formattazione della mia tesi leggendo avidamente la sezione Ringraziamenti di chiunque avessi anche solo vagamente sovrapposto nel mio dottorato. programma. Un posto in cui non ho pensato di cercare l'umorismo scientifico fortuito:la Dichiarazione sulla disponibilità dei dati. Come risulta, Mi sono perso una storia interessante.

    Un recente documento PLOS ONE si proponeva di analizzare le dichiarazioni sulla disponibilità dei dati di quasi 50, 000 documenti recenti di PLOS ONE. Può sembrare un argomento noioso, ma il lavoro di Lisa Federer e dei coautori è sorprendentemente coinvolgente, d'attualità, e stimolante. Nel marzo 2014 PLOS ha presentato una politica sui dati che richiede agli articoli di ricerca di includere una dichiarazione sulla disponibilità dei dati che fornisca ai lettori i dettagli su come accedere ai dati rilevanti per ciascun documento. Ma, come sottolineano Federer et al. "La 'disponibilità' può essere interpretata in modi che hanno esiti pratici molto diversi in termini di chi può accedere ai dati e come".

    Perché le dichiarazioni sulla disponibilità dei dati sono importanti? Nell'ecologia, i sostenitori dei dati aperti sostengono la riproducibilità e il riutilizzo. Molti di noi lavorano su piccole aree di studio e accumulano fogli di calcolo isolati di dati, e poi pubblicare sul nostro sistema, magari gettando un sottoinsieme dei dati che abbiamo raccolto in un file supplementare. Ma domande di grande respiro che guardano attraverso le scale, ecosistemi, e gli approcci si basano sui big data, e i big data sono spesso un amalgama di molti piccoli set di dati provenienti da una vasta gamma di scienziati. Set di dati di piccole dimensioni (o di qualsiasi dimensione) disponibili pubblicamente, e di facile accesso negli archivi di dati invece di vecchi notebook da laboratorio o computer di laboratorio defunti, hanno molte più probabilità di avere le gambe, per essere riutilizzato e ri-testato, e contribuire al campo in generale.

    Credito:Eric Heupel, https://www.flickr.com/photos/eclectic-echoes/

    Mentre PLOS era all'avanguardia delle dichiarazioni sull'accessibilità dei dati tra le riviste peer-reviewed, La revisione da parte di Federer del contenuto di queste dichiarazioni sulla disponibilità dei dati chiarisce che non siamo ancora nel brillante futuro degli Open Data. La politica di accessibilità dei dati di PLOS "raccomanda fortemente" che i dati siano depositati in un archivio pubblico; Federer ha scoperto che solo il 18,2% di PLOS documenti nominati un archivio o una fonte specifici in cui i dati erano disponibili. La maggior parte delle dichiarazioni sull'accessibilità dei dati indirizza il lettore al documento stesso oa informazioni supplementari. Anche tra gli articoli sui repository di dati, alcune dichiarazioni sull'accessibilità dei dati indicavano un repository ma non includevano un URL, DOI, o numero di accesso, in pratica inviando i lettori a una caccia all'oca per individuare i propri dati all'interno del repository.

    Altre dichiarazioni sembrano essere state inserite come segnaposto, potenzialmente destinato a essere sostituito al momento della pubblicazione dell'articolo, come "Tutti i dati grezzi sono disponibili dal database XXX [sic] (numero/i di accesso XXX, XXX [sic])" o "I dati e la serie completa di istruzioni sperimentali di questo studio sono disponibili all'indirizzo . [Questo collegamento sarà reso pubblicamente [sic] accessibile al momento della pubblicazione di questo articolo.]" Questi due articoli, pubblicato nel 2016 e 2015, rispettivamente, contengono ancora questo testo segnaposto al momento della stesura di questo documento.

    Questi esempi di segnaposto che sono stati pubblicati sono imbarazzanti, ma umano, e come fa notare Federer, Le dichiarazioni sull'accessibilità dei dati dovrebbero essere riviste da editori e revisori tra pari con lo stesso controllo che applichiamo alla progettazione dello studio, analisi statistiche, e citazioni.

    Ho lavorato su meta-analisi e progetti che dipendono da dati provenienti da archivi digitali esistenti. La frustrazione di cercare informazioni supplementari, Driadi DOI, e gli indirizzi GitHub solo per trovare un vicolo cieco o un indirizzo e-mail dell'autore corrispondente rotto è una sensazione simile agli scoiattoli di terra che masticano i fili del registratore di temperatura a metà della stagione dei campi. Federer osserva che la marea sta girando verso i dati aperti:dopo un inizio difficile nel 2014—il team di Federer ha analizzato molti documenti probabilmente inviati prima (ma pubblicati dopo) l'entrata in vigore della politica sulla disponibilità dei dati—il 2015 e il 2016 hanno visto la percentuale di documenti a cui mancava un La dichiarazione sulla disponibilità dei dati diminuisce drasticamente. Nello stesso arco di tempo, Federer nota un leggero aumento del numero di affermazioni che si riferiscono ai dati in un repository e un numero inferiore che afferma che i dati sono nel documento o, tremando, disponibili su richiesta.

    A un livello più ampio, i dati aperti sono un argomento di recente politicizzazione. L'EPA ha recentemente proposto nuovi standard che vieterebbero agli studi scientifici di informare a fini normativi a meno che tutti i dati grezzi non fossero ampiamente disponibili al pubblico e potessero essere riprodotti. Questo non è tanto un gold standard quanto una regola bavaglio. In un editoriale PLOS, John P. A. Ioannidis fa notare che mentre "crea dati scientifici, metodi, protocolli, Software, e script ampiamente disponibili è un eccitante, degna aspirazione" nell'eliminare tutto tranne la cosiddetta scienza perfetta dal processo normativo, l'EPA si impegna a prendere decisioni che "dipendono unicamente dall'opinione e dal capriccio". La maggior parte dei dati grezzi degli studi passati non sono disponibili pubblicamente e, come mostra la ricerca di Federer, anche nell'era delle dichiarazioni di disponibilità dei dati richieste, open data è ancora un work in progress. E così abbiamo continuato a battere gli scienziati contro gli amministratori dell'Agenzia per la protezione dell'ambiente anti-scienza, sostenuto incessantemente a sostegno della pubblicazione accessibile, dati aperti come una sorta di via libera alla ricerca passata.

    Questa storia è stata ripubblicata per gentile concessione di PLOS Blogs:blogs.plos.org.




    © Scienza https://it.scienceaq.com