• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Come i big data hanno creato una grande crisi nella scienza

    Gli scienziati stanno affrontando una crisi di riproducibilità. Credito:Y Photo Studio/shutterstock.com

    C'è una crescente preoccupazione tra gli studiosi che, in molti campi della scienza, i risultati pubblicati famosi tendono ad essere impossibili da riprodurre.

    Questa crisi può essere grave. Per esempio, nel 2011, Bayer HealthCare ha esaminato 67 progetti interni e ha scoperto che potevano replicare meno del 25%. Per di più, oltre i due terzi dei progetti presentavano notevoli incongruenze. Più recentemente, a novembre, un'indagine su 28 importanti articoli di psicologia ha scoperto che solo la metà poteva essere replicata.

    Risultati simili sono riportati in altri campi, compresa la medicina e l'economia. Questi risultati sorprendenti mettono in grave difficoltà la credibilità di tutti gli scienziati.

    Cosa sta causando questo grosso problema? Ci sono molti fattori che contribuiscono. Come statistico, Vedo enormi problemi con il modo in cui viene fatta la scienza nell'era dei big data. La crisi della riproducibilità è guidata in parte da analisi statistiche non valide che derivano da ipotesi basate sui dati, l'opposto di come si fanno le cose tradizionalmente.

    Metodo scientifico

    In un classico esperimento, lo statistico e lo scienziato prima insieme formulano un'ipotesi. Quindi gli scienziati conducono esperimenti per raccogliere dati, che vengono successivamente analizzati dagli statistici.

    Un famoso esempio di questo processo è la storia della "signora che assaggia il tè". Già negli anni '20, a una festa di accademici, una donna ha affermato di essere in grado di distinguere la differenza di sapore se il tè o il latte sono stati aggiunti prima in una tazza. Lo statistico Ronald Fisher dubitava che avesse un tale talento. Ha ipotizzato che, su otto tazze di tè, preparato in modo che quattro tazze abbiano prima aggiunto il latte e le altre quattro tazze abbiano aggiunto prima il tè, il numero di ipotesi corrette seguirebbe un modello di probabilità chiamato distribuzione ipergeometrica.

    Un tale esperimento è stato fatto con otto tazze di tè inviate alla signora in ordine casuale - e, in accordo alla didascalia, ha classificato tutti e otto correttamente. Questa era una forte prova contro l'ipotesi di Fisher. Le probabilità che la signora avesse ottenuto tutte le risposte corrette tramite ipotesi casuali erano estremamente basse dell'1,4%.

    Quel processo – ipotizzare, quindi raccogliere dati, quindi analizzare - è raro nell'era dei big data. La tecnologia odierna può raccogliere enormi quantità di dati, nell'ordine di 2,5 exabyte al giorno.

    Mentre questa è una buona cosa, la scienza spesso si sviluppa a una velocità molto più lenta, e quindi i ricercatori potrebbero non sapere come dettare la giusta ipotesi nell'analisi dei dati. Per esempio, gli scienziati possono ora raccogliere decine di migliaia di espressioni geniche da persone, ma è molto difficile decidere se si debba includere o escludere un particolare gene nell'ipotesi. In questo caso, è interessante formare l'ipotesi sulla base dei dati. Sebbene tali ipotesi possano sembrare convincenti, le inferenze convenzionali da queste ipotesi sono generalmente non valide. Questo è perché, in contrasto con il processo "la signora che assaggia il tè", l'ordine di costruzione dell'ipotesi e di visualizzazione dei dati si è invertito.

    Problemi di dati

    Perché questa inversione può causare un grosso problema? Consideriamo una versione big data della signora del tè, un esempio di "100 donne che assaggiano il tè".

    Supponiamo che ci siano 100 donne che non sanno distinguere tra il tè, ma prova a indovinare dopo aver assaggiato tutte e otto le tazze. In realtà c'è una probabilità del 75,6 percento che almeno una donna indovini per fortuna tutti gli ordini correttamente.

    Ora, se uno scienziato ha visto una donna con un risultato sorprendente di tutte le coppe corrette e ha eseguito un'analisi statistica per lei con la stessa distribuzione ipergeometrica sopra, allora potrebbe concludere che questa signora ha avuto la capacità di dire la differenza fra ogni tazza. Ma questo risultato non è riproducibile. Se la stessa signora facesse di nuovo l'esperimento, molto probabilmente avrebbe ordinato le tazze in modo sbagliato – non essendo fortunato come la sua prima volta – dal momento che non poteva davvero dire la differenza tra loro.

    Questo piccolo esempio illustra come gli scienziati possono "fortunatamente" vedere segnali interessanti ma spuri da un set di dati. Possono formulare ipotesi dopo questi segnali, quindi utilizzare lo stesso set di dati per trarre le conclusioni, affermando che questi segnali sono reali. Potrebbe volerci un po' di tempo prima che scoprano che le loro conclusioni non sono riproducibili. Questo problema è particolarmente comune nell'analisi dei big data a causa delle grandi dimensioni dei dati, solo per caso alcuni segnali spuri possono "fortunatamente" verificarsi.

    quel che è peggio, questo processo può consentire agli scienziati di manipolare i dati per produrre il risultato più pubblicabile. Gli statistici scherzano su tale pratica:"Se torturiamo i dati abbastanza duramente, ti diranno qualcosa." Tuttavia, questo "qualcosa" è valido e riproducibile? Probabilmente no.

    Analisi più forti

    In che modo gli scienziati possono evitare il problema di cui sopra e ottenere risultati riproducibili nell'analisi dei big data? La risposta è semplice:stai più attento.

    Se gli scienziati vogliono risultati riproducibili da ipotesi basate sui dati, quindi devono prendere in considerazione attentamente il processo basato sui dati nell'analisi. Gli statistici devono progettare nuove procedure che forniscano inferenze valide. Ce ne sono alcuni già in corso.

    Le statistiche sono il modo ottimale per estrarre informazioni dai dati. Per questa natura, è un campo che si evolve con l'evoluzione dei dati. I problemi dell'era dei big data sono solo un esempio di tale evoluzione. Penso che gli scienziati dovrebbero abbracciare questi cambiamenti, in quanto porteranno a opportunità per lo sviluppo di nuove tecniche statistiche, che a sua volta fornirà scoperte scientifiche valide e interessanti.

    Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.




    © Scienza https://it.scienceaq.com