Per dimostrare che DEFT può essere applicato a una varietà di piccoli set di dati, Gli scienziati del CSHL lo hanno utilizzato per analizzare i dati dal rilevatore di bosone di Higgs CMS. Di 60 impronte di particelle, DEFT ha stimato che fino a sei provenivano da eventi reali. (Nella foto:una prospettiva 3D di un evento del bosone di Higgs registrato nel 2012. Le impressioni sono caratterizzate da torri verdi e linee rosse.) Credito:McCauley, T; Taylor, l; CERN
I Big Data sono di gran moda oggi, ma anche i piccoli dati contano! Traendo conclusioni affidabili da piccoli set di dati, come quelli provenienti da sperimentazioni cliniche per malattie rare o da studi su specie minacciate di estinzione, rimane uno degli ostacoli più difficili nelle statistiche. Ora, I ricercatori del Cold Spring Harbor Laboratory (CSHL) hanno sviluppato un nuovo modo per analizzare piccoli dati, uno ispirato ai metodi avanzati della fisica teorica, ma disponibile come software di facile utilizzo.
"Avere a che fare con piccoli set di dati è una parte fondamentale del fare scienza, " Ha spiegato l'assistente professor Justin Kinney della CSHL. La sfida è che, con pochissimi dati, non solo è difficile arrivare a una conclusione; è anche difficile determinare quanto siano certe le tue conclusioni.
"È importante non solo produrre la migliore ipotesi per quello che sta succedendo, ma anche dire, 'Questa ipotesi è probabilmente corretta, '", ha detto Kinney.
Un buon esempio sono gli studi clinici sui farmaci.
"Quando ogni punto dati è un paziente, avrai sempre a che fare con piccoli set di dati, e per ottime ragioni, " ha detto. "Non vuoi testare un trattamento su più persone del necessario prima di determinare se il farmaco è sicuro ed efficace. È davvero importante essere in grado di prendere queste decisioni con il minor numero di dati possibile".
Quantificare tale certezza è stato difficile a causa dei presupposti che fanno i metodi statistici comuni. Queste ipotesi erano necessarie quando sono stati sviluppati metodi standard, prima dell'era del computer. Ma queste approssimazioni, note di Kinney, "può essere catastrofico" su piccoli set di dati.
In alto:numero di eventi di particelle del bosone di Higgs previsti in base alle simulazioni del modello standard.
In basso:DEFT è stato utilizzato per prevedere in modo uniforme (nero) quanti eventi di decadimento di 4 leptoni erano indicatori di un vero evento del bosone di Higgs entro un margine di incertezza (verde). Credito:Kinney Lab/CSHL
Ora, Il laboratorio di Kinney ha creato un moderno approccio computazionale chiamato stima della densità utilizzando la teoria dei campi, o DEFT, che risolve queste carenze. DEFT è disponibile gratuitamente tramite un pacchetto open source chiamato SUFTware.
Nel loro recente articolo, pubblicato in Lettere di revisione fisica , Il laboratorio di Kinney dimostra DEFT su due set di dati:statistiche sanitarie nazionali compilate dall'Organizzazione mondiale della sanità, e tracce di particelle subatomiche utilizzate dai fisici al Large Hadron Collider per rivelare l'esistenza della particella del bosone di Higgs.
Kinney afferma che essere in grado di applicare DEFT a situazioni del "mondo reale" così drasticamente diverse, nonostante i suoi calcoli siano ispirati dalla fisica teorica, è ciò che rende il nuovo approccio così potente.
"La flessibilità è davvero una buona cosa... Ora stiamo adattando DEFT ai problemi nell'analisi di sopravvivenza, il tipo di statistiche utilizzate negli studi clinici, " Kinney ha detto. "Queste nuove funzionalità verranno aggiunte a SUFTware mentre continuiamo a sviluppare questo nuovo approccio alle statistiche".