Una guida rapida ai valori di p. Credito:Repapetilto/Wikimedia, CC BY-SA
Il mondo scientifico è in fermento seguendo le raccomandazioni di due delle più prestigiose riviste accademiche: Lo statistico americano e Natura – che il termine "significatività statistica" sia soppresso.
Nella loro introduzione al numero speciale di The American Statistician sull'argomento, gli editori della rivista esortano a "trasferirsi in un mondo al di là di 'p <0.05, '" la famosa soglia del 5 percento per determinare se il risultato di uno studio è statisticamente significativo. Se uno studio supera questo test, significa che la probabilità che un risultato sia dovuto solo al caso è inferiore al 5%. Questo è stato spesso inteso nel senso che vale la pena prestare attenzione allo studio.
Il messaggio fondamentale della rivista, ma non necessariamente il consenso dei 43 articoli di questo numero, uno dei quali ho contribuito - era che gli scienziati prima di tutto dovrebbero "abbracciare l'incertezza" ed "essere riflessivi, aperto e modesto».
Anche se queste sono qualità eccellenti, Credo che gli scienziati non debbano permettere loro di oscurare la precisione e il rigore che la scienza richiede. L'incertezza è inerente ai dati. Se gli scienziati indebolissero ulteriormente la soglia già molto debole di 0,05, allora ciò renderebbe inevitabilmente le scoperte scientifiche più difficili da interpretare e meno affidabili.
Accumulare difficoltà su difficoltà
Nella pratica tradizionale della scienza, uno scienziato genera un'ipotesi e progetta esperimenti per raccogliere dati a sostegno di ipotesi. Quindi raccoglie i dati ed esegue analisi statistiche per determinare se i dati supportano effettivamente l'ipotesi.
Un'analisi statistica standard è il p-value. Questo genera un numero compreso tra 0 e 1 che indica forte, supporto marginale o debole di un'ipotesi.
Ma temo che abbandonare gli standard basati sull'evidenza per questi giudizi renderà ancora più difficile progettare esperimenti, molto meno valutare i loro risultati. Ad esempio, come si potrebbe anche determinare una dimensione del campione appropriata senza un livello di precisione mirato? E come vanno interpretati i risultati della ricerca?
Queste sono domande importanti, non solo per i ricercatori delle agenzie di finanziamento o di regolamentazione, ma per chiunque la cui vita quotidiana sia influenzata da giudizi statistici. Ciò include chiunque prenda medicine o si sottoponga a un intervento chirurgico, guida o viaggia in veicoli, è investito in borsa, ha un'assicurazione sulla vita o dipende da previsioni meteorologiche accurate... e l'elenco potrebbe continuare. Allo stesso modo, molte agenzie di regolamentazione si affidano alle statistiche per prendere decisioni ogni giorno.
Gli scienziati devono avere il linguaggio per indicare che uno studio, o gruppo di studi, fornito prove significative a favore di una relazione o di un effetto. Significatività statistica è il termine che serve a questo scopo.
I gruppi dietro questo movimento
L'ostilità al termine "significato statistico" deriva da due gruppi.
Il primo è in gran parte costituito da scienziati delusi quando i loro studi producono p=0,06. In altre parole, quelli i cui studi semplicemente non fanno il taglio. Questi sono in gran parte scienziati che trovano lo standard 0,05 un ostacolo troppo alto per essere pubblicato nelle riviste accademiche che sono una delle principali fonti di conoscenza accademica, nonché di possesso e promozione.
Il secondo gruppo è preoccupato per la mancata replica di studi scientifici, e incolpano in parte i test di significatività di questo fallimento.
Per esempio, un gruppo di scienziati ha recentemente ripetuto 100 esperimenti di psicologia pubblicati. Novantasette dei 100 studi originali hanno riportato un risultato statisticamente significativo (p <0,05), ma solo 36 degli esperimenti ripetuti sono stati in grado di ottenere anche un risultato significativo.
Il fallimento di così tanti studi da replicare può essere in parte attribuito al bias di pubblicazione, che risulta quando vengono pubblicati solo risultati significativi. Il bias di pubblicazione induce gli scienziati a sovrastimare l'entità di un effetto, come la relazione tra due variabili, rendendo meno probabile la replica.
A complicare ulteriormente la situazione c'è il fatto che recenti ricerche mostrano che il cutoff del p-value non fornisce molte prove che sia stata trovata una relazione reale. Infatti, negli studi di replicazione nelle scienze sociali, ora sembra che valori di p vicini alla soglia standard di 0,05 probabilmente significhino che un'affermazione scientifica è sbagliata. È solo quando il p-value è molto più piccolo, forse meno di 0.005, che è probabile che le affermazioni scientifiche mostrino una relazione reale.
La confusione che porta a questo movimento
Molti non statistici confondono il p-value con la probabilità che non sia stata fatta alcuna scoperta.
Diamo un'occhiata a un esempio dall'articolo Nature. Due studi hanno esaminato l'aumento del rischio di malattia dopo l'assunzione di un farmaco. Entrambi gli studi hanno stimato che i pazienti avevano un rischio maggiore del 20% di contrarre la malattia se assumevano il farmaco rispetto a quando non lo facevano. In altre parole, entrambi gli studi hanno stimato il rischio relativo a 1,20.
Però, il rischio relativo stimato da uno studio era più preciso dell'altro, perché la sua stima era basata sui risultati di molti più pazienti. Così, la stima di uno studio era statisticamente significativa, e la stima dell'altro no.
Gli autori citano questa incoerenza – che uno studio ha ottenuto un risultato significativo e l'altro no – come prova che la significatività statistica porta a un'interpretazione errata dei risultati scientifici.
Però, Ritengo che un riassunto ragionevole sia semplicemente che uno studio ha raccolto prove statisticamente significative e uno no, ma le stime di entrambi gli studi suggerivano che il rischio relativo fosse vicino a 1.2.
Dove andare da qui?
Sono d'accordo con l'articolo su Nature e l'editoriale di The American Statistician che i dati raccolti da tutti gli studi scientifici ben progettati dovrebbero essere resi disponibili al pubblico, con sintesi complete di analisi statistiche. Insieme ai p-value di ogni studio, è importante pubblicare le stime delle dimensioni degli effetti e degli intervalli di confidenza per queste stime, nonché descrizioni complete di tutte le analisi e l'elaborazione dei dati.
D'altra parte, solo gli studi che forniscono una forte evidenza a favore di importanti associazioni o nuovi effetti dovrebbero essere pubblicati su riviste di prim'ordine. Per questi giornali, gli standard di evidenza dovrebbero essere aumentati richiedendo p-value più piccoli per il resoconto iniziale delle relazioni e delle nuove scoperte. In altre parole, fare in modo che gli scienziati pubblichino risultati di cui sono ancora più sicuri.
La linea di fondo è che lo smantellamento degli standard accettati di prove statistiche ridurrà l'incertezza che gli scienziati hanno nel pubblicare le proprie ricerche. Ma aumenterà anche l'incertezza del pubblico nell'accettare i risultati che pubblicano – e questo può essere problematico.
Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.