La statistica è un po’ un mix tra matematica e probabilità. Lo scopo delle statistiche è descrivere i processi che è possibile osservare nel mondo – l’altezza delle querce o la probabilità che un vaccino funzioni per respingere le malattie – senza dover misurare ogni quercia del mondo o vaccinare ogni persona prima di decidere come farlo. efficace è un farmaco.
Poiché la probabilità descrive cose che coinvolgono il caso, dobbiamo accettare che qualunque sia il processo che utilizziamo per misurare le statistiche, non riusciremo mai ad avere un quadro completo.
Supponiamo di lanciare una moneta quattro volte. Ottieni tre teste e una coda. Senza utilizzare le statistiche, potremmo concludere che la probabilità di ottenere testa è del 75%, mentre la probabilità reale di ottenere testa lanciando una moneta è 1:1, ovvero una probabilità 50-50. Se invece eseguissimo 40 lanci di moneta, ci avvicineremmo sicuramente molto di più a un rapporto testa/croce di 1:1 e l'uso delle statistiche rifletterebbe questo.
"Gran parte delle statistiche hanno a che fare con il ragionamento da un campione - le osservazioni effettive - alle caratteristiche della popolazione - tutte le osservazioni possibili", afferma John Drake, professore di ricerca presso il Centro per l'ecologia delle malattie infettive dell'Università della Georgia, in un'e-mail. "Ad esempio, potremmo essere interessati all'altezza delle querce. Non possiamo misurare tutte le querce del mondo, ma possiamo misurarne alcune. Possiamo calcolare l'altezza media delle querce nel campione, ma questo non funzionerà". t necessariamente uguale alla media di tutte le querce."
Poiché non possiamo misurare tutte le querce del mondo, gli statistici stimano l'intervallo di altezze in base alla probabilità e a tutti i dati a loro disposizione. Questo intervallo è chiamato intervallo di confidenza ed è composto da due numeri:uno probabilmente più piccolo del valore reale e uno probabilmente più grande. Il vero valore è probabilmente da qualche parte nel mezzo.
"Un 'intervallo di confidenza del 95%' significa che 95 volte su 100 in cui l'intervallo di confidenza è costruito in questo modo, l'intervallo includerà il valore reale", afferma Drake. "Se misurassimo campioni di querce 100 volte, l'intervallo di confidenza basato sui dati raccolti in 95 di questi esperimenti includerebbe la media della popolazione, o l'altezza media di tutte le querce. Pertanto, un intervallo di confidenza è una misura della precisione di una stima. La stima diventa sempre più precisa man mano che si raccolgono più dati. Questo è il motivo per cui gli intervalli di confidenza si riducono man mano che diventano disponibili più dati."
Pertanto, un intervallo di confidenza aiuta a mostrare quanto sia buona o cattiva la stima. Quando lanciamo una moneta solo quattro volte, la nostra stima del 75% ha un ampio intervallo di confidenza perché la dimensione del nostro campione è molto piccola. La nostra stima con 40 lanci di moneta avrebbe un intervallo di confidenza molto più ristretto.
Il vero significato di un intervallo di confidenza ha a che fare con la ripetizione di un esperimento più e più volte. Nel caso dei quattro lanci della moneta, un intervallo di confidenza del 95% significa che se ripetessimo l'esperimento del lancio della moneta 100 volte, in 95 di queste, la nostra probabilità di ottenere testa rientrerà in tale intervallo di confidenza.
Ci sono limiti alle statistiche. Devi progettare un buon studio:le statistiche non possono dirti nulla che non hai chiesto.
Supponiamo che tu stia studiando l'efficacia di un vaccino, ma non hai incluso i bambini nel tuo studio. Puoi stabilire un intervallo di confidenza basato sui dati raccolti, ma questo non ti dirà nulla sull'efficacia del vaccino nel proteggere i bambini.
"Oltre ad avere dati sufficienti, il campione deve anche essere rappresentativo", afferma Drake. "Di solito, questo significa avere un campione casuale o un campione casuale stratificato. Supponendo che i 1.000 partecipanti all'ipotetico studio sul vaccino siano rappresentativi della popolazione, allora è ragionevole concludere che la vera efficacia del vaccino rientra nell'intervallo di confidenza riportato. Se il campione non è rappresentativo, ovvero non include bambini, non esiste alcuna base statistica per trarre conclusioni sulla parte non rappresentata della popolazione."
Florence Nightingale è stata una delle statistiche più importanti della storia, utilizzando la scienza di cui è stata pioniera per salvare la vita dei soldati durante la guerra di Crimea.