Di Kevin Beck, aggiornato il 30 agosto 2022
Immagina di voler sapere come si confronta il peso del tuo cucciolo di razza di 12 settimane rispetto ad altri cani della stessa età, sesso e razza in tutto il mondo. Se hai accesso a un database completo, puoi confrontare il peso del tuo cucciolo con la media della popolazione e vedere come si classifica. Ma cosa succede se disponi solo di pochi dati e desideri comunque valutare in che modo un particolare valore si collega alla popolazione più ampia?
In questi casi entrano in gioco due strumenti statistici:lo z‑score e il punteggio t . Entrambi ti aiutano a capire come un'osservazione specifica si confronta con un valore "tipico", ma vengono utilizzati in circostanze diverse.
La media (media) di un set di dati è la somma di tutti i valori divisa per il numero di osservazioni, n . Per una popolazione, la media è indicata con μ e la deviazione standard di σ . In una distribuzione normale standard, circa il 68% delle osservazioni si trova entro ±1σ della media e circa il 95% rientra entro ±2σ.
L'entità della deviazione standard rispetto alla media indica la diffusione dei dati:un σ più grande produce una curva a campana più ampia, mentre un σ più piccolo si traduce in una curva più stretta.
Un punteggio z misura quante deviazioni standard ha una singola osservazione, x , deriva dalla media della popolazione:Z =(x – μ) / σ . Un punteggio z pari a 0 significa che l'osservazione è uguale alla media; +1.00 e –1.00 indicano rispettivamente una deviazione standard sopra o sotto la media.
Un punteggio t è simile ma utilizza la media campionaria (𝑥̄ ) e la deviazione standard del campione (s ) e incorpora la dimensione del campione:t =(𝑥̄ – μ) / (s / √n) . Il denominatore rappresenta l'errore standard della media.
Se il campione contiene meno di 30 osservazioni, è preferibile un punteggio t rispetto a un punteggio z. Man mano che la dimensione del campione cresce, la distribuzione t converge verso la distribuzione normale, rendendo la differenza trascurabile per n grandi . La scelta dell'intervallo di confidenza, in genere 90% o 95% per i test a due code, determina il valore critico con cui confronti il tuo punteggio t.
Supponiamo che una classe di 25 studenti universitari abbia una media del 64% in un test a sorpresa su Harry Potter. La media della popolazione è del 60% e la deviazione standard del campione è del 15%. Per calcolare il punteggio t:
t = (64 – 60) / (15 / √25) = 4 / (15 / 5) = 4 / 3 ≈ 1.33
I gradi di libertà sono df = n – 1 = 24 . Cercando un livello di confidenza del 90% in una tabella di distribuzione t (o utilizzando un calcolatore online), il valore critico per 24df è circa 1,711. Dal momento che 1,33 < 1,711, la media della classe non è significativamente più alta della media della popolazione con un livello di confidenza del 90%.
La regolazione dell'intervallo di confidenza (ad esempio all'80% o al 70%) modificherebbe il valore critico e potrebbe alterare la conclusione.
Per tabelle e calcolatori più dettagliati, consulta fonti attendibili come la voce di Wikipedia sulla t‑distribution o software statistico come R o la libreria SciPy di Python.