In statistica, la distribuzione gaussiana o normale viene utilizzata per caratterizzare sistemi complessi con molti fattori. Come descritto in The History of Statistics di Stephen Stigler, Abraham De Moivre ha inventato la distribuzione che porta il nome di Karl Fredrick Gauss. Il contributo di Gauss risiede nella sua applicazione della distribuzione all'approccio dei minimi quadrati per minimizzare l'errore nell'adattare i dati con una linea di miglior adattamento. Ha quindi reso la distribuzione degli errori più importante nelle statistiche.
Motivazione
Qual è la distribuzione di un campione di dati? Cosa succede se non si conosce la distribuzione sottostante dei dati? C'è un modo per verificare ipotesi sui dati senza conoscere la distribuzione sottostante? Grazie al Teorema del limite centrale, la risposta è sì.
Dichiarazione del teorema
Si afferma che una media campionaria da una popolazione infinita è approssimativamente normale, o gaussiana, con lo stesso significato di la popolazione sottostante e la varianza pari alla varianza della popolazione divisa per la dimensione del campione. L'approssimazione migliora man mano che la dimensione del campione diventa grande.
L'affermazione di approssimazione è a volte erronea come conclusione sulla convergenza di una distribuzione normale. Dato che l'approssimazione della distribuzione normale cambia all'aumentare della dimensione del campione, tale affermazione è fuorviante.
Il teorema è stato sviluppato da Pierre Simon Laplace.
Perché è ovunque
Distribuzioni normali sono onnipresenti. La ragione viene dal Teorema del limite centrale. Spesso, quando un valore viene misurato, è l'effetto somma di molte variabili indipendenti. Pertanto, il valore che si sta misurando ha una qualità media campionaria. Ad esempio, una distribuzione delle prestazioni dell'atleta può avere una forma a campana, a causa delle differenze di dieta, allenamento, genetica, coaching e psicologia. Anche le altezze degli uomini hanno una distribuzione normale, essendo una funzione di molti fattori biologici.
Copule gaussiane
Quella che è definita una "funzione di copula" con una distribuzione gaussiana è stata nelle notizie nel 2009 a causa di il suo uso nel valutare il rischio di investire in obbligazioni garantite. L'abuso della funzione è stato determinante nella crisi finanziaria del 2008-2009. Sebbene ci fossero molte cause della crisi, con il senno di poi le distribuzioni gaussiane probabilmente non avrebbero dovuto essere usate. Una funzione con una coda più spessa avrebbe assegnato maggiore probabilità agli eventi avversi.
Derivation
Il teorema del limite centrale può essere dimostrato in molte righe analizzando la funzione generatrice di momento (mgf) di (campione media - media della popolazione) /(varianza della popolazione /dimensione del campione) in funzione del mgf della popolazione sottostante. La parte di approssimazione del teorema viene introdotta espandendo il mgf della popolazione sottostante come una serie di potenze, quindi la maggior parte dei termini è insignificante quando la dimensione del campione diventa grande.
Può essere dimostrato in un numero molto minore di righe usando un Taylor espansione sull'equazione caratteristica della stessa funzione e grande dimensione del campione.
Convenienza computazionale
Alcuni modelli statistici presumono che gli errori siano gaussiani. Ciò consente la distribuzione di funzioni di variabili normali, come la distribuzione chi-quadro e F, da utilizzare nei test di ipotesi. Nello specifico, nel test F, la statistica F è composta da un rapporto di distribuzioni chi-quadrato, che a loro volta sono funzioni di un parametro di varianza normale. Il rapporto tra le due cause annulla la varianza, consentendo di verificare le ipotesi senza conoscere le varianze oltre alla loro normalità e costanza.