Un valore anomalo è un valore in un set di dati che è lontano dagli altri valori. I valori anomali possono essere causati da errori sperimentali o di misurazione o da una popolazione a lunga coda. Nei primi casi, può essere desiderabile identificare i valori anomali e rimuoverli dai dati prima di eseguire un'analisi statistica, in quanto possono eliminare i risultati in modo che non rappresentino accuratamente la popolazione campione. Il modo più semplice per identificare i valori anomali è con il metodo del quartile.
Ordina i dati in ordine crescente. Ad esempio, prendi il set di dati {4, 5, 2, 3, 15, 3, 3, 5}. Ordinato, il set di dati di esempio è {2, 3, 3, 3, 4, 5, 5, 15}.
Trova la mediana. Questo è il numero in cui metà dei punti dati è più grande e metà è più piccola. Se c'è un numero pari di punti dati, i due medi sono calcolati come media. Per il set di dati di esempio, i punti medi sono 3 e 4, quindi la mediana è (3 + 4) /2 = 3,5.
Trova il quartile superiore, Q2; questo è il punto dati in cui il 25% dei dati è più grande. Se il set di dati è pari, media i 2 punti attorno al quartile. Per il set di dati di esempio, questo è (5 + 5) /2 = 5.
Trova il quartile inferiore, Q1; questo è il punto dati in cui il 25% dei dati è più piccolo. Se il set di dati è pari, media i 2 punti attorno al quartile. Per i dati di esempio, (3 + 3) /2 = 3.
Sottrai il quartile inferiore dal quartile più alto per ottenere l'intervallo interquartile, IQ. Per il set di dati di esempio, Q2 - Q1 = 5 - 3 = 2.
Moltiplica l'intervallo interquartile di 1,5. Aggiungi questo al quartile superiore e sottrai dal quartile inferiore. Qualsiasi punto dati al di fuori di questi valori è un po 'anomalo. Per l'esempio impostato, 1.5 x 2 = 3; quindi 3 - 3 = 0 e 5 + 3 = 8. Quindi qualsiasi valore inferiore a 0 o maggiore di 8 sarebbe un valore lieve. Ciò significa che 15 si qualifica come outlier lieve.
Moltiplicare l'intervallo interquartile per 3. Aggiungere questo al quartile superiore e sottrarlo dal quartile inferiore. Qualsiasi punto dati al di fuori di questi valori è un valore anomalo estremo. Per l'esempio impostato, 3 x 2 = 6; quindi 3 - 6 = -3 e 5 + 6 = 11. Quindi qualsiasi valore inferiore a -3 o maggiore di 11 sarebbe un valore anomalo estremo. Ciò significa che 15 si qualifica come un elemento anomalo estremo.
Suggerimento
I valori anomali estremi sono più indicativi di un punto dati errato rispetto a un valore anomalo lieve.