Le attività commerciali, governative e accademiche richiedono quasi sempre la raccolta e l'analisi dei dati. Uno dei modi per rappresentare i dati numerici è attraverso grafici, istogrammi e grafici. Queste tecniche di visualizzazione consentono alle persone di ottenere una migliore comprensione dei problemi e di escogitare soluzioni. Lacune, cluster e valori anomali sono caratteristiche di set di dati che influenzano l'analisi matematica e sono facilmente visibili sulle rappresentazioni visive.
Fori nei dati
Gli spazi vuoti si riferiscono alle aree mancanti in un set di dati. Ad esempio, se un esperimento scientifico raccoglie dati di temperatura nell'intervallo di 50 gradi Fahrenheit a 100 gradi Fahrenheit, ma nulla tra 70 e 80 gradi, ciò rappresenterebbe una lacuna nel set di dati. Un grafico a linee di questo set di dati avrebbe "x" marchi per temperature tra 50 e 70 e di nuovo tra 80 e 100, ma non ci sarebbe nulla tra 70 e 80. I ricercatori possono scavare più a fondo ed esplorare perché alcuni punti dati non vengono visualizzati in un campione raccolto.
Gruppi isolati
I cluster sono gruppi isolati di punti dati. I grafici a linee, che rappresentano uno dei modi per rappresentare i set di dati, sono linee con i contrassegni "x" posizionati sopra i numeri specifici per rappresentare la loro frequenza di occorrenza nel set di dati. Un cluster è rappresentato come una raccolta di questi segni "x" in un piccolo intervallo o sottoinsieme di dati. Ad esempio, se i punteggi dell'esame per una classe di 10 studenti sono 74, 75, 80, 72, 74, 75, 76, 86, 88 e 73, i più "x" segni su un grafico a linee sarebbero nel 72- fino a 76 intervalli di punteggio. Questo rappresenterebbe un cluster di dati. Nota che la frequenza per 74 e 75 è due, ma per tutti gli altri punteggi, è uno.
Negli estremi
I valori anomali sono valori estremi - i punti di dati che si trovano significativamente al di fuori di altri valori in un set di dati. Un outlier deve essere significativamente inferiore o maggiore della maggioranza dei numeri in un set di dati. La definizione di "estremo" dipende dalla circostanza e dal consenso degli analisti coinvolti nella ricerca. I valori anomali potrebbero essere cattivi punti di dati, noti anche come rumore, oppure potrebbero contenere informazioni preziose sul fenomeno oggetto dell'indagine e sulla metodologia di raccolta dei dati stessi. Ad esempio, se i punteggi delle classi sono per lo più nell'intervallo 70-80, ma un paio di punteggi sono nei 50 bassi, quelli potrebbero rappresentare dei valori anomali.
Mettere tutto insieme
Gaps valori anomali e cluster di set di dati possono influire sui risultati dell'analisi matematica. Le lacune e i cluster potrebbero rappresentare errori nella metodologia di raccolta dei dati. Ad esempio, se un sondaggio telefonico rileva solo determinati codici di area, come complessi residenziali a basso reddito o aree residenziali suburbane di fascia alta, e non una vasta sezione trasversale della popolazione, è probabile che ci saranno lacune e cluster nei dati . I valori anomali possono alterare il valore medio o medio di un set di dati. Ad esempio, il valore medio o medio di un set di dati composto da quattro numeri - 50, 55, 65 e 90 - è 65. Senza l'outlier 90, tuttavia, la media è di circa 57.