Quando costruisci modelli nelle statistiche, di solito li testerai, assicurandoti che i modelli corrispondano a situazioni del mondo reale. Il residuo è un numero che ti aiuta a determinare quanto è vicino il tuo modello teorizzato al fenomeno nel mondo reale. I residui non sono troppo difficili da capire: sono solo numeri che rappresentano la distanza di un punto dati da quello che "dovrebbe essere" secondo il modello previsto.
Definizione matematica
Matematicamente, un residuo è la differenza tra un punto dati osservato e il valore atteso - o stimato - per quello che avrebbe dovuto essere quel punto dati. La formula per un residuo è R \u003d O - E, dove "O" indica il valore osservato e "E" indica il valore atteso. Ciò significa che i valori positivi di R mostrano valori più alti del previsto, mentre i valori negativi mostrano valori inferiori al previsto. Ad esempio, potresti avere un modello statistico che dice che quando il peso di un uomo è di 140 libbre, la sua altezza dovrebbe essere di 6 piedi o 72 pollici. Quando esci e raccogli dati, potresti trovare qualcuno che pesa 140 libbre ma è 5 piedi 9 pollici o 69 pollici. Il residuo è quindi 69 pollici meno 72 pollici, per un valore di 3 pollici negativi. In altre parole, il punto dati osservato è di 3 pollici al di sotto del valore atteso.
Verifica dei modelli
I residui sono particolarmente utili quando si desidera verificare se il modello teorizzato funziona nel mondo reale. Quando crei un modello e calcoli i suoi valori previsti, stai teorizzando. Ma quando vai a raccogliere dati, potresti scoprire che i dati non corrispondono al modello. Un modo per trovare questa discrepanza tra il tuo modello e il mondo reale è calcolare i residui. Ad esempio, se scopri che i tuoi residui sono tutti costantemente lontani dai tuoi valori stimati, il tuo modello potrebbe non avere una forte teoria di base. Un modo semplice per usare i residui in questo modo è quello di tracciarli.
Tracciare i residui
Quando calcoli i residui, hai una manciata di numeri, che è difficile da interpretare per gli umani. Tracciare i residui può spesso mostrarti degli schemi. Questi schemi possono portarti a determinare se il modello è adatto. Due aspetti dei residui possono aiutarti ad analizzare un diagramma di residui. Innanzitutto, i residui per un buon modello dovrebbero essere sparsi su entrambi i lati dello zero. Cioè, un diagramma di residui dovrebbe avere circa la stessa quantità di residui negativi di residui positivi. In secondo luogo, i residui dovrebbero apparire casuali. Se vedi un motivo nel tuo diagramma residuo, come ad esempio che hanno un chiaro motivo lineare o curvo, il tuo modello originale potrebbe avere un errore.
Residui speciali: Valori anomali
Valori anomali o residui di valori estremamente grandi , appaiono insolitamente lontani dagli altri punti della trama di residui. Quando trovi un residuo anomalo nel tuo set di dati, devi pensarci attentamente. Alcuni scienziati raccomandano di rimuovere gli outlier perché sono "anomalie" o casi speciali. Altri raccomandano ulteriori indagini sul perché hai un residuo così grande. Ad esempio, potresti creare un modello di come lo stress influisce sui voti scolastici e teorizzare che più stress di solito significa voti peggiori. Se i tuoi dati mostrano che questo è vero, tranne per una persona, che ha uno stress molto basso e voti molto bassi, potresti chiederti perché. Una persona del genere potrebbe semplicemente non preoccuparsi di nulla, inclusa la scuola, spiegando il grande residuo. In questo caso, potresti prendere in considerazione la possibilità di estrarre il residuo dal tuo set di dati perché desideri modellare solo gli studenti che hanno a cuore la scuola.