Quando un insieme di dati contiene due variabili che possono riguardare, come l'altezza e il peso degli individui, l'analisi di regressione trova una funzione matematica che meglio approssima la relazione. La somma dei residui è una misura dell'efficienza del lavoro svolto dalla funzione.
Residui
Nell'analisi di regressione, scegliamo una variabile come "variabile esplicativa", che chiameremo x e l'altra come "variabile di risposta" che chiameremo y. L'analisi di regressione crea la funzione y = f (x) che predice meglio la variabile di risposta dalla sua variabile esplicativa associata. Se x [i] è una delle variabili esplicative e y [i] la sua variabile di risposta, allora il residuo è l'errore, o differenza tra il valore effettivo di y [i] e il valore previsto di y [i]. In altre parole, residual = y [i] - f (x [i]).
Esempio
Un insieme di dati contiene le altezze in centimetri e pesi in chilogrammi di 5 persone: [ ,null,null,3],(152,54), (165,65), (175,100), (170,80), (140, 45)]. Una misura quadratica di peso, w, per altezza, h, è w = f (h) = 1160 -15.5_h + 0.054_h ^ 2. I residui sono (in kg): [2,38, 7,65, 1,25, 5,60, 3,40]. La somma dei residui è 15,5 kg.
Regressione lineare
Il tipo più semplice di regressione è la regressione lineare, in cui la funzione matematica è una retta della forma y = m * x + b . In questo caso, la somma dei residui è 0 per definizione.