La regressione lineare è un metodo statistico per esaminare la relazione tra una variabile dipendente, denotata come y, La regressione lineare è limitata alle relazioni lineari Per sua natura, la regressione lineare guarda solo alle relazioni lineari tra variabili dipendenti e indipendenti. Cioè, presuppone che esista una relazione lineare tra loro. A volte questo non è corretto. Ad esempio, la relazione tra reddito ed età è curva, cioè il reddito tende a salire nelle prime parti dell'età adulta, si appiattisce in età adulta e diminuisce dopo il pensionamento. Puoi capire se questo è un problema osservando le rappresentazioni grafiche delle relazioni. La regressione lineare guarda solo la media della variabile dipendente La regressione lineare osserva una relazione tra la media di la variabile dipendente e le variabili indipendenti. Ad esempio, se si guarda alla relazione tra il peso alla nascita dei neonati e le caratteristiche materne come l'età, la regressione lineare esaminerà il peso medio dei bambini nati da madri di età diverse. Tuttavia, a volte è necessario guardare gli estremi della variabile dipendente, ad esempio, i bambini sono a rischio quando i loro pesi sono bassi, quindi si vorrebbe guardare gli estremi in questo esempio. Proprio come la media non è una descrizione completa di una singola variabile, la regressione lineare non è una descrizione completa delle relazioni tra le variabili. È possibile affrontare questo problema utilizzando la regressione quantile. La regressione lineare è sensibile ai valori anomali I valori anomali sono dati sorprendenti. I valori anomali possono essere univariati (basati su una variabile) o multivariata. Se guardi all'età e al reddito, valori anomali univariati sarebbero cose come una persona che ha 118 anni o una che ha fatto 12 milioni di dollari l'anno scorso. Un outlier multivariato potrebbe essere un diciottenne che ha guadagnato $ 200.000. In questo caso, né l'età né il reddito sono molto estremi, ma pochissime persone di 18 anni guadagnano così tanto. I valori anomali possono avere enormi effetti sulla regressione. È possibile gestire questo problema richiedendo statistiche sull'influenza dal proprio software statistico. I dati devono essere indipendenti La regressione lineare presuppone che i dati siano indipendenti. Ciò significa che i punteggi di un soggetto (come una persona) non hanno nulla a che fare con quelli di un altro. Questo è spesso, ma non sempre, ragionevole. Due casi comuni in cui non ha senso si raggruppano nello spazio e nel tempo. Un classico esempio di clustering nello spazio sono i punteggi dei test degli studenti, quando si hanno studenti di varie classi, gradi, scuole e distretti scolastici. Gli studenti della stessa classe tendono ad essere simili in molti modi, cioè, spesso provengono dagli stessi quartieri, hanno gli stessi insegnanti, ecc. Quindi, non sono indipendenti. Esempi di clustering nel tempo sono qualsiasi studio in cui si misurano gli stessi soggetti più volte. Ad esempio, in uno studio sulla dieta e sul peso, potresti misurare ogni persona più volte. Questi dati non sono indipendenti perché ciò che una persona pesa in un'occasione è legato a ciò che lui o lei pesa in altre occasioni. Un modo per affrontare questo problema è con i modelli multilivello.
e una o più variabili indipendenti, indicate come x
. La variabile dipendente deve essere continua, in quanto può assumere qualsiasi valore o almeno chiudersi al continuo. Le variabili indipendenti possono essere di qualsiasi tipo. Sebbene la regressione lineare non possa mostrare la causalità da sola, la variabile dipendente è solitamente influenzata dalle variabili indipendenti.