La regressione multipla viene utilizzata per esaminare la relazione tra diverse variabili indipendenti e una variabile dipendente. Mentre i modelli di regressione multipla consentono di analizzare le influenze relative di queste variabili indipendenti o predittive sul dipendente o criterio, variabile, questi set di dati spesso complessi possono portare a conclusioni false se non vengono analizzate correttamente.
< h2> Esempi di regressione multipla
Un agente immobiliare potrebbe utilizzare la regressione multipla per analizzare il valore delle case. Ad esempio, potrebbe utilizzare come variabili indipendenti la dimensione delle case, la loro età, il numero di camere da letto, il prezzo medio della casa nel quartiere e la vicinanza alle scuole. Tracciandoli in un modello di regressione multipla, potrebbe quindi utilizzare questi fattori per vedere la loro relazione con i prezzi delle case come variabile del criterio.
Un altro esempio di utilizzo di un modello di regressione multipla potrebbe essere qualcuno nelle risorse umane che determina lo stipendio delle posizioni manageriali - la variabile criterio. Le variabili predittive potrebbero essere l'anzianità di ciascun manager, il numero medio di ore lavorate, il numero di persone gestite e il budget del responsabile del gestore.
Vantaggi della regressione multipla
Ci sono due vantaggi principali per analizzare i dati utilizzando un modello di regressione multipla. Il primo è la capacità di determinare l'influenza relativa di una o più variabili predittive sul valore del criterio. L'agente immobiliare potrebbe scoprire che la dimensione delle case e il numero di camere da letto hanno una forte correlazione con il prezzo di una casa, mentre la vicinanza alle scuole non ha alcuna correlazione o anche una correlazione negativa se è principalmente una pensione community.
Il secondo vantaggio è la capacità di identificare valori anomali o anomalie. Ad esempio, mentre esaminava i dati relativi ai salari di gestione, il responsabile delle risorse umane poteva scoprire che il numero di ore lavorate, le dimensioni del dipartimento e il suo budget avevano tutte una forte correlazione con i salari, mentre l'anzianità no. In alternativa, potrebbe essere che tutti i valori predittori elencati erano correlati a ciascuno dei salari esaminati, ad eccezione di un manager che era in eccesso rispetto agli altri.
Svantaggi della regressione multipla
Qualsiasi svantaggio derivante dall'utilizzo di un modello di regressione multipla di solito si riduce ai dati utilizzati. Due esempi di questo stanno usando dati incompleti e concludono erroneamente che una correlazione è una causalità.
Quando si esamina il prezzo delle case, supponiamo che l'agente immobiliare abbia guardato solo 10 case, sette delle quali sono state acquistate da giovani genitori. In questo caso, il rapporto tra la vicinanza delle scuole può indurla a credere che ciò abbia avuto un effetto sul prezzo di vendita di tutte le case vendute nella comunità. Questo illustra le insidie di dati incompleti. Se avesse usato un campione più ampio, avrebbe potuto scoprire che, su 100 case vendute, solo il dieci percento dei valori della casa erano legati alla vicinanza di una scuola. Se avesse usato l'età dei compratori come valore predittivo, avrebbe potuto scoprire che i compratori più giovani erano disposti a pagare di più per le case della comunità rispetto ai compratori più anziani.
Nell'esempio dei salari di management, supponiamo che ci fosse un outlier che aveva un budget minore, meno anzianità e con meno personale da gestire, ma stava facendo più di chiunque altro. Il manager delle risorse umane potrebbe esaminare i dati e concludere che questo individuo è stato pagato in eccesso. Tuttavia, questa conclusione sarebbe errata se non tenesse conto che questo manager era responsabile del sito Web della società e disponeva di uno skillet molto ambito nella sicurezza della rete.