La regressione multipla viene utilizzata per esaminare la relazione tra diverse variabili indipendenti e una variabile dipendente. Mentre i modelli di regressione multipla consentono di analizzare le influenze relative di queste variabili indipendenti o predittive sulla variabile dipendente o criterio, questi set di dati spesso complessi possono portare a false conclusioni se non vengono analizzati correttamente. di regressione multipla
Un agente immobiliare potrebbe utilizzare la regressione multipla per analizzare il valore delle case. Ad esempio, potrebbe usare come variabili indipendenti la dimensione delle case, la loro età, il numero di camere da letto, il prezzo medio delle case nel quartiere e la vicinanza alle scuole. Tracciando questi in un modello di regressione multipla, potrebbe quindi utilizzare questi fattori per vedere la loro relazione con i prezzi delle case come variabile di criterio.
Un altro esempio di utilizzo di un modello di regressione multipla potrebbe essere qualcuno che determina le risorse umane lo stipendio delle posizioni dirigenziali - la variabile di criterio. Le variabili predittive potrebbero essere l'anzianità di ciascun manager, il numero medio di ore lavorate, il numero di persone gestite e il budget dipartimentale del manager.
Vantaggi della regressione multipla
Ci sono due vantaggi principali nell'analisi dei dati usando un modello di regressione multipla. La prima è la capacità di determinare l'influenza relativa di una o più variabili predittive sul valore del criterio. L'agente immobiliare potrebbe scoprire che le dimensioni delle case e il numero di camere da letto hanno una forte correlazione con il prezzo di una casa, mentre la vicinanza alle scuole non ha alcuna correlazione, o addirittura una correlazione negativa se si tratta principalmente di una pensione comunità.
Il secondo vantaggio è la capacità di identificare valori anomali o anomalie. Ad esempio, durante la revisione dei dati relativi agli stipendi della direzione, il responsabile delle risorse umane ha scoperto che il numero di ore lavorate, la dimensione del dipartimento e il suo budget avevano tutti una forte correlazione con gli stipendi, mentre l'anzianità no. In alternativa, è possibile che tutti i valori dei predittori elencati siano correlati a ciascuno degli stipendi esaminati, ad eccezione di un manager che era stato pagato in eccesso rispetto agli altri.
Svantaggi della regressione multipla
Qualsiasi svantaggio dell'utilizzo di un modello di regressione multipla di solito si riduce ai dati utilizzati. Due esempi di questo sono l'utilizzo di dati incompleti e la falsa conclusione che una correlazione è una causalità.
Nel rivedere il prezzo delle case, ad esempio, supponiamo che l'agente immobiliare abbia esaminato solo 10 case, sette delle quali sono state acquistate dai giovani genitori. In questo caso, il rapporto tra la vicinanza delle scuole può indurla a credere che ciò abbia avuto un effetto sul prezzo di vendita di tutte le case vendute nella comunità. Questo illustra le insidie dei dati incompleti. Se avesse usato un campione più ampio, avrebbe potuto scoprire che, su 100 case vendute, solo il dieci percento dei valori delle case era legato alla vicinanza di una scuola. Se avesse usato l'età dei compratori come valore predittivo, avrebbe potuto scoprire che i compratori più giovani erano disposti a pagare di più per le case nella comunità rispetto ai compratori più anziani.
Nell'esempio dei salari di gestione, supponiamo che ci fosse uno straniero che aveva un budget più piccolo, meno anzianità e con meno personale da gestire ma stava guadagnando più di chiunque altro. Il responsabile delle risorse umane potrebbe esaminare i dati e concludere che questo individuo viene pagato in eccesso. Tuttavia, questa conclusione sarebbe errata se non avesse tenuto conto del fatto che questo gestore era responsabile del sito Web dell'azienda e che aveva un ambito di competenze molto ambito nella sicurezza della rete.