Gli statistici e gli scienziati hanno spesso l'obbligo di studiare la relazione tra due variabili, comunemente chiamate xey. Lo scopo di testare una qualsiasi di queste due variabili è di solito quello di vedere se c'è qualche legame tra loro, noto come una correlazione nella scienza. Ad esempio, uno scienziato potrebbe voler sapere se ore di esposizione al sole possono essere collegate ai tassi di cancro della pelle. Per descrivere matematicamente la forza di una correlazione tra due variabili, tali investigatori usano spesso R2.
Regressione lineare
Gli statistici usano la tecnica della regressione lineare per trovare la retta che meglio si adatta a una serie di xey coppie di dati. Lo fanno attraverso una serie di calcoli che derivano l'equazione della linea migliore. Questa descrizione matematica della linea sarà un'equazione lineare e avrà la forma generale di y \u003d mx + b, dove xey sono le due variabili nelle coppie di dati, m è la pendenza della linea e b è la sua intercetta y.
Coefficiente di correlazione
I calcoli che trovano la migliore linea retta produrranno un'equazione lineare per adattarsi a qualsiasi insieme di dati, anche se tali dati non sono in realtà molto lineari. Per avere un'indicazione di quanto bene i dati si adattino effettivamente a una linea retta, gli statistici calcolano anche un numero noto come coefficiente di correlazione. Questo è dato dal simbolo r o R ed è una misura di quanto le coppie di dati siano strettamente allineate alla migliore linea retta attraverso di esse.
Il significato di R
R può avere un valore compreso tra -1 e 1 Un valore negativo di R significa semplicemente che la retta più adatta si inclina verso il basso muovendosi da sinistra a destra, piuttosto che verso l'alto. Più R è vicino a uno dei due estremi, migliore è l'adattamento dei dati alla linea, con -1 o 1 che è un adattamento perfetto e un valore R pari a zero significa che non c'è adattamento e che i punti sono totalmente casuale. Se i punti dati sono ben allineati alla linea retta, si dice che ci sia una certa correlazione tra loro, quindi il coefficiente di correlazione dei nomi per R.
R2
Alcuni statistici preferiscono lavorare con il valore di R2 , che è semplicemente il coefficiente di correlazione al quadrato, o moltiplicato per se stesso, ed è noto come coefficiente di determinazione. R2 è molto simile a R e descrive anche la correlazione tra le due variabili, tuttavia è anche leggermente diversa. Misura la percentuale di variazione nella variabile y che può essere attribuita alla variazione nella variabile x. Un valore R2 di 0,9, ad esempio, significa che il 90 percento della variazione nei dati y è dovuta alla variazione dei dati x. Questo non significa necessariamente che x stia davvero influenzando y, ma che sembra farlo.