Gli statistici e gli scienziati hanno spesso l'obbligo di indagare sulla relazione tra due variabili, comunemente chiamate x e y. Lo scopo di testare due variabili di questo tipo è di solito vedere se esiste un collegamento tra loro, noto come correlazione nella scienza. Ad esempio, uno scienziato potrebbe voler sapere se le ore di esposizione al sole possono essere collegate ai tassi di cancro della pelle. Per descrivere matematicamente la forza di una correlazione tra due variabili, tali investigatori usano spesso R2.
Regressione lineare
Gli statistici usano la tecnica della regressione lineare per trovare la retta che meglio si adatta a una serie di x e y coppie di dati. Lo fanno attraverso una serie di calcoli che derivano l'equazione della linea migliore. Questa descrizione matematica della linea sarà un'equazione lineare e avrà la forma generale di y = mx + b, dove xey sono le due variabili nelle coppie di dati, m è la pendenza della linea eb è la sua intercetta y.
Coefficiente di correlazione
I calcoli che trovano la migliore linea retta produrranno un'equazione lineare per adattarsi a qualsiasi insieme di dati, anche se tali dati non sono in realtà molto lineari. Al fine di avere un'indicazione di quanto bene i dati effettivamente si adattano a una linea retta, gli statistici calcolano anche un numero noto come coefficiente di correlazione. Questo è dato dal simbolo r o R ed è una misura di quanto strettamente allineate le coppie di dati sono alla migliore linea retta attraverso di esse.
Significato di R
R può avere qualsiasi valore tra - 1 e 1. Un valore negativo di R significa semplicemente che la linea retta che si adatta meglio si inclina verso il basso spostandosi da sinistra a destra, piuttosto che verso l'alto. Più la R è vicina ai due estremi, migliore è l'adattamento dei punti dati alla linea, con -1 o 1 che si adatta perfettamente e un valore R di zero che significa che non c'è adattamento e che i punti sono totalmente casuale. Se i punti dati sono ben allineati alla retta, si dice che c'è una certa correlazione tra loro, da qui il coefficiente di correlazione del nome per R.
R2
Alcuni statistici preferiscono lavorare con il valore di R2, che è semplicemente il coefficiente di correlazione al quadrato, o moltiplicato per se stesso, ed è noto come coefficiente di determinazione. R2 è molto simile a R e descrive anche la correlazione tra le due variabili, tuttavia è anche leggermente diverso. Misura la percentuale di variazione nella variabile y che può essere attribuita alla variazione nella variabile x. Un valore R2 di 0.9, ad esempio, significa che il 90 percento della variazione nei dati y è dovuto alla variazione dei dati x. Questo non significa necessariamente che x stia veramente influenzando y, ma sembra che lo stia facendo.