Trovare la forza dell'associazione tra due variabili è un'abilità importante per gli scienziati di tutti i tipi. Se due variabili sono correlate tra loro, mostra che esiste un collegamento tra loro. Una correlazione positiva significa che quando una variabile aumenta, anche l'altra lo fa, e una correlazione negativa significa che quando una variabile aumenta, l'altra diminuisce. Le correlazioni non dimostrano la causalità, anche se è possibile che ulteriori test dimostrino una relazione causale tra le variabili. Il coefficiente di correlazione R mostra la forza della relazione tra le due variabili e se si tratta di una correlazione positiva o negativa.
TL; DR (troppo lungo; non letto)
Chiama una variabile xe una variabile y. Calcola il valore di R usando la formula:
R \u003d [n (Σxy) - (Σx) (Σy)] ÷ √ {[n Σx 2− (Σx) 2] [ , 3, [[n Σy 2− (Σy) 2]} Dove n è la dimensione del tuo campione. Crea una tabella dei tuoi dati. Ciò dovrebbe includere una colonna per il numero del partecipante, una colonna per la prima variabile (etichettata x) e una colonna per la seconda variabile (etichettata y). Ad esempio, se stai cercando di vedere se esiste una correlazione tra altezza e dimensioni della scarpa, una colonna identificherebbe ogni persona che misuri, una colonna mostrerebbe l'altezza di ogni persona e un'altra mostrerebbe la loro dimensione della scarpa. Crea tre colonne aggiuntive, una per xy, una per x 2 e una per y 2. Usa i tuoi dati per compilare le tre colonne aggiuntive. Ad esempio, immagina che la tua prima persona sia alta 75 pollici e abbia una dimensione di 12 piedi. La colonna x (altezza) mostrerebbe 75, e la colonna y (numero di scarpe) mostrerebbe 12. Devi trovare xy, x 2 e y 2. Quindi, usando questo esempio: xy \u003d 75 × 12 \u003d 900 x 2 \u003d 75 2 \u003d 5.625 y 2 \u003d 12 2 \u003d 144 Completa questi calcoli per ogni persona per cui hai i dati. Crea una nuova riga in la parte inferiore della tabella per le somme di ogni colonna. Sommare tutti i valori x, tutti i valori y, tutti i valori xy, tutti i valori x 2 e tutti i valori y 2, quindi inserire i risultati nella parte inferiore del colonna corrispondente nella nuova riga. Puoi etichettare la tua nuova riga "sum" o usare un simbolo sigma (Σ). Puoi trovare R dai tuoi dati usando la formula: R \u003d [n (Σxy) - (Σx) (Σy)] ÷ √ {[nΣx 2− (Σx) 2] [nΣy 2− (Σy) 2]} Sembra un po 'scoraggiante, quindi puoi dividerlo in due parti, che chiameremo s et. s \u003d n (Σxy) - (Σx) ( Σy) t \u003d √ {[n Σx 2− (Σx) 2] [n Σy 2− (Σy) 2]} In queste equazioni, n è il numero di partecipanti che hai (la dimensione del tuo campione). Il resto delle parti dell'equazione sono le somme calcolate nell'ultimo passaggio. Quindi per s, moltiplica la dimensione del tuo campione per la somma della colonna xy, quindi sottrai la somma della colonna x moltiplicata per la somma della colonna y da questo. Per t, ci sono quattro passaggi principali. Innanzitutto, calcola n moltiplicato per la somma della colonna x 2, quindi sottrai la somma della colonna x quadrata (moltiplicata per se stessa) da questo valore. In secondo luogo, fai esattamente la stessa cosa ma con la somma della colonna y 2 e la somma della colonna y quadrata al posto delle parti x (cioè, n × Σy 2 - [Σy × Σy]) . Terzo, moltiplica questi due risultati (per xs e ys) insieme. In quarto luogo, prendi la radice quadrata di questa risposta. Se hai lavorato in parti, puoi calcolare R semplicemente R \u003d s ÷ t. Riceverai una risposta tra -1 e 1. Una risposta positiva mostra una correlazione positiva, con qualcosa in più di 0,7 generalmente considerato una relazione forte. Una risposta negativa mostra una correlazione negativa, con qualsiasi cosa superiore a -0,7 considerata una relazione fortemente negativa. Allo stesso modo ± 0,5 è considerata una relazione moderata e ± 0,3 è considerata una relazione debole. Qualcosa vicino a 0 mostra una mancanza di correlazione.