Come calcolare il coefficiente di correlazione

Ci sono molte domande da porre quando si guarda un diagramma a dispersione. Uno dei più comuni è chiedersi quanto bene una linea retta approssima i dati. Per aiutare a rispondere a questa domanda, esiste una statistica descrittiva chiamata coefficiente di correlazione. Vedremo come calcolare questa statistica.

Il coefficiente di correlazione

Il coefficiente di correlazione, denotato da r, ci dice quanto strettamente i dati in a grafico a dispersione cadere lungo una linea retta. Più vicino a quello il valore assoluto di r è uno, meglio è che i dati sono descritti da un'equazione lineare. Se r = 1 o r = -1 quindi il set di dati è perfettamente allineato. Set di dati con valori di r vicino a zero mostra una relazione lineare da piccola a nulla.

A causa dei lunghi calcoli, è meglio calcolare r con l'uso di una calcolatrice o di un software statistico. Tuttavia, è sempre utile cercare di capire cosa sta facendo la calcolatrice durante il calcolo. Quello che segue è un processo per calcolare il coefficiente di correlazione principalmente a mano, con un calcolatore usato per i passi aritmetici di routine.

instagram viewer

Passaggi per il calcolo r

Inizieremo elencando i passaggi per il calcolo del coefficiente di correlazione. I dati con cui stiamo lavorando sono dati associati, ciascuna delle quali sarà indicata da (Xio, yio).

  1. Iniziamo con alcuni calcoli preliminari. Le quantità di questi calcoli verranno utilizzate nelle fasi successive del nostro calcolo di r:
    1. Calcola x̄, il significare di tutte le prime coordinate dei dati Xio.
    2. Calcola ȳ, la media di tutte le seconde coordinate dei dati
    3. yio.
    4. Calcolare S X il campione deviazione standard di tutte le prime coordinate dei dati Xio.
    5. Calcolare S y la deviazione standard del campione di tutte le seconde coordinate dei dati yio.
  2. Usa la formula (zX)io = (Xio - X) / S X e calcolare un valore standardizzato per ciascuno Xio.
  3. Usa la formula (zy)io = (yio – ȳ) / S y e calcolare un valore standardizzato per ciascuno yio.
  4. Moltiplicare i valori standardizzati corrispondenti: (zX)io(zy)io
  5. Aggiungi i prodotti dall'ultimo passaggio insieme.
  6. Dividi la somma dal passaggio precedente per n - 1, dove n è il numero totale di punti nella nostra serie di dati associati. Il risultato di tutto ciò è il coefficiente di correlazione r.

Questo processo non è difficile e ogni passaggio è abbastanza di routine, ma la raccolta di tutti questi passaggi è piuttosto complicata. Il calcolo della deviazione standard è abbastanza noioso da solo. Ma il calcolo del coefficiente di correlazione comporta non solo due deviazioni standard, ma una moltitudine di altre operazioni.

Un esempio

Per vedere esattamente come il valore di r si ottiene guardiamo un esempio. Ancora una volta, è importante notare che per applicazioni pratiche vorremmo usare la nostra calcolatrice o software statistico per calcolare r per noi.

Iniziamo con un elenco di dati associati: (1, 1), (2, 3), (4, 5), (5,7). La media di X valori, la media di 1, 2, 4 e 5 è x̄ = 3. Abbiamo anche che ȳ = 4. La deviazione standard di

X i valori sono SX = 1,83 e Sy = 2.58. La tabella seguente riassume gli altri calcoli necessari per r. La somma dei prodotti nella colonna più a destra è 2.969848. Dato che ci sono un totale di quattro punti e 4 - 1 = 3, dividiamo la somma dei prodotti per 3. Questo ci dà un coefficiente di correlazione di r = 2.969848/3 = 0.989949.

Tabella per esempi di calcolo del coefficiente di correlazione

X y zX zy zXzy
1 1 -1.09544503 -1.161894958 1.272792057
2 3 -0.547722515 -0.387298319 0.212132009
4 5 0.547722515 0.387298319 0.212132009
5 7 1.09544503 1.161894958 1.272792057