Che cos'è la correlazione nelle statistiche?

A volte i dati numerici vengono forniti in coppia. Forse a paleontologo misura la lunghezza del femore (osso della gamba) e dell'omero (osso del braccio) in cinque fossili della stessa specie di dinosauro. Potrebbe avere senso considerare le lunghezze del braccio separatamente dalle lunghezze delle gambe e calcolare cose come la media o la deviazione standard. Ma cosa succede se il ricercatore è curioso di sapere se esiste una relazione tra queste due misurazioni? Non è sufficiente guardare le braccia separatamente dalle gambe. Invece, il paleontologo dovrebbe accoppiare le lunghezze delle ossa per ogni scheletro e utilizzare un'area di statistica noto come correlazione.

Cos'è la correlazione? Nell'esempio sopra supponiamo che il ricercatore abbia studiato i dati e raggiunto il non molto sorprendente risultato che fossili di dinosauro con le braccia più lunghe avevano anche gambe più lunghe, e fossili con le braccia più corte avevano gambe più corte. Un grafico a dispersione dei dati ha mostrato che i punti di dati erano tutti raggruppati vicino a una linea retta. Il ricercatore direbbe quindi che esiste una forte relazione retta, o

instagram viewer
correlazione, tra le lunghezze delle ossa del braccio e le ossa delle gambe dei fossili. Richiede altro lavoro per dire quanto sia forte la correlazione.

Correlazione e grafici a dispersione

Poiché ogni punto dati rappresenta due numeri, un grafico a dispersione bidimensionale è di grande aiuto nella visualizzazione dei dati. Supponiamo che in realtà abbiamo le mani sui dati dei dinosauri e che i cinque fossili abbiano le seguenti misurazioni:

  1. Femore 50 cm, omero 41 cm
  2. Femore 57 cm, omero 61 cm
  3. Femore 61 cm, omero 71 cm
  4. Femore 66 cm, omero 70 cm
  5. Femore 75 cm, omero 82 cm

Un grafico a dispersione dei dati, con misurazione del femore in direzione orizzontale e misurazione dell'omero in direzione verticale, produce il grafico sopra. Ogni punto rappresenta le misure di uno degli scheletri. Ad esempio, il punto in basso a sinistra corrisponde allo scheletro n. 1. Il punto in alto a destra è lo scheletro n. 5.

Sembra certamente che potremmo tracciare una linea retta che sia molto vicina a tutti i punti. Ma come possiamo dirlo con certezza? La vicinanza è negli occhi di chi guarda. Come facciamo a sapere che le nostre definizioni di "vicinanza" corrispondono a qualcun altro? Esiste un modo per quantificare questa vicinanza?

Coefficiente di correlazione

Per misurare oggettivamente la vicinanza dei dati a una linea retta, il coefficiente di correlazione viene in soccorso. Il coefficiente di correlazione, generalmente indicato r, è un numero reale compreso tra -1 e 1. Il valore di r misura la forza di una correlazione basata su una formula, eliminando qualsiasi soggettività nel processo. Esistono diverse linee guida da tenere a mente nell'interpretazione del valore di r.

  • Se r = 0 allora i punti sono un miscuglio completo senza assolutamente alcuna relazione tra i dati.
  • Se r = -1 o r = 1 quindi tutti i punti dati si allineano perfettamente su una linea.
  • Se r è un valore diverso da questi estremi, quindi il risultato è un adattamento non perfetto di una linea retta. Nei set di dati del mondo reale, questo è il risultato più comune.
  • Se r è positivo quindi la linea sta salendo con a pendenza positiva. Se r è negativo quindi la linea sta scendendo con pendenza negativa.

Il calcolo del coefficiente di correlazione

La formula per il coefficiente di correlazione r è complicato, come si può vedere qui. Gli ingredienti della formula sono le medie e le deviazioni standard di entrambe le serie di dati numerici, nonché il numero di punti dati. Per la maggior parte delle applicazioni pratiche r è noioso calcolare a mano. Se i nostri dati sono stati inseriti in un programma di calcolo o foglio elettronico con comandi statistici, quindi di solito esiste una funzione integrata da calcolare r.

Limitazioni di correlazione

Sebbene la correlazione sia uno strumento potente, ci sono alcune limitazioni nel suo utilizzo:

  • La correlazione non ci dice completamente tutto sui dati. I mezzi e le deviazioni standard continuano ad essere importanti.
  • I dati possono essere descritti da una curva più complicata di una linea retta, ma questo non verrà mostrato nel calcolo di r.
  • I valori anomali influenzano fortemente il coefficiente di correlazione. Se rileviamo valori anomali nei nostri dati, dovremmo fare attenzione a quali conclusioni traggiamo dal valore di r.
  • Solo perché due insiemi di dati sono correlati, ciò non significa che uno sia il causa dell'altro.
instagram story viewer