Molte volte nello studio di statistica è importante stabilire connessioni tra diversi argomenti. Vedremo un esempio di ciò in cui la pendenza della linea di regressione è direttamente correlata alla coefficiente di correlazione. Dato che entrambi questi concetti implicano linee rette, è naturale porre la domanda "Come sono il coefficiente di correlazione e linea meno quadrata relazionato?"
Innanzitutto, esamineremo alcuni retroscena su entrambi questi argomenti.
Dettagli relativi alla correlazione
È importante ricordare i dettagli relativi al coefficiente di correlazione, che è indicato da r. Questa statistica viene utilizzata quando l'abbiamo abbinato dati quantitativi. Da un diagramma a dispersione di dati associati, possiamo cercare tendenze nella distribuzione complessiva dei dati. Alcuni dati associati mostrano uno schema lineare o lineare. Ma in pratica, i dati non cadono mai esattamente lungo una linea retta.
Diverse persone guardano lo stesso grafico a dispersione dei dati accoppiati non sarebbe d'accordo su quanto fosse vicino a mostrare una tendenza lineare globale. Dopotutto, i nostri criteri per questo possono essere in qualche modo soggettivi. La scala che utilizziamo potrebbe anche influenzare la nostra percezione dei dati. Per questi motivi e altro, abbiamo bisogno di un qualche tipo di misura oggettiva per dire quanto i nostri dati associati siano vicini all'essere lineari. Il coefficiente di correlazione raggiunge questo per noi.
Alcuni fatti di base su r includere:
- Il valore di r varia tra un numero reale compreso tra -1 e 1.
- Valori di r vicino a 0 implica che c'è poca o nessuna relazione lineare tra i dati.
- Valori di r vicino a 1 implica che esiste una relazione lineare positiva tra i dati. Ciò significa che come X aumenta quello y aumenta anche.
- Valori di r vicino a -1 implica che esiste una relazione lineare negativa tra i dati. Ciò significa che come X aumenta quello y diminuisce.
La pendenza della linea dei minimi quadrati
Gli ultimi due elementi nell'elenco sopra ci indicano la pendenza della linea dei minimi quadrati della migliore misura. Ricorda che la pendenza di una linea è una misura di quante unità sale o scende per ogni unità che spostiamo verso destra. A volte questo viene indicato come aumento della linea diviso per la corsa o cambiamento y valori divisi per la modifica in X valori.
In generale, le linee rette hanno pendenze positive, negative o zero. Se dovessimo esaminare le nostre linee di regressione meno quadrate e confrontare i corrispondenti valori di r, noteremo che ogni volta che i nostri dati hanno un coefficiente di correlazione negativo, la pendenza della linea di regressione è negativa. Allo stesso modo, per ogni volta che abbiamo un coefficiente di correlazione positivo, la pendenza della linea di regressione è positiva.
Da questa osservazione dovrebbe essere evidente che esiste sicuramente una connessione tra il segno del coefficiente di correlazione e la pendenza della linea dei minimi quadrati. Resta da spiegare perché questo è vero.
La formula per il pendio
Il motivo della connessione tra il valore di r e la pendenza della linea dei minimi quadrati ha a che fare con la formula che ci dà la pendenza di questa linea. Per i dati associati (x, y) denotiamo il deviazione standard del X dati di SX e la deviazione standard di y dati di Sy.
La formula per la pendenza un' della linea di regressione è:
- a = r (sy/SX)
Il calcolo di una deviazione standard implica il rilevamento della radice quadrata positiva di un numero non negativo. Di conseguenza, entrambe le deviazioni standard nella formula per la pendenza devono essere non negative. Se assumiamo che ci sia qualche variazione nei nostri dati, saremo in grado di ignorare la possibilità che una di queste deviazioni standard sia zero. Pertanto il segno del coefficiente di correlazione sarà lo stesso del segno della pendenza della linea di regressione.