Statistiche e analisi di regressione lineare

La regressione lineare è una tecnica statistica utilizzata per saperne di più sulla relazione tra una variabile indipendente (predittore) e una variabile dipendente (criterio). Quando nell'analisi sono presenti più variabili indipendenti, questa viene definita regressione lineare multipla. In generale, la regressione consente al ricercatore di porre la domanda generale "Qual è il miglior predittore di ???"

Ad esempio, supponiamo che stessimo studiando le cause di obesità, misurato dall'indice di massa corporea (BMI). In particolare, volevamo vedere se le seguenti variabili fossero predittori significativi dell'IMC di una persona: numero di fast food pasti consumati a settimana, numero di ore di visione televisiva a settimana, numero di minuti trascorsi a settimana di allenamento e genitori " BMI. La regressione lineare sarebbe una buona metodologia per questa analisi.

L'equazione della regressione

Quando si esegue un'analisi di regressione con una variabile indipendente, l'equazione di regressione è Y = a + b * X dove Y è la variabile dipendente, X è la variabile indipendente, a è la costante (o intercetta) e b è il

instagram viewer

pendenza della linea di regressione. Ad esempio, supponiamo che GPA sia meglio previsto dall'equazione di regressione 1 + 0,02 * IQ. Se uno studente avesse un QI di 130, allora il suo GPA sarebbe 3,6 (1 + 0,02 * 130 = 3,6).

Quando stai conducendo un'analisi di regressione in cui hai più di una variabile indipendente, l'equazione di regressione è Y = a + b1 * X1 + b2 * X2 +... + Bp * Xp. Ad esempio, se volessimo includere più variabili nella nostra analisi GPA, come misure di motivazione e autodisciplina, utilizzeremmo questo equazione.

R-Square

R-quadrato, noto anche come coefficiente di determinazione, è una statistica comunemente usata per valutare l'adattamento del modello di un'equazione di regressione. Cioè, quanto sono buone tutte le tue variabili indipendenti nel prevedere la tua variabile dipendente? Il valore di R-square varia da 0,0 a 1,0 e può essere moltiplicato per 100 per ottenere una percentuale di varianza ha spiegato. Ad esempio, tornando alla nostra equazione di regressione GPA con una sola variabile indipendente (QI)... Diciamo che il nostro Il quadrato R per l'equazione era 0,4. Potremmo interpretare questo per significare che il 40% della varianza in GPA è spiegato da IQ. Se poi aggiungiamo le nostre altre due variabili (motivazione e autodisciplina) e il R-quadrato aumenta a 0.6, questo significa che QI, motivazione e autodisciplina spiegano insieme il 60% della varianza in GPA punteggi.

Le analisi di regressione vengono in genere eseguite utilizzando software statistico, come SPSS o SAS e quindi il R-square viene calcolato per te.

Interpretazione dei coefficienti di regressione (b)

I coefficienti b delle equazioni precedenti rappresentano la forza e la direzione della relazione tra le variabili indipendenti e dipendenti. Se osserviamo l'equazione GPA e IQ, 1 + 0,02 * 130 = 3,6, 0,02 è il coefficiente di regressione per il QI variabile. Questo ci dice che la direzione della relazione è positiva in modo che all'aumentare del QI aumenti anche GPA. Se l'equazione fosse 1 - 0,02 * 130 = Y, ciò significherebbe che la relazione tra QI e GPA era negativa.

ipotesi

Esistono diversi presupposti sui dati che devono essere soddisfatti per condurre un'analisi di regressione lineare:

Linearità: Si presume che la relazione tra le variabili indipendenti e dipendenti sia lineare. Sebbene questa ipotesi non possa mai essere pienamente confermata, guardando a grafico a dispersione delle tue variabili può aiutarti a fare questa determinazione. Se è presente una curvatura nella relazione, è possibile considerare di trasformare le variabili o consentire esplicitamente componenti non lineari.
Normalità: Si presume che il residui delle tue variabili sono normalmente distribuite. Cioè, gli errori nella previsione del valore di Y (la variabile dipendente) sono distribuiti in un modo che si avvicina alla curva normale. Puoi guardare istogrammi o normali grafici di probabilità per ispezionare la distribuzione delle variabili e i loro valori residui.
Indipendenza: Si presume che gli errori nella previsione del valore di Y siano tutti indipendenti l'uno dall'altro (non correlati).
omoschedasticità: Si presume che la varianza attorno alla linea di regressione sia la stessa per tutti i valori delle variabili indipendenti.

fonte

_{StatSoft: Manuale di statistica elettronica. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.}