Gradi di libertà per l'indipendenza nella tabella a due vie

Il numero di gradi di libertà poiché l'indipendenza di due variabili categoriali è data da una semplice formula:r - 1)(c - 1). Qui r è il numero di righe e c è il numero di colonne nel file tavolo a due vie dei valori della variabile categoriale. Continua a leggere per saperne di più su questo argomento e per capire perché questa formula fornisce il numero corretto.

sfondo

Un passo nel processo di molti test di ipotesi è la determinazione del numero di gradi di libertà. Questo numero è importante perché per distribuzioni di probabilità che coinvolgono una famiglia di distribuzioni, come la distribuzione chi-quadro, il numero di gradi di la libertà individua l'esatta distribuzione dalla famiglia che dovremmo usare nella nostra ipotesi test.

I gradi di libertà rappresentano il numero di scelte libere che possiamo fare in una determinata situazione. Uno dei test di ipotesi che ci richiede di determinare i gradi di libertà è il chi-quadrato test di indipendenza per due variabili categoriali.

instagram viewer

Test per l'indipendenza e le tabelle a due vie

Il test chi-quadrato per l'indipendenza ci richiede di costruire una tabella a due vie, nota anche come tabella di contingenza. Questo tipo di tabella ha r righe e c colonne, che rappresentano il r livelli di una variabile categoriale e il c livelli dell'altra variabile categoriale. Pertanto, se non contiamo la riga e la colonna in cui registriamo i totali, ci sono un totale di rc celle nella tabella bidirezionale.

Il test chi-quadro per l'indipendenza ci consente di testare l'ipotesi che il categorico le variabili sono indipendenti l'una dall'altra. Come accennato in precedenza, il r righe e c le colonne nella tabella ci danno (r - 1)(c - 1) gradi di libertà. Ma potrebbe non essere immediatamente chiaro il motivo per cui questo è il numero corretto di gradi di libertà.

Il numero di gradi di libertà

Per capire perché (r - 1)(c - 1) è il numero corretto, esamineremo questa situazione in modo più dettagliato. Supponiamo di conoscere i totali marginali per ciascuno dei livelli delle nostre variabili categoriali. In altre parole, conosciamo il totale per ogni riga e il totale per ogni colonna. Per la prima fila, ci sono c colonne nella nostra tabella, quindi ci sono c le cellule. Una volta che conosciamo i valori di tutte le celle tranne una, quindi, poiché conosciamo il totale di tutte le celle, è un semplice problema di algebra determinare il valore della cella rimanente. Se stessimo compilando queste celle della nostra tabella, potremmo entrare c - 1 di essi liberamente, ma la cella rimanente viene determinata dal totale della riga. Quindi ci sono c - 1 grado di libertà per la prima fila.

Continuiamo in questo modo per la riga successiva e ce ne sono ancora c - 1 grado di libertà. Questo processo continua fino a quando non arriviamo alla penultima riga. Ognuna delle righe tranne l'ultima contribuisce c - 1 grado di libertà sul totale. Quando avremo tutti tranne l'ultima riga, allora perché conosciamo la somma delle colonne possiamo determinare tutte le voci dell'ultima riga. Questo ci dà r - 1 file con c - 1 grado di libertà in ciascuno di questi, per un totale di (r - 1)(c - 1) gradi di libertà.

Esempio

Lo vediamo con il seguente esempio. Supponiamo di avere una tabella a due vie con due variabili categoriali. Una variabile ha tre livelli e l'altra ha due. Supponiamo inoltre che conosciamo i totali di riga e colonna per questa tabella:

Livello A Livello B Totale
Livello 1 100
Livello 2 200
Livello 3 300
Totale 200 400 600

La formula prevede che ci siano (3-1) (2-1) = 2 gradi di libertà. Lo vediamo come segue. Supponiamo di riempire la cella in alto a sinistra con il numero 80. Ciò determinerà automaticamente l'intera prima riga di voci:

Livello A Livello B Totale
Livello 1 80 20 100
Livello 2 200
Livello 3 300
Totale 200 400 600

Ora se sappiamo che la prima voce nella seconda riga è 50, allora il resto della tabella viene compilato, perché conosciamo il totale di ogni riga e colonna:

Livello A Livello B Totale
Livello 1 80 20 100
Livello 2 50 150 200
Livello 3 70 230 300
Totale 200 400 600

La tabella è completamente compilata, ma avevamo solo due scelte libere. Una volta noti questi valori, il resto della tabella è stato completamente determinato.

Sebbene in genere non abbiamo bisogno di sapere perché ci siano così tanti gradi di libertà, è bene sapere che stiamo davvero applicando il concetto di gradi di libertà a una nuova situazione.