Esempio di test T a due campioni e intervallo di confidenza

click fraud protection

A volte nelle statistiche, è utile vedere esempi risolti di problemi. Questi esempi possono aiutarci a capire problemi simili. In questo articolo, esamineremo il processo di conduzione di statistiche inferenziali per un risultato riguardante due mezzi di popolazione. Non solo vedremo come condurre a test di ipotesi sulla differenza di due mezzi di popolazione, costruiremo anche a intervallo di confidenza per questa differenza. I metodi che utilizziamo sono talvolta chiamati test a due campioni e intervallo di confidenza a due campioni.

La dichiarazione del problema

Supponiamo di voler testare l'attitudine matematica dei bambini delle scuole elementari. Una domanda che potremmo avere è se i livelli più alti hanno punteggi dei test medi più alti.

Un semplice campione casuale di 27 alunni di terza elementare viene sottoposto a un test di matematica, le loro risposte vengono valutate e si ottiene che i risultati hanno un punteggio medio di 75 punti con un deviazione standard del campione di 3 punti.

instagram viewer

Un semplice campione casuale di 20 alunni di quinta elementare riceve lo stesso test di matematica e le loro risposte vengono valutate. Il punteggio medio per la quinta elementare è di 84 punti con una deviazione standard del campione di 5 punti.

Dato questo scenario, poniamo le seguenti domande:

  • I dati del campione ci forniscono prove del fatto che il punteggio medio del test della popolazione di tutti i quinti elementari supera il punteggio medio del test della popolazione di tutti i terzi alunni?
  • Qual è un intervallo di confidenza del 95% per la differenza nei punteggi medi dei test tra le popolazioni di terza elementare e quinta elementare?

Condizioni e procedura

Dobbiamo selezionare quale procedura utilizzare. Nel fare ciò, dobbiamo accertarci e verificare che siano state soddisfatte le condizioni per questa procedura. Ci viene chiesto di confrontare due mezzi di popolazione. Una raccolta di metodi che possono essere utilizzati per fare questo sono quelli per le procedure T a due campioni.

Per utilizzare queste procedure t per due campioni, è necessario assicurarsi che le seguenti condizioni siano valide:

  • Abbiamo due semplici campioni casuali delle due popolazioni di interesse.
  • I nostri semplici campioni casuali non costituiscono più del 5% della popolazione.
  • I due campioni sono indipendenti l'uno dall'altro e non esiste corrispondenza tra i soggetti.
  • La variabile è normalmente distribuita.
  • Sia la media della popolazione sia la deviazione standard sono sconosciute per entrambe le popolazioni.

Vediamo che la maggior parte di queste condizioni sono soddisfatte. Ci è stato detto che abbiamo semplici campioni casuali. Le popolazioni che stiamo studiando sono grandi in quanto ci sono milioni di studenti in questi livelli scolastici.

La condizione che non siamo in grado di assumere automaticamente è se i punteggi dei test sono normalmente distribuiti. Dato che abbiamo una dimensione del campione abbastanza grande, per la robustezza delle nostre procedure a T non abbiamo necessariamente bisogno che la variabile sia normalmente distribuita.

Poiché le condizioni sono soddisfatte, eseguiamo un paio di calcoli preliminari.

Errore standard

L'errore standard è una stima di una deviazione standard. Per questa statistica, aggiungiamo la varianza del campione dei campioni e quindi prendiamo la radice quadrata. Questo dà la formula:

(S1 2 / n1 + S22 / n2)1/2

Usando i valori sopra, vediamo che il valore dell'errore standard è

(32 / 27+ 52 / 20)1/2 =(1 / 3 + 5 / 4 )1/2 = 1.2583

Gradi di libertà

Possiamo usare l'approssimazione conservativa per la nostra gradi di libertà. Ciò può sottostimare il numero di gradi di libertà, ma è molto più facile da calcolare rispetto all'utilizzo della formula di Welch. Usiamo la più piccola delle due dimensioni del campione, quindi sottraggiamo una da questo numero.

Per il nostro esempio, il più piccolo dei due campioni è 20. Ciò significa che il numero di gradi di libertà è 20 - 1 = 19.

Test di ipotesi

Desideriamo verificare l'ipotesi che gli studenti di quinta elementare abbiano un punteggio medio di prova superiore al punteggio medio degli studenti di terza elementare. Lascia che μ1 essere il punteggio medio della popolazione di tutti i quinti elementari. Allo stesso modo, lasciamo μ2 essere il punteggio medio della popolazione di tutti i alunni di terza elementare.

Le ipotesi sono le seguenti:

  • H0: μ1 - μ2 = 0
  • Hun': μ1 - μ2 > 0

La statistica del test è la differenza tra i mezzi di campionamento, che viene quindi divisa per l'errore standard. Poiché stiamo utilizzando deviazioni standard del campione per stimare la deviazione standard della popolazione, la statistica del test dalla distribuzione t.

Il valore della statistica test è (84 - 75) / 1.2583. Questo è circa 7,15.

Determiniamo ora qual è il valore p per questo test di ipotesi. Osserviamo il valore della statistica del test e dove si trova su una distribuzione t con 19 gradi di libertà. Per questa distribuzione, abbiamo 4,2 x 10-7 come nostro valore p. (Un modo per determinare ciò è utilizzare la funzione T.DIST.RT in Excel.)

Dato che abbiamo un valore p così piccolo, rifiutiamo l'ipotesi nulla. La conclusione è che il punteggio medio del test per la quinta elementare è superiore al punteggio medio del test per la terza elementare.

Intervallo di confidenza

Poiché abbiamo stabilito che esiste una differenza tra i punteggi medi, ora determiniamo un intervallo di confidenza per la differenza tra questi due mezzi. Abbiamo già molto di ciò di cui abbiamo bisogno. L'intervallo di confidenza per la differenza deve avere sia una stima che un margine di errore.

La stima della differenza di due medie è semplice da calcolare. Troviamo semplicemente la differenza dei mezzi di esempio. Questa differenza dei mezzi del campione stima la differenza dei mezzi della popolazione.

Per i nostri dati, la differenza nelle medie dei campioni è 84 - 75 = 9.

Il margine di errore è leggermente più difficile da calcolare. Per questo, dobbiamo moltiplicare la statistica appropriata per l'errore standard. La statistica di cui abbiamo bisogno si trova consultando una tabella o un software statistico.

Usando ancora l'approssimazione conservativa, abbiamo 19 gradi di libertà. Per un intervallo di confidenza del 95%, vediamo che t* = 2.09. Potremmo usare il Funzione T.INV in Excel per calcolare questo valore.

Ora mettiamo insieme tutto e vediamo che il nostro margine di errore è 2,09 x 1,2583, che è circa 2,63. L'intervallo di confidenza è 9 ± 2,63. L'intervallo è compreso tra 6,37 e 11,63 punti sul test scelto dalla quinta e terza elementare.

instagram story viewer