Intervallo di confidenza per la differenza di due proporzioni della popolazione

Intervalli di confidenza fanno parte di statistica inferenziale. L'idea alla base di questo argomento è stimare il valore di una popolazione sconosciuta parametro usando un campione statistico. Non possiamo solo stimare il valore di un parametro, ma possiamo anche adattare i nostri metodi per stimare la differenza tra due parametri correlati. Ad esempio, potremmo voler trovare la differenza nella percentuale della popolazione elettorale statunitense che sostiene un particolare atto legislativo rispetto alla popolazione elettorale femminile.

Vedremo come eseguire questo tipo di calcolo costruendo un intervallo di confidenza per la differenza di due proporzioni della popolazione. Nel processo esamineremo parte della teoria alla base di questo calcolo. Vedremo alcune somiglianze nel modo in cui costruiamo a intervallo di confidenza per una singola proporzione di popolazione così come a intervallo di confidenza per la differenza di due mezzi di popolazione.

Generalità

Prima di esaminare la formula specifica che utilizzeremo, consideriamo il quadro generale in cui si inserisce questo tipo di intervallo di confidenza. La forma del tipo di intervallo di confidenza che vedremo è data dalla seguente formula:

instagram viewer

Stima +/- Margine di errore

Molti intervalli di confidenza sono di questo tipo. Ci sono due numeri che dobbiamo calcolare. Il primo di questi valori è la stima per il parametro. Il secondo valore è il margine di errore. Questo margine di errore spiega il fatto che abbiamo una stima. L'intervallo di confidenza ci fornisce una gamma di possibili valori per il nostro parametro sconosciuto.

condizioni

Dovremmo assicurarci che tutte le condizioni siano soddisfatte prima di fare qualsiasi calcolo. Per trovare un intervallo di confidenza per la differenza di due proporzioni della popolazione, dobbiamo assicurarci che sia valido quanto segue:

  • Ne abbiamo due semplici campioni casuali da grandi popolazioni. Qui "grande" significa che la popolazione è almeno 20 volte più grande della dimensione del campione. Le dimensioni del campione saranno indicate da n1 e n2.
  • I nostri individui sono stati scelti indipendentemente l'uno dall'altro.
  • Ci sono almeno dieci successi e dieci fallimenti in ciascuno dei nostri campioni.

Se l'ultimo elemento nell'elenco non è soddisfatto, potrebbe esserci un modo per aggirare questo. Possiamo modificare il intervallo di confidenza più-quattro costruzione e ottenere risultati affidabili. Mentre procediamo, assumiamo che tutte le condizioni di cui sopra siano state soddisfatte.

Campioni e proporzioni della popolazione

Ora siamo pronti a costruire il nostro intervallo di confidenza. Iniziamo con la stima della differenza tra le proporzioni della nostra popolazione. Entrambe queste proporzioni di popolazione sono stimate da una proporzione campionaria. Queste proporzioni del campione sono statistiche che si trovano dividendo il numero di successi in ciascun campione e quindi dividendo per la rispettiva dimensione del campione.

La prima proporzione di popolazione è indicata da p1. Se il numero di successi nel nostro campione da questa popolazione è K1, quindi abbiamo una proporzione di esempio di K1 / n1.

Indichiamo questa statistica con p̂1. Leggiamo questo simbolo come "p1-che "perché sembra il simbolo p1 con un cappello in cima.

In modo simile possiamo calcolare una proporzione campionaria dalla nostra seconda popolazione. Il parametro di questa popolazione è p2. Se il numero di successi nel nostro campione da questa popolazione è K2e la nostra proporzione del campione è p̂2 = k2 / n2.

Queste due statistiche diventano la prima parte del nostro intervallo di confidenza. La stima di p1 è p̂1. La stima di p2 è p̂2. Quindi il preventivo per la differenza p1 - p2 è p̂1 - p̂2.

Distribuzione campionaria della differenza delle proporzioni del campione

Successivamente è necessario ottenere la formula per il margine di errore. Per fare questo considereremo prima il distribuzione campionaria di p̂1 . Questa è una distribuzione binomiale con probabilità di successo p1 e n1 prove. La media di questa distribuzione è la proporzione p1. La deviazione standard di questo tipo di variabile casuale ha una varianza di p1 (1 - p1 )/n1.

La distribuzione campionaria di p̂2 è simile a quello di p̂1 . Basta cambiare tutti gli indici da 1 a 2 e abbiamo una distribuzione binomiale con media di p2 e varianza di p2 (1 - p2 )/n2.

Ora abbiamo bisogno di alcuni risultati dalle statistiche matematiche per determinare la distribuzione campionaria di p of1 - p̂2. La media di questa distribuzione è p1 - p2. A causa del fatto che le varianze si sommano, vediamo che la varianza della distribuzione campionaria è p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. La deviazione standard della distribuzione è la radice quadrata di questa formula.

Ci sono un paio di aggiustamenti che dobbiamo fare. Il primo è che la formula per la deviazione standard di p̂1 - p̂2 utilizza i parametri sconosciuti di p1 e p2. Naturalmente se conoscessimo davvero questi valori, non sarebbe affatto un problema statistico interessante. Non avremmo bisogno di stimare la differenza tra p1 e p2.. Invece potremmo semplicemente calcolare la differenza esatta.

Questo problema può essere risolto calcolando un errore standard anziché una deviazione standard. Tutto quello che dobbiamo fare è sostituire le proporzioni della popolazione con proporzioni del campione. Gli errori standard vengono calcolati in base alle statistiche anziché ai parametri. Un errore standard è utile perché stima efficacemente una deviazione standard. Ciò che questo significa per noi è che non abbiamo più bisogno di conoscere il valore dei parametri p1 e p2. .Poiché queste proporzioni di esempio sono note, l'errore standard è dato dalla radice quadrata della seguente espressione:

p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.

Il secondo elemento che dobbiamo affrontare è la forma particolare della nostra distribuzione campionaria. Si scopre che possiamo usare una distribuzione normale per approssimare la distribuzione campionaria di p̂1 - p̂2. La ragione di ciò è in qualche modo tecnica, ma è delineata nel prossimo paragrafo.

Entrambi p̂1 e p̂2 avere una distribuzione di campionamento binomiale. Ognuna di queste distribuzioni binomiali può essere approssimata abbastanza bene da una distribuzione normale. Quindi p̂1 - p̂2 è una variabile casuale. È formato come una combinazione lineare di due variabili casuali. Ognuno di questi è approssimato da una distribuzione normale. Pertanto, la distribuzione campionaria di p̂1 - p̂2 è anche normalmente distribuito.

Formula intervallo di confidenza

Ora abbiamo tutto il necessario per assemblare il nostro intervallo di confidenza. La stima è (p̂1 - p̂2) e il margine di errore è z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Il valore per cui inseriamo z * è dettato dal livello di fiducia C. Valori comunemente usati per z * sono 1.645 per il 90% di confidenza e 1,96 per il 95% di confidenza. Questi valori per z * denotare esattamente la parte della distribuzione normale standard C la percentuale della distribuzione è tra -z * e z *.

La seguente formula ci fornisce un intervallo di confidenza per la differenza di due proporzioni della popolazione:

(p1 - p̂2) +/- z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5

instagram story viewer