Come stimare le deviazioni standard (SD)

La deviazione standard e la gamma sono entrambe le misure di diffusione di un set di dati. Ogni numero ci dice a modo suo quanto sono distanziati i dati, poiché sono entrambi una misura della variazione. Anche se non esiste una relazione esplicita tra il intervallo e deviazione standard, c'è un regola del pollice che può essere utile per mettere in relazione queste due statistiche. Questa relazione viene talvolta definita regola di intervallo per la deviazione standard.

La regola dell'intervallo ci dice che la deviazione standard di un campione è approssimativamente uguale a un quarto dell'intervallo dei dati. In altre paroleS = (Massimo - minimo) / 4. Questa è una formula molto semplice da usare e dovrebbe essere usata solo come molto approssimativa stima della deviazione standard.

Un esempio

Per vedere un esempio di come funziona la regola di intervallo, vedremo l'esempio seguente. Supponiamo di iniziare con i valori dei dati di 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Questi valori hanno a

instagram viewer

significare di 17 e una deviazione standard di circa 4.1. Se invece calcoliamo prima l'intervallo dei nostri dati come 25 - 12 = 13 e quindi dividere questo numero per quattro abbiamo la nostra stima della deviazione standard come 13/4 = 3.25. Questo numero è relativamente vicino alla vera deviazione standard e buono per una stima approssimativa.

Perché funziona

Può sembrare che la regola di intervallo sia un po 'strana. Perché funziona Non sembra del tutto arbitrario dividere il range per quattro? Perché non dovremmo dividere per un numero diverso? In realtà c'è qualche giustificazione matematica in corso dietro le quinte.

Richiama le proprietà di campana curva e le probabilità da a distribuzione normale standard. Una caratteristica ha a che fare con la quantità di dati che rientra in un certo numero di deviazioni standard:

Circa il 68% dei dati si trova all'interno di una deviazione standard (superiore o inferiore) dalla media.
Circa il 95% dei dati si trova entro due deviazioni standard (superiore o inferiore) dalla media.
Circa il 99% si trova entro tre deviazioni standard (superiore o inferiore) dalla media.

Il numero che useremo ha a che fare con il 95%. Possiamo dire che il 95% da due deviazioni standard sotto la media a due deviazioni standard sopra la media, abbiamo il 95% dei nostri dati. Quindi quasi tutta la nostra distribuzione normale si estenderebbe su un segmento di linea lungo complessivamente quattro deviazioni standard.

Normalmente non tutti i dati sono distribuiti e sono modellati a forma di campana. Ma la maggior parte dei dati è abbastanza ben condotta che allontanando due deviazioni standard dalla media acquisisce quasi tutti i dati. Stimiamo e diciamo che quattro deviazioni standard sono approssimativamente le dimensioni dell'intervallo, e quindi l'intervallo diviso per quattro è un'approssimazione approssimativa della deviazione standard.

Utilizza per la Range Range

La regola di intervallo è utile in una serie di impostazioni. Innanzitutto, è una stima molto rapida della deviazione standard. La deviazione standard richiede prima di trovare la media, quindi sottrarre questa media da ciascun punto dati, quadrato le differenze, aggiungere queste, dividere per uno in meno del numero di punti dati, quindi (finalmente) prendere il quadrato radice. D'altra parte, la regola di intervallo richiede solo una sottrazione e una divisione.

Altri luoghi in cui la regola di intervallo è utile è quando disponiamo di informazioni incomplete. Formule come quella per determinare la dimensione del campione richiedono tre informazioni: la desiderata margine di errore, il livello di fiducia e la deviazione standard della popolazione che stiamo studiando. Molte volte è impossibile sapere quale sia la popolazione deviazione standard è. Con la regola dell'intervallo, possiamo stimare questa statistica e quindi sapere quanto grande dovremmo fare il nostro campione.