Statistiche riassuntive come la mediana, primo quartile e terzo quartile sono misure di posizione. Questo perché questi numeri indicano dove si trova una determinata proporzione della distribuzione dei dati. Ad esempio, la mediana è la posizione intermedia dei dati oggetto di indagine. La metà dei dati ha valori inferiori alla mediana. Allo stesso modo, il 25% dei dati ha valori inferiori al primo quartile e il 75% dei dati ha valori inferiori al terzo quartile.
Questo concetto può essere generalizzato. Un modo per farlo è considerare percentili. Il 90o percentile indica il punto in cui il 90% dei dati ha valori inferiori a questo numero. Più in generale, il pil percentile è il numero n per cui p% dei dati è inferiore a n.
Variabili casuali continue
Sebbene le statistiche dell'ordine di mediana, primo quartile e terzo quartile siano in genere introdotte in a impostazione con un insieme discreto di dati, queste statistiche possono anche essere definite per un casuale continuo variabile. Poiché stiamo lavorando con una distribuzione continua usiamo l'integrale. Il
pil percentile è un numero n tale che:∫-₶nf ( X ) dx = p/100.
Qui f ( X ) è una funzione di densità di probabilità. Quindi possiamo ottenere qualsiasi percentile che vogliamo per a continuo distribuzione.
quantili
Un'ulteriore generalizzazione è notare che le nostre statistiche sugli ordini stanno dividendo la distribuzione con cui stiamo lavorando. La mediana divide il set di dati a metà e la mediana, o 50 ° percentile di una distribuzione continua, divide la distribuzione a metà in termini di area. Il primo quartile, mediano e il terzo quartile suddivide i nostri dati in quattro parti con lo stesso conteggio in ciascuna. Possiamo usare l'integrale sopra per ottenere il 25 °, 50 ° e 75 ° percentile e dividere una distribuzione continua in quattro porzioni di uguale area.
Possiamo generalizzare questa procedura. Alla domanda da cui possiamo iniziare viene dato un numero naturale n, come possiamo dividere la distribuzione di una variabile in n pezzi di uguali dimensioni? Questo parla direttamente all'idea dei quantili.
Il n i quantili per un set di dati si trovano approssimativamente classificando i dati in ordine e quindi suddividendo questa classifica n - 1 punti equidistanti sull'intervallo.
Se abbiamo una funzione di densità di probabilità per una variabile casuale continua, usiamo l'integrale sopra per trovare i quantili. Per n quantili, vogliamo:
- Il primo ad avere 1 /n dell'area della distribuzione alla sua sinistra.
- Il secondo ad avere 2 /n dell'area della distribuzione alla sua sinistra.
- Il ravere r/n dell'area della distribuzione alla sua sinistra.
- L'ultimo ad avere (n - 1)/n dell'area della distribuzione alla sua sinistra.
Lo vediamo per qualsiasi numero naturale n, il n i quantili corrispondono al 100r/nth percentili, dove r può essere qualsiasi numero naturale compreso tra 1 e n - 1.
Quantili comuni
Alcuni tipi di quantili sono usati abbastanza comunemente per avere nomi specifici. Di seguito è riportato un elenco di questi:
- Il 2 quantile è chiamato mediana
- I 3 quantili sono chiamati tercili
- I 4 quantili sono chiamati quartili
- I 5 quantili sono chiamati quintili
- I 6 quantili sono chiamati sestili
- I 7 quantili sono chiamati settili
- Gli 8 quantili sono chiamati ottili
- I 10 quantili sono chiamati decili
- I 12 quantili sono chiamati duodecili
- I 20 quantili sono chiamati vigintili
- I 100 quantili sono chiamati percentili
- I 1000 quantili sono chiamati permille
Naturalmente, esistono altri quantili oltre a quelli nella lista sopra. Molte volte il quantile specifico utilizzato corrisponde alla dimensione del campione da un continuo distribuzione.
Uso di quantili
Oltre a specificare la posizione di un insieme di dati, i quantili sono utili in altri modi. Supponiamo di avere un semplice campione casuale da una popolazione e che la distribuzione della popolazione sia sconosciuta. Per determinare se un modello, come una distribuzione normale o Weibull, si adatta bene alla popolazione da cui abbiamo effettuato il campionamento, possiamo esaminare i quantili dei nostri dati e del modello.
Abbinando i quantili dai nostri dati campione ai quantili di un particolare distribuzione di probabilità, il risultato è una raccolta di dati associati. Tracciamo questi dati in un diagramma a dispersione, noto come diagramma quantile-quantile o diagramma q-q. Se il grafico a dispersione risultante è approssimativamente lineare, il modello si adatta perfettamente ai nostri dati.