Che cos'è la robustezza nelle statistiche?

Nel statistica, il termine robustezza o robustezza si riferisce alla forza di un modello statistico, test e procedure in base alle condizioni specifiche dell'analisi statistica che uno studio spera di raggiungere. Dato che queste condizioni di uno studio sono soddisfatte, i modelli possono essere verificati come veri attraverso l'uso di prove matematiche.

Molti modelli si basano su situazioni ideali che non esistono quando si lavora con dati del mondo reale e, di conseguenza, il modello può fornire risultati corretti anche se le condizioni non sono soddisfatte esattamente.

Le statistiche solide, quindi, sono tutte le statistiche che producono buone prestazioni quando i dati sono estratti da una vasta gamma di distribuzioni di probabilità in gran parte non influenzate da valori anomali o piccole deviazioni dalle ipotesi del modello in un dato dato set di dati. In altre parole, una solida statistica è resistente agli errori nei risultati.

Un modo per osservare una solida procedura statistica comunemente usata, non è necessario guardare oltre le procedure a T, che utilizzano test di ipotesi per determinare le previsioni statistiche più accurate.

instagram viewer

Osservando le procedure a T.

Per un esempio di robustezza, considereremo t-procedure, che includono il intervallo di confidenza per una media della popolazione con deviazione standard della popolazione sconosciuta e test di ipotesi sulla media della popolazione.

L'uso di t-le procedure presuppone quanto segue:

L'insieme di dati con cui stiamo lavorando è a semplice campione casuale della popolazione.
La popolazione da cui abbiamo effettuato il campionamento è normalmente distribuita.

In pratica con esempi di vita reale, gli statistici raramente hanno una popolazione che è normalmente distribuita, quindi la domanda diventa invece: "Quanto sono robusti i nostri t-procedure?”

In generale, la condizione che abbiamo un semplice campione casuale è più importante della condizione che abbiamo campionato da una popolazione normalmente distribuita; la ragione di ciò è che il teorema del limite centrale garantisce una distribuzione campionaria approssimativamente normale: maggiore è la dimensione del nostro campione, più vicina sarà la distribuzione del campionamento del campione normale.

Come funzionano le procedure a T come statistiche affidabili

Quindi robustezza per t-procedure dipende dalla dimensione del campione e dalla distribuzione del nostro campione. Considerazioni per questo includono:

Se la dimensione dei campioni è grande, il che significa che abbiamo 40 o più osservazioni, quindi t-le procedure possono essere utilizzate anche con distribuzioni distorte.
Se la dimensione del campione è tra 15 e 40, allora possiamo usare t-procedure per qualsiasi distribuzione sagomata, a meno che non ci siano valori anomali o un alto grado di asimmetria.
Se la dimensione del campione è inferiore a 15, allora possiamo usare t- procedure per dati che non hanno valori anomali, un singolo picco e sono quasi simmetrici.

Nella maggior parte dei casi, la solidità è stata stabilita attraverso il lavoro tecnico nelle statistiche matematiche e, fortunatamente, non abbiamo necessariamente bisogno di fare questi calcoli matematici avanzati per farlo correttamente utilizzali; dobbiamo solo capire quali sono le linee guida generali per la solidità del nostro metodo statistico specifico.

Le procedure T funzionano come statistiche solide perché in genere forniscono buone prestazioni per questi modelli considerando le dimensioni del campione nella base per l'applicazione della procedura.