Che cos'è il bootstrap in riferimento alle statistiche?

Il bootstrap è una tecnica statistica che rientra nella più ampia rubrica del ricampionamento. Questa tecnica prevede una procedura relativamente semplice, ma ripetuta così tante volte da dipendere fortemente dai calcoli del computer. Il bootstrap fornisce un metodo diverso dagli intervalli di confidenza per stimare un parametro di popolazione. Il bootstrap sembra funzionare come per magia. Continua a leggere per vedere come ottiene il suo nome interessante.

Una spiegazione del bootstrap

Un obiettivo di statistica inferenziale è determinare il valore di un parametro di una popolazione. In genere è troppo costoso o addirittura impossibile misurarlo direttamente. Quindi usiamo campionamento statistico. Campioniamo una popolazione, misuriamo una statistica di questo campione e quindi usiamo questa statistica per dire qualcosa sul parametro corrispondente della popolazione.

Ad esempio, in una fabbrica di cioccolato, potremmo voler garantire che le barrette di cioccolato abbiano un particolare

instagram viewer
significare peso. Non è possibile pesare ogni barretta prodotta, quindi utilizziamo tecniche di campionamento per scegliere casualmente 100 barrette. Calcoliamo la media di queste 100 barrette di cioccolato e diciamo che la media della popolazione rientra in un margine di errore rispetto alla media del nostro campione.

Supponiamo che qualche mese dopo vogliamo sapere con maggiore precisione - o meno di a margine di errore - quale era il peso medio della barretta di cioccolato nel giorno in cui abbiamo campionato la linea di produzione. Non possiamo usare anche le barrette di cioccolato di oggi molte variabili sono entrati in scena (diversi lotti di latte, zucchero e fave di cacao, diverse condizioni atmosferiche, diversi impiegati sulla linea, ecc.). Tutto ciò che abbiamo dal giorno in cui siamo curiosi sono i 100 pesi. Senza una macchina del tempo fino a quel giorno, sembrerebbe che il margine di errore iniziale sia il migliore che possiamo sperare.

Fortunatamente, possiamo usare il tecnica di bootstrap. In questa situazione, abbiamo casualmente campione con sostituzione dai 100 pesi noti. Quindi lo chiamiamo un esempio bootstrap. Poiché consentiamo la sostituzione, molto probabilmente questo campione bootstrap non è identico al nostro campione iniziale. Alcuni punti dati possono essere duplicati e altri punti dati dai 100 iniziali possono essere omessi in un campione bootstrap. Con l'aiuto di un computer, è possibile creare migliaia di campioni bootstrap in un tempo relativamente breve.

Un esempio

Come accennato, per usare veramente le tecniche bootstrap dobbiamo usare un computer. Il seguente esempio numerico aiuterà a dimostrare come funziona il processo. Se iniziamo con l'esempio 2, 4, 5, 6, 6, sono possibili tutti i seguenti esempi di bootstrap:

  • 2 ,5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Storia della tecnica

Le tecniche Bootstrap sono relativamente nuove nel campo della statistica. Il primo utilizzo è stato pubblicato in un articolo del 1979 di Bradley Efron. Poiché la potenza di calcolo è aumentata e diventa meno costosa, le tecniche di bootstrap sono diventate più diffuse.

Perché il nome Bootstrap?

Il nome "bootstrap" deriva dalla frase "Per sollevarsi dai suoi bootstrap". Questo si riferisce a qualcosa di assurdo e impossibile. Prova il più forte possibile, non puoi sollevarti in aria tirando i pezzi di pelle sugli stivali.

Esiste una teoria matematica che giustifica le tecniche di bootstrap. Tuttavia, l'uso del bootstrap sembra che tu stia facendo l'impossibile. Sebbene non sembri in grado di migliorare la stima di una statistica della popolazione riutilizzando più volte lo stesso campione, il bootstrap può, in effetti, farlo.