Alcune distribuzioni di dati, come il campana curva o distribuzione normale, sono simmetrici. Ciò significa che la destra e la sinistra della distribuzione sono immagini speculari perfette l'una dell'altra. Non tutte le distribuzioni di dati sono simmetriche. Gli insiemi di dati non simmetrici sono detti asimmetrici. La misura di come può essere asimmetrica una distribuzione si chiama asimmetria.
La media, la mediana e la modalità sono tutte misure del centro di un insieme di dati. L'asimmetria dei dati può essere determinata dal modo in cui queste quantità sono correlate tra loro.
Inclinato a destra
I dati che sono inclinati a destra hanno una lunga coda che si estende a destra. Un modo alternativo di parlare di un set di dati inclinato a destra è quello di dire che è positivamente distorto. In questa situazione, il mezzo e il mediano sono entrambi maggiori della modalità. Come regola generale, il più delle volte per i dati inclinati a destra, la media sarà maggiore della mediana. In breve, per un set di dati inclinato a destra:
- Sempre: significa maggiore della modalità
- Sempre: mediana maggiore della modalità
- Il più delle volte: media maggiore della mediana
Inclinato a sinistra
La situazione si inverte quando si tratta di dati inclinati a sinistra. I dati che sono inclinati a sinistra hanno una lunga coda che si estende a sinistra. Un modo alternativo di parlare di un set di dati inclinato a sinistra è quello di dire che è negativamente distorto. In questa situazione, la media e la mediana sono entrambe inferiori alla modalità. Come regola generale, il più delle volte per i dati inclinati a sinistra, la media sarà inferiore alla mediana. In sintesi, per un set di dati inclinato a sinistra:
- Sempre: significa meno della modalità
- Sempre: mediana inferiore alla modalità
- Il più delle volte: significa meno della mediana
Misure di asimmetria
Una cosa è guardare due set di dati e determinare che uno è simmetrico mentre l'altro è asimmetrico. È un altro guardare due serie di dati asimmetrici e dire che uno è più distorto dell'altro. Può essere molto soggettivo determinare quale sia più distorto semplicemente guardando il grafico della distribuzione. Ecco perché ci sono modi per calcolare numericamente la misura dell'asimmetria.
Una misura di asimmetria, chiamata primo coefficiente di asimmetria di Pearson, è sottrarre la media dalla modalità e quindi dividere questa differenza per deviazione standard dei dati. La ragione per dividere la differenza è che abbiamo una quantità senza dimensioni. Questo spiega perché i dati inclinati a destra hanno un'asimmetria positiva. Se il set di dati è inclinato a destra, la media è maggiore della modalità e quindi sottraendo la modalità dalla media si ottiene un numero positivo. Un argomento simile spiega perché i dati inclinati a sinistra hanno un'asimmetria negativa.
Il secondo coefficiente di asimmetria di Pearson viene anche utilizzato per misurare l'asimmetria di un set di dati. Per questa quantità, sottraggiamo la modalità dalla mediana, moltiplichiamo questo numero per tre e poi dividiamo per la deviazione standard.
Applicazioni di dati distorti
I dati distorti si presentano in modo abbastanza naturale in varie situazioni. I redditi sono distorti a destra perché anche solo pochi individui che guadagnano milioni di dollari possono influenzare notevolmente la media e non ci sono redditi negativi. Allo stesso modo, i dati relativi alla durata di un prodotto, come una marca di lampadina, sono inclinati verso destra. Qui il minimo che una vita può essere è zero, e le lampadine di lunga durata conferiranno ai dati un'asimmetria positiva.