Non c'è davvero alcuna regola per quante classi ci dovrebbero essere. Ci sono un paio di cose da considerare sul numero di lezioni. Se esistesse solo una classe, tutti i dati rientrerebbero in questa classe. Il nostro istogramma sarebbe semplicemente un singolo rettangolo con l'altezza data dal numero di elementi nel nostro set di dati. Questo non sarebbe molto utile o istogramma utile.
All'altro estremo, potremmo avere una moltitudine di classi. Ciò comporterebbe una moltitudine di barre, nessuna delle quali sarebbe probabilmente molto alta. Sarebbe molto difficile determinare eventuali caratteristiche distintive dai dati utilizzando questo tipo di istogramma.
Per proteggerci da questi due estremi abbiamo una regola pratica da usare per determinare il numero di classi per un istogramma. Quando disponiamo di un set di dati relativamente piccolo, in genere utilizziamo solo circa cinque classi. Se il set di dati è relativamente grande, utilizziamo circa 20 classi.
Ancora una volta, sia sottolineato che questa è una regola empirica, non un principio statistico assoluto. Ci possono essere buoni motivi per avere un numero diverso di classi per i dati. Vedremo un esempio di questo di seguito.
Prima di prendere in considerazione alcuni esempi, vedremo come determinare quali sono effettivamente le classi. Iniziamo questo processo trovando il gamma dei nostri dati. In altre parole, sottraggiamo il valore di dati più basso dal valore di dati più alto.
Quando il set di dati è relativamente piccolo, dividiamo l'intervallo per cinque. Il quoziente è la larghezza delle classi per il nostro istogramma. Probabilmente dovremo fare alcuni arrotondamenti in questo processo, il che significa che il numero totale di classi potrebbe non essere cinque.
Quando il set di dati è relativamente grande, dividiamo l'intervallo per 20. Proprio come prima, questo problema di divisione ci fornisce la larghezza delle classi per il nostro istogramma. Inoltre, come abbiamo visto in precedenza, il nostro arrotondamento può risultare in un numero leggermente superiore o leggermente inferiore a 20 classi.
In entrambi i casi di set di dati grandi o piccoli, facciamo in modo che la prima classe inizi in un punto leggermente inferiore al valore di dati più piccolo. Dobbiamo farlo in modo tale che il primo valore di dati rientri nella prima classe. Altre classi successive sono determinate dalla larghezza impostata quando abbiamo diviso l'intervallo. Sappiamo che siamo all'ultima classe quando il nostro valore di dati più elevato è contenuto da questa classe.
Per un esempio, determineremo la larghezza e le classi appropriate per il set di dati: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.
Vediamo che ci sono 27 punti dati nel nostro set. Questo è un set relativamente piccolo e quindi divideremo l'intervallo per cinque. L'intervallo è 19.2 - 1.1 = 18.1. Dividiamo 18.1 / 5 = 3.62. Ciò significa che una larghezza della classe di 4 sarebbe appropriata. Il nostro valore di dati più piccolo è 1,1, quindi iniziamo la prima classe in un punto inferiore a questo. Poiché i nostri dati sono composti da numeri positivi, sarebbe logico far passare la prima classe da 0 a 4.
Per un esempio di questo, supponiamo che ci sia un test a scelta multipla con 35 domande su di esso, e 1000 studenti di una scuola superiore fanno il test. Desideriamo formare un istogramma che mostri il numero di studenti che hanno raggiunto determinati punteggi nel test. Vediamo che 35/5 = 7 e 35/20 = 1.75. Nonostante la nostra regola empirica ci dia la scelta delle classi di larghezza 2 o 7 da usare per il nostro istogramma, potrebbe essere meglio avere classi di larghezza 1. Queste classi corrisponderebbero ad ogni domanda a cui uno studente ha risposto correttamente al test. Il primo di questi sarebbe centrato su 0 e l'ultimo sarebbe centrato su 35.