L'analisi dei cluster è una tecnica statistica utilizzata per identificare il modo in cui varie unità, come persone, gruppi o società, possono essere raggruppate a causa delle caratteristiche che hanno in comune. Conosciuto anche come clustering, è uno strumento di analisi dei dati esplorativi che mira a ordinare diversi oggetti in gruppi in modo tale che quando appartengono allo stesso gruppo hanno un massimo grado di associazione e quando non appartengono allo stesso gruppo è il loro grado di associazione minimo. A differenza di altri tecniche statistiche, le strutture che vengono scoperte attraverso l'analisi dei cluster non hanno bisogno di spiegazioni o interpretazioni: scoprono la struttura dei dati senza spiegare perché esistono.
Che cos'è il clustering?
Il clustering esiste in quasi ogni aspetto della nostra vita quotidiana. Prendi, ad esempio, articoli in un negozio di alimentari. Diversi tipi di articoli vengono sempre visualizzati nella stessa posizione o nelle vicinanze: carne, verdure, soda, cereali, prodotti di carta, ecc. I ricercatori spesso vogliono fare lo stesso con i dati e raggruppare oggetti o soggetti in cluster sensati.
Per prendere un esempio dalle scienze sociali, supponiamo che stiamo guardando i paesi e vogliamo raggrupparli in gruppi basati su caratteristiche come divisione del lavoro, militari, tecnologia o popolazione istruita. Scopriremmo che Gran Bretagna, Giappone, Francia, Germania e Stati Uniti hanno caratteristiche simili e sarebbero raggruppate insieme. Anche l'Uganda, il Nicaragua e il Pakistan sarebbero raggruppati in un cluster diverso perché condividono un diverso insieme di caratteristiche, tra cui bassi livelli di ricchezza, divisioni più semplici del lavoro, istituzioni politiche relativamente instabili e non democratiche e bassa tecnologia sviluppo.
L'analisi dei cluster viene in genere utilizzata nella fase esplorativa della ricerca quando il ricercatore non ne ha ipotesi preconcette. Non è comunemente l'unico metodo statistico utilizzato, ma piuttosto viene fatto nelle prime fasi di un progetto per aiutare a guidare il resto dell'analisi. Per questo motivo, i test di significatività non sono generalmente né pertinenti né appropriati.
Esistono diversi tipi di analisi dei cluster. I due più comunemente usati sono il clustering dei mezzi K e il clustering gerarchico.
K significa clustering
Il clustering K indica le osservazioni nei dati come oggetti aventi posizioni e distanze reciproche (si noti che le distanze utilizzate nel clustering spesso non rappresentano le distanze spaziali). Partiziona gli oggetti in K cluster reciprocamente esclusivi in modo che gli oggetti all'interno di ciascun cluster siano come il più vicino possibile e allo stesso tempo, il più lontano possibile dagli oggetti in altri cluster. Ogni cluster è quindi caratterizzato dal suo media o punto centrale.
Clustering gerarchico
Il clustering gerarchico è un modo per studiare i raggruppamenti nei dati contemporaneamente su una varietà di scale e distanze. Lo fa creando un albero cluster con vari livelli. A differenza di K-significa il clustering, l'albero non è un singolo insieme di cluster. Piuttosto, l'albero è una gerarchia multilivello in cui i cluster a un livello sono uniti come cluster al livello superiore successivo. L'algoritmo utilizzato inizia con ogni caso o variabile in un cluster separato e quindi combina i cluster fino a quando ne rimane solo uno. Ciò consente al ricercatore di decidere quale livello di clustering è più appropriato per la propria ricerca.
Esecuzione di un'analisi del cluster
Maggior parte programmi software statistici può eseguire analisi di cluster. In SPSS, selezionare analizzare dal menu, quindi classificare e analisi di gruppo. In SAS, il cluster di proc la funzione può essere utilizzata.
Aggiornato da Nicki Lisa Cole, Ph. D.