L'analisi cluster è un metodo di organizzazione dei dati in gruppi rappresentativi in base a caratteristiche simili. Ogni membro del cluster ha più in comune con altri membri dello stesso cluster rispetto ai membri degli altri gruppi. Il punto più rappresentativo all'interno del gruppo è chiamato centroide. Di solito, questa è la media dei valori dei punti di dati nel cluster.
Organizza i dati. Se i dati sono costituiti da una singola variabile, un istogramma potrebbe essere appropriato. Se sono coinvolte due variabili, traccia i dati su un piano di coordinate. Ad esempio, se si osservava l'altezza e il peso degli scolari in un'aula, tracciare i punti di dati per ciascun bambino su un grafico, con il peso come asse orizzontale e l'altezza come asse verticale. Se sono coinvolte più di due variabili, potrebbero essere necessarie matrici per visualizzare i dati.
Raggruppare i dati in cluster. Ogni cluster dovrebbe consistere dei punti di dati più vicini ad esso. Nell'esempio di altezza e peso, raggruppa tutti i punti di dati che sembrano vicini. Il numero di cluster e se ogni punto di dati deve essere in un cluster, può dipendere dagli scopi dello studio.
Per ogni cluster, aggiungere i valori di tutti i membri. Ad esempio, se un gruppo di dati consisteva dei punti (80, 56), (75, 53), (60, 50) e (68,54), la somma dei valori sarebbe (283, 213).
Dividere il totale per il numero di membri del cluster. Nell'esempio sopra, 283 diviso per quattro è 70,75 e 213 diviso per quattro è 53,25, quindi il centroide del cluster è (70,75, 53,25).
Traccia i centroidi del cluster e determina se alcuni punti sono più vicini a un centroide di un altro cluster rispetto a quello del centroide del proprio cluster. Se alcuni punti sono più vicini a un centroide diverso, ridistribuiscili al cluster che contiene il centroide più vicino.
Ripeti i passaggi 3, 4 e 5 finché tutti i punti di dati si trovano nel cluster contenente il centroide a cui sono più vicini .
Suggerimento
Se il centroide deve essere un particolare punto di dati anziché un punto medio tra i dati, è possibile utilizzare la mediana per determinarlo, anziché la media.