analyse de cluster des nuées dynamiques

Cette procédure cherche à identifier des groupes d'observations relativement homogènes d'après des caractéristiques sélectionnées, au moyen d'un algorithme qui peut traiter de grands nombres d'observations. L'algorithme vous demande toutefois d'indiquer le nombre de clusters. Vous pouvez indiquer les centres de cluster initiaux si vous connaissez cette information. Vous pouvez choisir entre deux méthodes de classement des observations, soit la mise à jour des centres de cluster de façon itérative, soit la classification seule. Vous pouvez enregistrer l'appartenance à un cluster, les informations de distance et les centres de clusters finaux. Vous pouvez éventuellement indiquer une variable dont les valeurs servent à libeller les sorties par observations. Vous pouvez également demander des statistiques F d'analyse de variance. Bien que ces statistiques soient opportunistes (la procédure cherche à former des groupes qui diffèrent), la taille relative des statistiques fournit des informations sur la contribution de chaque variable à la séparation des groupes.

Exemple : Quels sont les groupes de programmes de télévision identifiables qui attirent des publics similaires au sein de chaque groupe ? Grâce à l'analyse de cluster de nuées dynamiques, vous pouvez classer les programmes de télévision (observations) en k groupes homogènes d'après les caractéristiques des téléspectateurs. Cette méthode peut être utilisée pour identifier des segments à des fins commerciales. Vous pouvez aussi classer les villes (observations) en groupes homogènes pour permettre la sélection de villes comparables afin de tester diverses stratégies commerciales.

Statistiques : Solution complète : centres de clusters initiaux, tableau ANOVA. Chaque observation : informations de cluster, distance au centre de cluster.

Démonstration

Considérations de données sur l'analyse de cluster de nuées dynamiques

Données : Les variables doivent être quantitatives au niveau intervalle ou rapport. Si vos variables sont binaires ou sont des effectifs, utilisez la procédure d'analyse de cluster hiérarchique.

Ordre des observations et des centres de cluster initiaux : L'algorithme par défaut permettant de choisir les centres de cluster initiaux varie en fonction du tri par observation. L'option Utiliser les nouveaux centres de la boîte de dialogue Itérer rend la solution résultante potentiellement dépendante du tri par observation, quel que soit le mode de sélection des centres de cluster initiaux. Si vous utilisez l'une de ces méthodes, vous pouvez obtenir différentes solutions pour lesquelles les observations ont été triées de manière aléatoire, afin de vérifier la stabilité d'une solution donnée. Si vous indiquez les centres de cluster initiaux et que vous n'utilisez pas l'option Utiliser les nouveaux centres, vous évitez tout problème lié au tri par observation. Toutefois, le tri des centres de cluster initiaux risque d'affecter la solution s'il existe des distances ex aequo entre les observations et les centres de cluster. Pour évaluer la stabilité d'une solution donnée, vous pouvez comparer les résultats des analyses pour lesquelles les valeurs des centres initiaux ont été permutées de différentes manières.

Hypothèses : Les distances sont calculées à l'aide de la distance euclidienne simple. Si vous souhaitez utiliser une autre distance ou une mesure de similarité, utilisez la procédure d'analyse de cluster hiérarchique. Il est important de prendre en compte la mise à l'échelle des variables. Si vos variables sont mesurées selon des échelles différentes (une variable est exprimée en dollars par exemple et une autre en années), vos résultats risquent d'être erronés. Dans ces cas, vous pouvez envisager de standardiser vos variables avant d'effectuer l'analyse de cluster de nuées dynamiques (cela peut être fait dans la procédure Descriptives). La procédure suppose que vous avez sélectionné le nombre voulu de clusters et que vous avez inclus toutes les variables pertinentes. Si vous avez choisi un nombre de clusters inadéquat ou omis de variables importantes, vos résultats risquent d'être erronés.

Obtenir une analyse de cluster de nuées dynamiques

Cette fonction nécessite l'option Statistiques de base.

A partir des menus, sélectionnez :
Analyse > Classification > Cluster de nuées dynamiques...
Sélectionnez les variables à utiliser dans l'analyse de cluster.
Spécifiez le nombre de clusters. Le nombre de clusters doit être au moins de deux et ne doit pas être supérieur au nombre d'observations contenues dans le fichier de données.
Sélectionnez soit la méthode Itérer et classer soit la méthode Classer seulement.
Vous avez la possibilité de sélectionner une variable d'identification pour libeller les observations.

Cette procédure reproduit la syntaxe de commande QUICK CLUSTER.