Analyse de cluster hiérarchique

L'analyse de cluster hiérarchique tente d'identifier les groupes d'observations (ou de variables) relativement homogènes basées sur des caractéristiques sélectionnées, en utilisant un algorithme qui débute avec chaque observation (ou variable) dans un cluster séparée et qui combine les clusters jusqu'à ce qu'il n'en reste qu'une. Vous pouvez analyser des variables non normées ou vous pouvez choisir parmi un assortiment de transformations standardisées. Les mesures de distance ou de similarité sont générées par la procédure Proximities (Proximités). Les statistiques s'affichent à chaque étape pour vous aider à choisir la meilleure solution.

Exemple : Y a-t-il des groupes identifiables de spectacles télévisuels qui attirent des audiences similaires à l'intérieur de chaque groupe ? Avec une analyse de cluster hiérarchique, vous pouvez reclasser les spectacles télévisuels (observations) en groupes homogènes basées sur les caractéristiques du spectateur. Cette méthode peut être utilisée pour identifier des segments à des fins commerciales. Vous pouvez aussi classer les villes (observations) en groupes homogènes pour permettre la sélection de villes comparables afin de tester diverses stratégies commerciales.

Statistiques : Planning des agglomérations, matrice de distances (ou des similarités) et cluster d'affectation pour une seule solution ou un ensemble de solutions. Tracés : dendrogrammes et tracés en stalactite.

Démonstration

Remarques sur les données de l'analyse de cluster hiérarchique

Données : Les variables peuvent être des données quantitatives, binaires ou d'effectif. L'échelle des variables est un élément important : des différences d'échelle qui peuvent affecter votre (vos) solution(s) en clusters. Si vos variables sont d'échelles très différentes (par exemple, une variable est mesurée en dollars et l'autre est mesurée en années), vous devez envisager de les standardiser (ceci peut être fait automatiquement avec la procédure de l'analyse de cluster hiérarchique).

Tri par observation : Si des distances ex aequo ou des similitudes se présentent dans les données d'entrée ou entre les clusters mis à jour au cours de l'opération de jointure, la solution de cluster qui en résulte risque de dépendre de l'ordre des observations dans le fichier. Vous pouvez obtenir différentes solutions pour lesquelles les observations ont été triées de manière aléatoire, afin de vérifier la stabilité d'une solution donnée.

Hypothèses : Les mesures de distance ou de similarité utilisées doivent convenir aux données analysées (Voir la procédure Proximities (proximités) pour plus de renseignements sur le choix des mesures de distances et de similarité). Vous devez aussi inclure toutes les variables appropriées dans votre analyse. L'omission de variables influentes peut aboutir à une solution erronée. Parce que l'analyse de cluster hiérarchique est une méthode d'exploration, les résultats doivent être considérés comme provisoires tant qu'ils ne sont pas confirmés avec un échantillon indépendant.

Obtenir une analyse de cluster hiérarchique

Cette fonction nécessite l'option Statistiques de base.

  1. A partir des menus, sélectionnez :

    Analyse > Classification > Cluster hiérarchique...

  2. Si vous classez des observations, sélectionnez au moins une variable numérique. Si vous classez des variables, sélectionnez au moins trois variables numériques.

Vous avez la possibilité de sélectionner une variable d'identification pour libeller les observations.

Cette procédure reproduit la syntaxe de commande CLUSTER.