1 Indice de Calinski-Harabasz[modifier]
Lindice de Calinski-Harabasz, également appelé critère de Calinski-Harabasz ou CH score, est un indicateur statistique largement utilisé pour évaluer la qualité d'un regroupement (clustering) en apprentissage automatique. Connu pour sa simplicité et son efficacité, cet indice permet de mesurer la compacité et la séparation des clusters, contribuant ainsi à déterminer le nombre optimal de groupes dans un jeu de données.
1.1 Introduction à l'indice de Calinski-Harabasz[modifier]
Développé en 1974 par Tibor Calinski et Jerzy Harabasz, l'indice de Calinski-Harabasz est une métrique interne d'évaluation des clusters. Il repose sur le rapport entre la dispersion entre les clusters et la dispersion intra-cluster, offrant une mesure quantitative pour comparer différentes partitions de données.
Cette métrique est très populaire dans les analyses de données, la segmentation de clientèle, la bioinformatique, et tout domaine utilisant le clustering non supervisé.
1.2 Formule mathématique et calcul de l'indice[modifier]
L'indice de Calinski-Harabasz est défini par la formule suivante :
où :
- est le nombre de clusters,
- est le nombre total d'observations,
- est la matrice de dispersion entre les clusters,
- est la matrice de dispersion intra-cluster,
- désigne la trace d'une matrice.
- Explication des termes
- Dispersion entre clusters (B_k) : mesure la distance entre les centres des clusters et le centre global des données.
- Dispersion intra-cluster (W_k) : mesure la compacité des clusters, c’est-à-dire à quel point les points sont proches du centre de leur cluster respectif.
Un indice CH élevé indique que les clusters sont bien séparés et compacts, ce qui est généralement interprété comme un meilleur regroupement.
1.3 Utilisation pratique de l’indice de Calinski-Harabasz[modifier]
L'indice de Calinski-Harabasz est souvent utilisé pour :
- __Déterminer le nombre optimal de clusters__ : en comparant les scores CH pour différents nombres de clusters, la meilleure partition est celle qui maximise cet indice.
- __Évaluer la qualité d'une partition de clustering__ : plus la valeur est élevée, meilleure est la qualité du regroupement.
- __Comparer différentes méthodes de clustering__ : k-means, clustering hiérarchique, DBSCAN, etc.
Cet indice est particulièrement adapté aux situations où les clusters sont sphériques et de taille similaire. Il peut moins bien performer avec des clusters aux formes complexes ou aux densités très différentes.
1.4 Exemple d’application avec k-means[modifier]
Supposons une analyse de segmentation de clients à l’aide de l’algorithme k-means. Pour différents k (par exemple de 2 à 10), on calcule l’indice de Calinski-Harabasz pour chaque partition. Le k qui donne le meilleur CH score est choisi comme nombre optimal de segments.
1.5 Avantages et limites de l'indice de Calinski-Harabasz[modifier]
Modèle:Répartition en colonnes
- Avantages :
- Facile à calculer et à interpréter.
- Métrique normalisée tenant compte de la taille des clusters.
- Bon compromis entre séparation et compacité.
- Limites :
- Sensible aux outliers et aux données bruitées.
- Moins performant pour des clusters non sphériques.
- Nécessite une supervision pour valider la qualité finale du clustering.
1.6 Comparaison avec d’autres indices de clustering[modifier]
L’indice de Calinski-Harabasz est souvent utilisé en parallèle avec d’autres métriques d’évaluation des clusters comme :
- Indice de Davies-Bouldin : mesure la proximité entre clusters avec pénalisation pour la dispersion.
- Indice de Silhouette : fournit une mesure qualité point par point.
- Cohésion et séparation génériques.
Ces indices ont chacun leurs forces et faiblesses : un usage combiné permet une analyse plus robuste.
1.7 Références[modifier]
Erreur de référence : La balise <ref>
définie dans <references>
n’a pas d’attribut de nom.