Analyse de cluster

 Analyse de cluster

L'analyse de cluster implique l'application d'un ou plusieurs algorithmes de clustering avec pour objectif de trouver les modèles ou les groupements cachés dans un jeu de données. Les algorithmes de clustering permettent de former des groupements ou des clusters de manière à ce que les données d'un cluster possèdent une mesure de similarité plus élevée que les données de n'importe quel autre cluster. La mesure de similarité au moyen de laquelle sont créés les clusters peut être définie par une distance Euclidienne, une distance probabiliste ou une autre métrique.

L'analyse de cluster est une méthode d'apprentissage non supervisé et constitue une tâche importante dans l'analyse exploratoire des données. Les algorithmes de clustering les plus répandus comprennent :

  • Le regroupement hiérarchique : permet de développer une hiérarchie de clusters à plusieurs niveaux en créant une arborescence de clusters
  • le partitionnement k-means : partitionne les données dans k clusters distincts selon la distance avec le barycentre d'un cluster
  • le modèle de mélange gaussien : modélise les clusters comme mélange de composants à densité normale multivariée
  • la carte auto-organisatrice : utilise les réseaux neuronaux qui apprennent la topologie et la distribution des données

La fonctionnalité qui permet de distinguer chacun de ces algorithmes est la métrique permettant de mesurer la similarité.

L'analyse de cluster est utilisée en bio-informatique pour les analyses de séquences et les regroupements génétiques, en data mining pour l'extraction de séquences et de modèles, en imagerie médicale pour les segmentations d'images, et en vision par ordinateur pour la reconnaissance d'objets.

Pour plus d'informations sur les algorithmes d'analyse de cluster, consultez les sections Statistics and Machine Learning Toolbox™ et Deep Learning Toolbox™.

Voir aussi: machine learning, apprentissage non supervisé, AdaBoost, analyse de données, modélisation mathématique, lois de probabilité