Chapitre 3

Appliquer l'apprentissage non supervisé


Dans quels contextes envisager l'apprentissage non supervisé

L'apprentissage non supervisé est utile si vous souhaitez explorer vos données sans avoir encore d'objectif spécifique ou de certitudes sur les informations qu’elles contiennent. C'est également un bon moyen de réduire les dimensions de vos données.

La plupart des techniques d'apprentissage non supervisé correspondent à une variante de l'analyse de clusters, comme nous l'avons vu au Chapitre 1.

Dans l'analyse de clusters, les données sont réparties dans des groupes en fonction d'une certaine mesure de similarité ou de caractéristiques partagées. Les clusters sont constitués de sorte que les objets d'un même cluster soient très similaires et que les objets de clusters différents soient très distincts.

Les algorithmes de clustering se répartissent en deux grandes catégories :

  • Hard clustering, où chaque point de données appartient à un unique cluster.
  • Soft clustering, où chaque point de données peut appartenir à plusieurs clusters. Vous pouvez utiliser des techniques de clustering hard ou soft si vous connaissez déjà les regroupements de données possibles.
Représentation graphique d'un modèle de clusters utilisant la technique gaussienne

Modèle de mélange gaussien utilisé pour séparer les données en deux clusters.

Si vous ne savez pas encore comment les données peuvent être regroupées :

  • Utilisez des cartes de caractéristiques auto-organisatrices ou un clustering hiérarchique pour rechercher des structures possibles dans les données.
  • Utilisez l'évaluation de clusters afin de rechercher le nombre « optimal » de groupes pour un algorithme de clustering donné.

Algorithmes de clustering hard courants

Algorithmes de clustering soft courants