Trouver des patterns cachés et des structures intrinsèques dans les données

L'apprentissage non supervisé est un type d'algorithme de Machine Learning utilisé pour définir des inférences à partir de jeux de données sans intervention humaine, contrairement à l'apprentissage supervisé où des étiquettes sont fournies avec les données.

La méthode d'apprentissage non supervisé la plus courante est l'analyse de clusters, qui applique des méthodes de clustering pour explorer des données et y trouver des patterns ou des groupements cachés.

Avec MATLAB, vous pouvez utiliser de nombreux algorithmes de clustering courants :

  • Le clustering hiérarchique  construit une hiérarchie de clusters de plusieurs niveaux en créant un arbre de clusters.
  • Le clustering k-Means et le clustering k-medoids  divisent les données en k clusters distincts selon la distance entre les données.
  • Les modèles de mélange gaussien  modélisent les clusters comme un mélange de composantes multivariées à densité normale
  • Le density-based spatial clustering (DBSCAN)  regroupe les points proches les uns des autres dans des zones de forte densité, tout en continuant à suivre les valeurs aberrantes des régions de faible densité
  • Les cartes auto-organisatrices  utilisent des réseaux de neurones qui apprennent la topologie et la distribution des données
  • Le clustering spectral  est un clustering basé sur les graphes, qui peut traiter des formes arbitraires non convexes

L'apprentissage semi-supervisé et le classement de caractéristiques non supervisé sont d'autres méthodes qui appliquent l'apprentissage non supervisé. L'apprentissage semi-supervisé réduit le besoin de données labellisées dans l'apprentissage supervisé. Le clustering appliqué à tout un jeu de données établit des similarités entre les données labellisées et non labellisées. Les étiquettes sont ensuite propagées aux membres similaires du cluster qui étaient auparavant non labellisés.

Le classement de caractéristiques non supervisé attribue un score aux caractéristiques sans cible de prédiction ou réponse donnée. MATLAB® et Statistics and Machine Learning Toolbox™ supportent le classement non supervisé en utilisant les scores Laplaciens.

Points clés

  • L'apprentissage non supervisé est généralement appliqué avant l'apprentissage supervisé, pour identifier les caractéristiques pendant l'analyse exploratoire des données et définir des classes basées sur les groupements.
  • Les k-means et le clustering hiérarchique restent répandus. Seules quelques méthodes de clustering peuvent traiter des formes arbitraires non convexes, dont les suivantes supportées dans MATLAB : le clustering hiérarchique, spectral et DBSCAN.
  • L'apprentissage non supervisé (clustering) peut aussi être utilisé pour compresser des données.
  • Le classement de caractéristiques non supervisé est disponible pour appliquer le clustering basé sur la distance plus efficacement sur des jeux de données volumineux.


Voir aussi: Statistics and Machine Learning Toolbox, Machine Learning avec MATLAB, Image Processing Toolbox

Exploiter tout le potentiel du Machine Learning : guide détaillé avec MATLAB