Chapitre 2

Débuter avec le Machine Learning


Un parcours rarement en ligne droite

En matière de Machine Learning, le chemin est rarement direct du début à la fin : vous vous retrouvez constamment à itérer et tester différentes idées et approches. Cette section décrit un workflow systématique de Machine Learning, qui met en exergue certains points de décision clés tout au long du parcours.

Les jeux de données du monde réel peuvent être désordonnés, incomplets et se présenter sous différents formats. Vous pouvez travailler avec des données numériques simples, mais il arrive aussi que vous deviez combiner plusieurs types de données différents, tels que des signaux de capteurs, du texte et des images de caméra diffusées en streaming.

Par exemple, sélectionner des caractéristiques pour entraîner un algorithme de détection d'objets requiert des connaissances spécifiques en traitement d'images. Des types de données différents nécessitent des approches différentes en matière de prétraitement.

Choisir le bon modèle est un exercice d'équilibre. Les modèles très flexibles ont tendance à surajuster les données en modélisant des variations mineures qui pourraient n'être que du bruit. À l'inverse, les modèles trop simples peuvent faire trop de suppositions. Il existe toujours des compromis entre la vitesse, la précision et la complexité du modèle.

Chaque workflow de Machine Learning commence par trois questions :

  • Avec quel type de données travaillez-vous ?
  • Quelles informations souhaitez-vous extraire ?
  • Comment et où ces informations seront-elles appliquées ?

Vos réponses à ces questions vous aideront à choisir l'approche à privilégier : apprentissage supervisé ou non supervisé.

Privilégiez le Machine Learning supervisé si vous devez entraîner un modèle pour faire une prédiction, par exemple la valeur future d'une variable continue comme la température ou le cours d'une action, ou une classification, telle que l’identification des constructeurs automobiles à partir de séquences vidéo de webcam.

Choisissez le Machine Learning non supervisé si vous devez explorer vos données et souhaitez entraîner un modèle en vue de trouver une bonne représentation interne, par exemple en scindant les données en clusters.

Le workflow en bref

Téléchargez le PDF complet pour examiner les étapes plus en détail. A titre d’illustration, le workflow utilise une application de surveillance de la santé. L'ensemble du workflow est réalisé dans MATLAB®.

  1. ACCÈS aux données et chargement des données
  2. PRÉTRAITEMENT des données
  3. DÉTERMINATION des caractéristiques en utilisant les données prétraitées
  4. APPRENTISSAGE des modèles en utilisant les caractéristiques déterminées à l'étape 3
  5. ITÉRATION pour trouver le meilleur modèle
  6. INTÉGRATION du meilleur modèle entraîné dans un système de production