Chapitre 4
Appliquer l'apprentissage supervisé
Dans quels contextes envisager l'apprentissage supervisé
Un algorithme d'apprentissage supervisé utilise un jeu de données d'entrée connues (le jeu de données d'apprentissage) et les réponses connues (sorties) associées à ces données. Il entraîne ainsi un modèle pour générer ensuite des prédictions raisonnables en réponse à de nouvelles données d'entrée. Utilisez l'apprentissage supervisé si vous disposez de données existantes pour le résultat que vous essayez de prédire.
Toutes les techniques d'apprentissage supervisé sont une forme de classification ou de régression.

- 2x
- 1.5x
- 1.25x
- 1x, sélectionné
- 0.75x
- 0.5x
- 0.25x
- Chapitres
- descriptions désactivées, sélectionné
- Paramètres des sous-titres, ouvrir les paramètres des sous-titres
- Sous-titres désactivés, sélectionné
- 日本語
- 한국어
- en (Main), sélectionné
This is a modal window.
Début de la fenêtre de dialogue. La touche d'échappement annulera et fermera la fenêtre.
Fin de la fenêtre de dialogue.
This is a modal window. Ce modal peut être fermé en appuyant sur la touche Échap ou activer le bouton de fermeture.
Les techniques de classification prédisent des réponses discrètes, par exemple en indiquant si un e-mail est authentique ou un spam, ou si une tumeur est petite, moyenne ou grande. Les modèles de classification sont entraînés à classer les données en catégories. Parmi leurs applications, on peut citer l'imagerie médicale, la reconnaissance vocale et le credit scoring.
Les techniques de régression prédisent des réponses continues, par exemple des variations de température ou des fluctuations de la demande d'électricité. Parmi leurs applications, on peut citer la prévision des cours de bourse, la reconnaissance de l'écriture manuscrite et le traitement des signaux acoustiques.
Choisir l'algorithme adapté
Comme nous l'avons vu au Chapitre 1, le choix d'un algorithme de Machine Learning est effectué en procédant par tâtonnements. Il implique également un compromis entre certaines caractéristiques spécifiques des algorithmes, telles que :
- Vitesse d’apprentissage
- Utilisation de la mémoire
- Précision des prédictions sur de nouvelles données
- Transparence ou interprétabilité (facilité avec laquelle vous pouvez comprendre les raisonnements sur lesquels se basent les prédictions d'un algorithme)
Algorithmes de classification courants
Arbre de décision
FONCTIONNEMENT
Un arbre de décision vous permet de prédire les réponses pour des données en suivant les décisions dans l'arbre depuis la racine (début) jusqu'à un nœud feuille. Un arbre se compose de conditions de branchement où la valeur d'un prédicteur est comparée à un poids entraîné. Le nombre de branches et les valeurs des poids sont déterminés lors du processus d'apprentissage. Une modification supplémentaire appelée élagage (pruning) peut être utilisée pour simplifier le modèle.UTILISATION OPTIMALE
- Quand vous avez besoin d'un algorithme facile à interpréter et rapide à ajuster
- Pour minimiser l'utilisation de la mémoire
- Quand une précision de prédiction élevée n'est pas exigée
Bagging et boosting d'arbres de décision
FONCTIONNEMENT
Dans ces méthodes ensemblistes, plusieurs arbres de décision « plus faibles » sont combinés pour former un ensemble « plus fort ».Le bagging d'arbre de décision produit des arbres entraînés de manière indépendante sur des données obtenues par échantillonnage avec remplacement (bootstrap) à partir des données d'entrée.
Le boosting consiste à créer un apprenant fort en ajoutant de manière itérative des apprenants « faibles » et en ajustant le poids de chacun de ces apprenants faibles afin de se concentrer sur les exemples mal classifiés.
UTILISATION OPTIMALE
- Quand les prédicteurs sont catégoriels (discrets) ou se comportent de manière non linéaire
- Quand le temps nécessaire à l'apprentissage d'un modèle est d’importance moindre
Régression logistique
FONCTIONNEMENT
Cet algorithme ajuste un modèle capable de prédire la probabilité qu'une réponse binaire appartienne à une classe ou à l'autre. En raison de sa simplicité, la régression logistique est couramment utilisée comme point de départ dans les problèmes de classification binaire.UTILISATION OPTIMALE
- Quand les données peuvent être clairement séparées par une frontière unique et linéaire
- Comme base de référence pour l'évaluation de méthodes de classification plus complexes
Méthode des k plus proches voisins (kNN)
FONCTIONNEMENT
La méthode kNN catégorise les objets en fonction des classes de leurs plus proches voisins dans le jeu de données. Les prédictions kNN supposent que des objets proches les uns des autres sont similaires. Les métriques de distance, telles que les distances euclidienne, de Manhattan, de similarité cosinus ou de Tchebychev, sont utilisées pour trouver le voisin le plus proche.UTILISATION OPTIMALE
- Quand vous avez besoin d'un algorithme simple pour établir des règles d'apprentissage de référence
- Quand l'utilisation de la mémoire du modèle entraîné est d’importance moindre
- Quand la vitesse de prédiction du modèle entraîné est d’importance moindre
Machine à vecteurs de support (SVM)
FONCTIONNEMENT
Cet algorithme classifie les données en trouvant la frontière de décision linéaire (hyperplan) séparant tous les points de données d'une classe de ceux de l'autre classe. Le meilleur hyperplan pour une SVM est celui qui présente la marge la plus élevée entre les deux classes, lorsque les données sont linéairement séparables. Si les données ne sont pas linéairement séparables, une fonction de perte est utilisée pour pénaliser les points situés du mauvais côté de l'hyperplan. Les SVM utilisent parfois une transformation par noyau pour passer les données non linéairement séparables à des dimensions supérieures, où une frontière de décision linéaire peut être établie.UTILISATION OPTIMALE
- Pour les données qui présentent exactement deux classes (vous pouvez également l'utiliser pour la classification multiclasse avec des codes correcteurs d’erreurs ou ECOC)
- Pour les données présentant un grand nombre de dimensions et non linéairement séparables
- Quand vous avez besoin d'un classificateur simple, facile à interpréter et précis
Réseau de neurones
FONCTIONNEMENT
Inspiré du cerveau humain, un réseau de neurones se compose de réseaux neuronaux hautement connectés qui relient les entrées aux sorties souhaitées. Le réseau est entraîné en modifiant de manière itérative les forces des connexions de sorte que chacune des entrées données corresponde à la réponse correcte.UTILISATION OPTIMALE
- Pour la modélisation de systèmes hautement non linéaires
- Quand les données sont disponibles de manière incrémentale et que vous souhaitez mettre à jour le modèle en permanence
- Quand des changements inattendus sont susceptibles de survenir dans vos données d'entrée
- Quand l'interprétabilité du modèle n'est pas d’une importance majeure
Classification naïve bayésienne
FONCTIONNEMENT
Un classificateur naïf bayésien part du principe que la présence d'une caractéristique particulière dans une classe n'est liée à la présence d'aucune autre caractéristique. Il classe les nouvelles données en fonction de la probabilité la plus élevée qu'elles appartiennent à une classe particulière.UTILISATION OPTIMALE
- Pour un petit jeu de données contenant de nombreux paramètres
- Quand vous avez besoin d'un classificateur facile à interpréter
- Si le modèle risque d'être confronté à des scénarios qui ne figuraient pas dans les données d'apprentissage, comme c'est le cas dans de nombreuses applications financières et médicales
Analyse discriminante
FONCTIONNEMENT
L'analyse discriminante classe les données en trouvant des combinaisons linéaires de caractéristiques. Ce modèle suppose que les différentes classes génèrent des données basées sur des distributions gaussiennes. L'apprentissage d'un modèle d'analyse discriminante implique de trouver les paramètres d'une distribution gaussienne pour chaque classe. Ces paramètres sont utilisés pour calculer les frontières, qui peuvent être des fonctions linéaires ou quadratiques. Ces frontières sont utilisées pour déterminer la classe des nouvelles données.UTILISATION OPTIMALE
- Quand vous avez besoin d'un modèle simple et facile à interpréter
- Quand l'utilisation de la mémoire pendant l'apprentissage est d’importance moindre
- Quand vous avez besoin d'un modèle capable d'effectuer des prédictions rapides
Arbre de décision
FONCTIONNEMENT
Un arbre de décision vous permet de prédire les réponses pour des données en suivant les décisions dans l'arbre depuis la racine (début) jusqu'à un nœud feuille. Un arbre se compose de conditions de branchement où la valeur d'un prédicteur est comparée à un poids entraîné. Le nombre de branches et les valeurs des poids sont déterminés lors du processus d'apprentissage. Une modification supplémentaire appelée élagage (pruning) peut être utilisée pour simplifier le modèle.UTILISATION OPTIMALE
- Quand vous avez besoin d'un algorithme facile à interpréter et rapide à ajuster
- Pour minimiser l'utilisation de la mémoire
- Quand une précision de prédiction élevée n'est pas exigée
Bagging et boosting d'arbres de décision
FONCTIONNEMENT
Dans ces méthodes ensemblistes, plusieurs arbres de décision « plus faibles » sont combinés pour former un ensemble « plus fort ».Le bagging d'arbre de décision produit des arbres entraînés de manière indépendante sur des données obtenues par échantillonnage avec remplacement (bootstrap) à partir des données d'entrée.
Le boosting consiste à créer un apprenant fort en ajoutant de manière itérative des apprenants « faibles » et en ajustant le poids de chacun de ces apprenants faibles afin de se concentrer sur les exemples mal classifiés.
UTILISATION OPTIMALE
- Quand les prédicteurs sont catégoriels (discrets) ou se comportent de manière non linéaire
- Quand le temps nécessaire à l'apprentissage d'un modèle est d’importance moindre
Régression logistique
FONCTIONNEMENT
Cet algorithme ajuste un modèle capable de prédire la probabilité qu'une réponse binaire appartienne à une classe ou à l'autre. En raison de sa simplicité, la régression logistique est couramment utilisée comme point de départ dans les problèmes de classification binaire.UTILISATION OPTIMALE
- Quand les données peuvent être clairement séparées par une frontière unique et linéaire
- Comme base de référence pour l'évaluation de méthodes de classification plus complexes
Méthode des k plus proches voisins (kNN)
FONCTIONNEMENT
La méthode kNN catégorise les objets en fonction des classes de leurs plus proches voisins dans le jeu de données. Les prédictions kNN supposent que des objets proches les uns des autres sont similaires. Les métriques de distance, telles que les distances euclidienne, de Manhattan, de similarité cosinus ou de Tchebychev, sont utilisées pour trouver le voisin le plus proche.UTILISATION OPTIMALE
- Quand vous avez besoin d'un algorithme simple pour établir des règles d'apprentissage de référence
- Quand l'utilisation de la mémoire du modèle entraîné est d’importance moindre
- Quand la vitesse de prédiction du modèle entraîné est d’importance moindre
Algorithmes de régression courants
Modèle linéaire généralisé
FONCTIONNEMENT
Un modèle linéaire généralisé est un cas particulier de modèle non linéaire qui utilise des méthodes linéaires. Cette méthode consiste à ajuster une combinaison linéaire des entrées à une fonction non linéaire (la fonction lien) des sorties.UTILISATION OPTIMALE
- Quand les variables de réponse suivent des distributions non normales, comme par exemple une variable de réponse qui doit toujours être positive
Arbre de régression
FONCTIONNEMENT
Les arbres de décision pour la régression sont similaires aux arbres de décision pour la classification, mais ils sont modifiés pour pouvoir prédire des réponses continues.UTILISATION OPTIMALE
- Quand les prédicteurs sont catégoriels (discrets) ou se comportent de manière non linéaire
Régression linéaire
FONCTIONNEMENT
La régression linéaire est une technique de modélisation statistique utilisée pour décrire une variable de réponse continue comme une fonction linéaire d'une ou plusieurs variables prédictives. Les modèles de régression linéaire étant faciles à interpréter et à entraîner, ils constituent souvent le premier modèle à être ajusté à un nouveau jeu de données.UTILISATION OPTIMALE
- Quand vous avez besoin d'un algorithme facile à interpréter et rapide à ajuster
- Comme base de référence pour évaluer d'autres modèles de régression plus complexes
Régression non linéaire
FONCTIONNEMENT
La régression non linéaire est une technique de modélisation statistique qui permet de décrire des relations non linéaires dans des données expérimentales. Les modèles de régression non linéaire sont généralement considérés comme paramétriques, le modèle étant décrit comme une équation non linéaire.Le terme « non linéaire » fait référence à une fonction d’ajustement, avec une dépendance non linéaire aux paramètres. Par exemple, si les paramètres d'ajustement sont b0, b1 et b2, l'équation y = b0+b1x+b2x2 est une fonction linéaire des paramètres d'ajustement, tandis que y = (b0xb1)/(x+b2) est une fonction non linéaire des paramètres d'ajustement.
UTILISATION OPTIMALE
- Quand les données présentent de fortes tendances non linéaires et ne peuvent pas être facilement transformées en un espace linéaire
- Pour ajuster des modèles personnalisés aux données
Modèle de régression par processus gaussiens
FONCTIONNEMENT
Les modèles de régression par processus gaussiens (RPG) sont des modèles non paramétriques utilisés pour prédire la valeur d'une variable de réponse continue. Ils sont couramment utilisés dans le domaine de l'analyse spatiale pour l'interpolation en présence d'incertitude. La régression par processus gaussiens est également appelée krigeage.UTILISATION OPTIMALE
- Pour interpoler des données spatiales, comme les données hydrogéologiques concernant la répartition des eaux souterraines
- En tant que modèle de substitution pour faciliter l'optimisation de designs complexes tels que des moteurs automobiles
Régression SVM
FONCTIONNEMENT
Les algorithmes de régression SVM fonctionnent comme les algorithmes de classification SVM, mais ils sont modifiés pour pouvoir prédire une réponse continue. Au lieu de trouver un hyperplan qui sépare les données, les algorithmes de régression SVM trouvent un modèle qui s'écarte des données mesurées d'une valeur ne dépassant pas une faible quantité, avec des valeurs de paramètres aussi petites que possible (afin de minimiser la sensibilité à l'erreur).UTILISATION OPTIMALE
- Pour les données de grande dimension (lorsqu'il y a un grand nombre de variables prédictives)
Modèle linéaire généralisé
FONCTIONNEMENT
Un modèle linéaire généralisé est un cas particulier de modèle non linéaire qui utilise des méthodes linéaires. Cette méthode consiste à ajuster une combinaison linéaire des entrées à une fonction non linéaire (la fonction lien) des sorties.UTILISATION OPTIMALE
- Quand les variables de réponse suivent des distributions non normales, comme par exemple une variable de réponse qui doit toujours être positive
Arbre de régression
FONCTIONNEMENT
Les arbres de décision pour la régression sont similaires aux arbres de décision pour la classification, mais ils sont modifiés pour pouvoir prédire des réponses continues.UTILISATION OPTIMALE
- Quand les prédicteurs sont catégoriels (discrets) ou se comportent de manière non linéaire
Régression linéaire
FONCTIONNEMENT
La régression linéaire est une technique de modélisation statistique utilisée pour décrire une variable de réponse continue comme une fonction linéaire d'une ou plusieurs variables prédictives. Les modèles de régression linéaire étant faciles à interpréter et à entraîner, ils constituent souvent le premier modèle à être ajusté à un nouveau jeu de données.UTILISATION OPTIMALE
- Quand vous avez besoin d'un algorithme facile à interpréter et rapide à ajuster
- Comme base de référence pour évaluer d'autres modèles de régression plus complexes
Régression non linéaire
FONCTIONNEMENT
La régression non linéaire est une technique de modélisation statistique qui permet de décrire des relations non linéaires dans des données expérimentales. Les modèles de régression non linéaire sont généralement considérés comme paramétriques, le modèle étant décrit comme une équation non linéaire.Le terme « non linéaire » fait référence à une fonction d’ajustement, avec une dépendance non linéaire aux paramètres. Par exemple, si les paramètres d'ajustement sont b0, b1 et b2, l'équation y = b0+b1x+b2x2 est une fonction linéaire des paramètres d'ajustement, tandis que y = (b0xb1)/(x+b2) est une fonction non linéaire des paramètres d'ajustement.
UTILISATION OPTIMALE
- Quand les données présentent de fortes tendances non linéaires et ne peuvent pas être facilement transformées en un espace linéaire
- Pour ajuster des modèles personnalisés aux données
Étapes suivantes recommandées
Sélectionner un site web
Choisissez un site web pour accéder au contenu traduit dans votre langue (lorsqu'il est disponible) et voir les événements et les offres locales. D’après votre position, nous vous recommandons de sélectionner la région suivante : United States.
Vous pouvez également sélectionner un site web dans la liste suivante :
Comment optimiser les performances du site
Pour optimiser les performances du site, sélectionnez la région Chine (en chinois ou en anglais). Les sites de MathWorks pour les autres pays ne sont pas optimisés pour les visites provenant de votre région.
Amériques
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)