Courbe ROC

Évaluer la performance des modèles de classification de Machine Learning

Les courbes ROC (fonctions d'efficacité du récepteur) sont un outil important pour évaluer les performances d'un modèle de Machine Learning. Elles sont le plus souvent utilisées pour des problèmes de classification binaire dont la sortie est composée de deux classes distinctes. La courbe ROC montre le rapport entre le taux de vrais positifs (TPR) du modèle et le taux de faux positifs (FPR). Le TPR est le taux auquel le classificateur prédit un résultat « positif » pour des observations qui sont « positives ». Le FPR est le taux auquel le classificateur prédit un résultat « positif » pour les observations qui sont en fait « négatives ». Un classificateur parfait aura un TPR de 1 et un FPR de 0.

Vous pouvez calculer les courbes ROC dans MATLAB® en utilisant la fonction perfcurve de Statistics and Machine Learning Toolbox™. En outre, l'application Classification Learner génère des courbes ROC pour vous aider à évaluer les performances du modèle. L'application vous permet de spécifier différentes classes à tracer de façon à ce que vous puissiez visualiser les courbes ROC pour des problèmes de classification multi-classes ayant plus de deux classes de sortie distinctes.

Fonctionnement des courbes ROC

La plupart des modèles de Machine Learning pour la classification binaire ne génèrent pas seulement 1 ou 0 lorsqu'ils effectuent une prédiction. Ils génèrent plutôt une valeur continue dans la plage [0,1]. Les valeurs supérieures ou égales à un certain seuil (par exemple 0,5) sont alors classées en 1 et les valeurs inférieures à ce seuil sont classées en 0. Les points sur la courbe ROC représentent le FPR et le TPR pour différentes valeurs de seuils.

Le seuil sélectionné peut se situer n'importe où dans la plage [0,1], et les classifications qui en résultent varient en fonction de la valeur de ce seuil. Par exemple, si le seuil est fixé à 0, le modèle prédira toujours 1 (tout ce qui est supérieur ou égal à 0 est classé en 1), ce qui donne un TPR de 1 et un FPR de 1. À l'autre extrémité de la courbe ROC, si le seuil est fixé à 1, le modèle prédira toujours 0 (tout ce qui est inférieur à 1 est classé en 0), ce qui donne un TPR de 0 et un FPR de 0.

Lorsque vous évaluez la performance d'un modèle de classification, ce qui vous intéresse avant tout, c'est ce qui se passe entre ces deux extrêmes. En général, plus la courbe ROC se situe dans la partie supérieure gauche, meilleur est le classificateur.

Les courbes ROC sont généralement utilisées avec une validation croisée pour évaluer la performance du modèle sur les données de validation ou de test.

Voir aussi: validation croisée, Machine Learning