Chapitre 1
Introduction au Machine Learning
Davantage de données, davantage de questions, de meilleures réponses
Les algorithmes de Machine Learning trouvent des patterns naturels dans les données qui génèrent des informations aidant à prendre des décisions plus éclairées et à établir de meilleures prédictions. Ils sont utilisés au quotidien pour prendre des décisions cruciales pour le diagnostic médical, les opérations boursières, la prévision de la consommation énergétique, et plus encore. Les sites de contenus multimédias exploitent le Machine Learning pour passer au crible des millions d'options afin de proposer des recommandations de chansons ou de films. Les entreprises du commerce ont recours au Machine Learning pour mieux connaître les comportements d'achat de leurs clients.
Industries de l'automobile et de la fabrication : maintenance prédictive
Finance computationnelle : credit scoring et trading algorithmique
Traitement d'images et Computer Vision : reconnaissance faciale et détection d'objets
Biologie computationnelle : détection de tumeurs, découverte de médicaments et séquençage de l'ADN
Production d'énergie : prévision des prix et de la charge du réseau
Traitement du langage naturel
Applications concrètes :
Comment fonctionne le Machine Learning
Le Machine Learning fait appel à deux types de techniques : l’apprentissage supervisé, qui entraîne un modèle sur des données d'entrée et de sortie connues afin de prédire les résultats futurs, et l’apprentissage non supervisé, qui identifie des patterns cachés ou des structures intrinsèques dans les données d'entrée.
Les techniques de classification prédisent des réponses discrètes, comme par exemple, si un e-mail est authentique ou un spam, ou si une tumeur est cancéreuse ou bénigne. Les modèles de classification classent les données d'entrée en catégories. Les applications les plus représentatives concernent l'imagerie médicale, la reconnaissance vocale et le credit scoring.
Les techniques de régression prédisent des réponses continues, comme par exemple des variations de température ou des fluctuations de la demande d'électricité. Les applications les plus représentatives concernent la prévision de la consommation électrique et le trading algorithmique.
L’apprentissage non supervisé permet de trouver des patterns cachés et des structures intrinsèques dans les données. Il permet de tirer des conclusions à partir de jeux de données composés d'entrées sans réponses étiquetées.
Le clustering est la technique d’apprentissage non supervisé la plus courante. Il est utilisé dans l'analyse exploratoire de données afin de trouver des patterns ou des regroupements cachés dans les données.
Les applications utilisant le clustering concernent notamment l'analyse de séquences de gènes, les études de marché et la reconnaissance d'objets.
Comment choisir l'algorithme à utiliser ?
Choisir le bon algorithme peut sembler très compliqué : il existe des dizaines d'algorithmes de Machine Learning supervisé et non supervisé, et chacun d'entre eux adopte une approche différente pour l'apprentissage. Il n'existe ni méthode idéale ni solution universelle. Déterminer le bon algorithme à utiliser est en partie une question de tâtonnement. Même les data scientists les plus expérimentés ne peuvent pas dire si un algorithme fonctionnera sans l'avoir essayé. Mais le choix de l'algorithme dépend également du volume et du type de données manipulées, des informations que vous souhaitez obtenir à partir de ces données et de la manière dont ces informations seront utilisées.
Quand utiliser le Machine Learning ?
Le Machine Learning est une option à envisager dans le cas d’une tâche ou d’un problème complexe impliquant une grande quantité de données et de nombreuses variables, mais aucune formule ou équation existante. Le Machine Learning est par exemple une option intéressante dans les situations ci-dessous.
Quand les règles et équations manuscrites sont trop complexes, comme dans le cas de la reconnaissance faciale ou vocale
Quand la nature des données ne cesse d'évoluer et le programme doit s’adapter en permanence, comme dans le cas du trading automatisé, de la prédiction de la demande d'énergie et de la prédiction des tendances d'achat
Quand les règles d'une tâche changent constamment, comme dans le cas de la détection des fraudes à partir des enregistrements de transactions