Principales fonctionnalités

  • Techniques de régression, parmi lesquelles : linéaire, linéaire généralisée, non linéaire, robuste, régularisée, ANOVA, à mesures répétées et les modèles à effets mixtes
  • Algorithmes de Big Data pour la réduction de dimension, les statistiques descriptives, le partitionnement k-means, la régression linéaire, la régression logistique et l’analyse discriminante
  • Distributions de probabilités univariées et multivariées, génération de nombres aléatoires et quasi-aléatoires, et échantillonnage par chaînes de Markov
  • Tests d’hypothèses pour les distributions, la dispersion et la position, et techniques de plans d’expériences (DOE) pour le calcul des surfaces de réponse, factoriel et optimal
  • L’application Classification Learner et les algorithmes d’apprentissage automatique supervisé, notamment les support vector machines (SVM), le boosting/bagging d’arbres de décision, la méthode des k plus proches voisins, la classification naïve bayésienne, l’analyse discriminante et régression par processus gaussien.
  • Algorithmes d’apprentissage automatique non supervisé, notamment la méthode des k-moyennes, k-médoïdes, le clustering hiérarchique, les mélanges gaussiens (k-means, k-medoids, hierarchical clustering, Gaussian mixtures) et les modèles de Markov cachés.
  • Optimisation bayésienne pour régler les algorithmes de Machine Learning en recherchant les hyperparamètres optimaux
Découvrez comment utiliser les outils d’apprentissage automatique de MATLAB® pour résoudre des problèmes de régression, de clustering et de classification.
Modélisation et analyse statistique avec Statistics and Machine Learning Toolbox™

Analyse exploratoire des données

Statistics and Machine Learning Toolbox™ propose plusieurs méthodes pour explorer les données : tracés graphiques statistiques et interactifs, algorithmes pour l’analyse de cluster, statistiques descriptives pour les gros jeux de données.


Tracés statistiques avec des graphiques interactifs

Statistics and Machine Learning Toolbox inclut des graphes et des diagrammes permettant d’explorer visuellement les données. La boîte à outils enrichit les types de tracé MATLAB® avec les tracés de probabilité, les tracés en boîte, les histogrammes, les histogrammes de nuages de points, les histogrammes 3D, les diagrammes de contrôle et les diagrammes quantile-quantile. La boîte à outils inclut également des tracés spécialisés pour les analyses multivariées : les dendrogrammes, les diagrammes de double projection, les diagrammes de coordonnées parallèles et les diagrammes d’Andrews.

Visualisation de données multi-variées à l’aide de tracés statistiques

Statistiques descriptives

Les statistiques descriptives vous permettent de décrire et comprendre rapidement vos jeux de données potentiellement importants à l’aide de quelques nombres très pertinents. Statistics and Machine Learning Toolbox fournit des fonctions permettant d’effectuer les calculs suivants :

These functions help you summarize values in a data sample using a few highly relevant numbers.

Tracé en boîte présentant des données d’accélération de voitures groupées par pays d’origine

Techniques de rééchantillonnage

Dans certains cas, les méthodes paramétriques ne peuvent pas déduire les inférences à partir de simples statistiques récapitulatives. Pour adresser ces cas, la Statistics and Machine Learning Toolbox propose des techniques de rééchantillonnage, dont :

  • L’échantillonnage aléatoire à partir d’un ensemble de données (avec ou sans remplacement)
  • Une fonction bootstrap non paramétrique pour explorer la distribution de statistiques (avec rééchantillonnage)
  • Une fonction jackknife pour étudier la distribution de statistiques à l’aide d’un rééchantillonnage de type jackknife
  • Une fonction bootci pour estimer l’intervalle de confiance à l’aide d’un bootstrap non paramétrique
Rééchantillonnage des résultats du LSAT et des notes moyennes en école de droit pour en étudier la corrélation

Réduction de la dimensionnalité

Statistics and Machine Learning Toolbox fournit des algorithmes et des fonctions pour réduire la dimensionnalité de vos jeux de données. La réduction de la dimensionnalité est une étape importante de votre analyse de données, car elle peut participer à l’amélioration de la précision, des performances et de l’interprétabilité du modèle, et empêcher le surajustement. Vous pouvez procéder à la transformation et à la sélection de caractéristiques, ainsi qu’à l’exploration des relations entre les variables à l’aide de techniques de visualisation, telles que les tracés de nuages de points et le cadrage multidimensionnel classique.


Transformation de caractéristiques

La transformation de caractéristiques (parfois appelée ‘feature extraction’) est une technique de réduction de dimensionnalité qui transforme les caractéristiques existantes en de nouvelles caractéristiques (ou prédicteurs) où celles les moins descriptives peuvent être ignorées. Les méthodes de transformation de caractéristiques disponibles dans Statistics and Machine Learning Toolbox incluent :

Analyse en composante principale pondérée et interprétation des résultats

Sélection des caractéristiques

La sélection de fonctions est une technique de réduction de dimensionnalité qui sélectionne uniquement le sous-ensemble des caractéristiques mesurées (prédicteurs) qui fournissent les meilleures capacités de prédiction pour la modélisation des données. Cette technique est utile lorsque vous travaillez avec des données de grande dimension ou lorsque la collecte des données de toutes les caractéristiques est trop onéreuse. Les méthodes de sélection de caractéristiques disponibles dans Statistics and Machine Learning Toolbox incluent :

  • La régression pas à pas : Ajoute ou supprime séquentiellement des caractéristiques/prédicteurs jusqu’à ce que la précision des prédictions soit optimisée au maximum. Vous pouvez la combiner avec des algorithmes de régression linéaire ou de régression linéaire généralisée.
  • Sélection séquentielle des caractéristiques : Similaire à la régression pas à pas, elle peut être utilisée avec n’importe quel algorithme d’apprentissage supervisé et une mesure de performance personnalisée.
  • Le boosting et le bagging d’arbres de régression : Méthodes ensemblistes calculant l’importance de la variable à partir d’estimations « out-of-bag ».
  • Régularisation (lasso et elastic net) : Elle utilise des estimateurs de diminution pour supprimer les variables redondantes en réduisant leurs poids (coefficients) à zéro.
Sélectionner les caractéristiques importantes pour la détection du cancer.

Visualisation multi variée

Statistics and Machine Learning Toolbox propose des graphiques et des diagrammes pour explorer visuellement des données multi-variées, y compris :

  • Des tracés de nuages de points
  • Des dendrogrammes
  • Des tracés en double projection
  • Des diagrammes de coordonnées parallèles
  • Des diagrammes d’Andrews
  • Des diagrammes glyphes
Matrice de tracés de nuages de points groupée montrant comment l’année du modèle impacte les différentes variables pour les voitures.

Apprentissage automatique

Les algorithmes d’apprentissage automatique font appel à des méthodes informatiques pour « apprendre » des informations à partir des données sans qu’il soit nécessaire d’utiliser une équation prédéterminée en tant que modèle. Statistics and Machine Learning Toolbox fournit des méthodes d’apprentissage automatique supervisé et non supervisé.

Dans ce webinar vous apprendrez comment utiliser les outils d’apprentissage automatique pour détecter les motifs et développer des modèles prédictifs à partir de vos jeux de données.

Classification

Les algorithmes de classification permettent de modéliser une variable de réponse catégorielle comme une fonction d’un ou de plusieurs prédicteurs. Statistics and Machine Learning Toolbox propose une application et des fonctions couvrant un large éventail d’algorithmes de classification paramétriques et non paramétriques, tels que :

Découvrez comment trouver les paramètres optimaux d’un classificateur SVM par validation croisée en utilisant l’optimisation bayésienne.

App Classification Learner

Vous pouvez utiliser l’application Classification Learner pour effectuer des tâches courantes, comme l’exploration interactive de données, la sélection de caractéristiques, la spécification de schémas de validation croisée, l’entraînement de modèles et l’évaluation des résultats. L’application Classification Learner vous permet d’entraîner des modèles pour la classification de données dans le cadre de l’apprentissage automatique supervisé. Vous pouvez l’utiliser pour effectuer des tâches courantes, comme :

  • L’importation de données et la spécification de schémas de validation croisée
  • L’exploration de données et la sélection de caractéristiques
  • L’entraînement de modèles à l’aide de divers algorithmes de classification
  • La comparaison et l’évaluation de modèles
  • Le partage de modèles entraînés en vue de leur utilisation dans des applications, comme la vision artificielle ou le traitement du signal.
L’application Classification Learner vous permet d’entraîner des modèles pour la classification de données dans le cadre de l’apprentissage automatique supervisé.

Analyse de cluster

Statistics and Machine Learning Toolbox inclut des algorithmes permettant de procéder à une analyse de cluster pour identifier les motifs dans vos jeux de données en groupant les jeux de données selon des mesures de similarité. Les algorithmes disponibles incluent : la méthode des k-moyennes, k-médoïdes, le clustering hiérarchique, les modèles de mélanges gaussiens et les modèles de Markov cachés. Lorsque le nombre de clusters est inconnu, vous pouvez faire appel à des techniques d’évaluation de clusters pour déterminer le nombre de clusters présents dans les données, selon un indicateur spécifique.

Découvrez comment détecter des motifs dans les profils d’expression génique en examinant les données d’expression génique.

Régression non paramétrique

Statistics and Machine Learning Toolbox supporte également les techniques de régression non paramétrique pour la génération d’ajustements précis sans modèle spécifié décrivant la relation entre le prédicteur et la réponse. Les techniques de régression non paramétriques peuvent être classées plus généralement comme apprentissage automatique supervisé pour la régression, et incluent les arbres de décision, le boosting ou le bagging d’arbres de régression, et la régression pour les support vector machines.

Prédiction des risques d’assurance en entraînant un ensemble d’arbres de régression à l’aide de TreeBagger

Régression et ANOVA


Régression

Avec les techniques de régression, il est possible de modéliser une variable de réponse continue comme une fonction d’un prédicteur ou plus. Statistics and Machine Learning Toolbox propose un large éventail d’algorithmes de régression, comme la régression linéaire, les modèles linéaires généralisés, la régression non linéaire et les modèles à effets mixtes.


Régression linéaire

La régression linéaire est une technique de modélisation statistique utilisée pour décrire une variable de réponse continue comme une fonction d’une ou plusieurs variables prédictives. Elle peut vous aider à comprendre et prévoir le comportement de systèmes complexes, ou à analyser des données biologiques, financières et expérimentales. Statistics and Machine Learning Toolbox propose plusieurs types de modèles de régression linéaire et des méthodes d’ajustement dont voici quelques exemples :

  • Simple : Modèle avec un seul prédicteur
  • Multiple : Modèle avec plusieurs prédicteurs
  • Multi varié : Modèle avec plusieurs variables de réponses
  • Robuste : Modèle avec des valeurs aberrantes
  • Pas à pas : Modèle avec sélection automatique de variables
  • Régularisée : Modèle pouvant gérer des prédicteurs redondants et empêcher le surajustement à l’aide d’algorithmes ridge, lasso et elastic net.
Dans ce webinaire, vous apprendrez à utiliser Statistics and Machine Learning Toolbox pour développer des modèles prédictifs précis à partir d’ensembles de données contenant un nombre important de variables corrélées.

Régression non linéaire

La régression non linéaire est une technique de modélisation statistique qui aide à décrire les relations non linéaires dans les données expérimentales. Les modèles de régression non linéaire sont généralement considérés comme paramétriques, où le modèle est décrit comme une équation non linéaire. Statistics and Machine Learning Toolbox permet également un ajustement non linéaire robuste pour gérer les valeurs aberrantes dans les données.

Utilisez des tracés de diagnostic pour examiner un modèle non linéaire ajusté à l’aide de tracés de diagnostic, de résidus et de division.

Modèles linéaires généralisés

Les modèles linéaires généralisés sont des cas exceptionnels de modèles non linéaires qui utilisent des méthodes linéaires. Ils permettent des distributions non normales pour les variables de réponses et associent une fonction lien qui décrit comment la valeur attendue de la réponse est liée aux prédicteurs linéaires. Statistics and Machine Learning Toolbox propose l’ajustement des modèles linéaires généralisés pour les distributions de réponse suivantes :

  • Normale
  • Binomiale (régression logistique ou probit)
  • Poisson
  • Gamma
  • Gaussienne inversé
Ajuster et évaluer des modèles linéaires généralisés à l’aide de glmfit et glmval .

Modèles à effets mixtes

Les modèles à effets mixtes linéaires et non linéaires sont des généralisations de modèles linéaires et non linéaires pour les données qui sont collectées et classées par groupe. Ces modèles décrivent la relation entre une variable de réponse et des variables indépendantes avec des coefficients qui peuvent varier vis à vis d’une ou plusieurs variables de groupe. Statistics and Machine Learning Toolbox supporte l’ajustement des modèles hiérarchiques ou multi-niveaux, des modèles linéaires et non linéaires, et des modèles linéaires généralisés à effets mixtes avec des effets aléatoires croisés et/ou imbriqués, qui peuvent être utilisés pour réaliser diverses études, y compris :

Ajuster et évaluer des modèles à effets mixtes à l’aide de nlmefit et nlmefitsa .

Évaluation du modèle

Statistics and Machine Learning Toolbox vous permet d’effectuer une évaluation de modèle pour les algorithmes de régression en utilisant des tests de signification statistique et des mesures de qualité d’ajustement qui incluent :

  • Les statistiques F et T
  • Le R2 et le R2 ajusté
  • L’erreur quadratique moyenne par validation croisée
  • Le critère d’information Akaike (AIC) et le critère d’information bayésien (BIC)

Vous pouvez calculer les intervalles de confiance pour les coefficients de régression et les valeurs prévues.


ANOVA

L’analyse de la variance (ANOVA) permet d’attribuer une variance d’un échantillon à différentes sources et de déterminer si la variation survient dans ou entre les différents groupes de population. Statistics and Machine Learning Toolbox inclut ces algorithmes ANOVA et les techniques associées :

Réalisation d’une ANOVA à N facteurs sur des données automobiles incluant le kilométrage et d’autres données sur 406 véhicules fabriqués entre 1970 et 1982.

Distribution de probabilités

Statistics and Machine Learning Toolbox propose des fonctions et une application pour travailler avec des distributions de probabilités paramétriques et non paramétriques. Grâce à ces outils, vous pouvez ajuster des distributions continues ou discrètes, utiliser des tracés statistiques pour évaluer la qualité de l’ajustement, calculer des fonctions de densité de probabilité et les fonctions de distribution cumulée, et générer des nombres aléatoires et quasi-aléatoires à partir des distributions de probabilités.

La boîte à outils vous permet de calculer, d’ajuster et de générer des séries numériques aléatoires ou pseudo-aléatoires, et d’évaluer la qualité de l’ajustement pour plus de 40 types de distributions différentes, y compris :


Ajustement des distributions aux données

L’application d’ajustement de distribution (Distribution Fitting app) vous permet d’ajuster les données à l’aide ds distributions de probabilités univariées prédéfinies, d’un estimateur non paramétrique (‘kernel-smoothing’) ou d’une distribution personnalisée. Cette application est adaptée à des jeux de données complets et/ou ‘censurées’ (fiabilité). Vous pouvez exclure des données, sauvegarder/charger des sessions, et générer du code MATLAB. Il est également possible d’estimer les paramètres de distribution en ligne de commande ou de construire des distributions de probabilités qui correspondent aux paramètres fixés.

Utilisez l’application d’ajustement de distribution pour ajuster interactivement une distribution de probabilités aux données.

Évaluation de la qualité de l’ajustement

Statistics and Machine Learning Toolbox propose des diagrammes statistiques afin d’évaluer la correspondance entre un jeu de données et une distribution spécifique. La boîte à outils inclut des affichages tracés de probabilité pour une variété de distribution standard, dont les distributions normales, exponentielles, valeurs extrêmes, log-normale, de Rayleigh et de Weibull. Il est possible de générer des tracés de probabilité à partir de jeux de données complets et/ou ‘censurés’. De plus, vous pouvez utiliser des tracés quantile-quantiles pour évaluer la correspondance entre une distribution donnée et une distribution normale standard.

Statistics and Machine Learning Toolbox fournit également des tests d’hypothèses pour déterminer si un jeu de données est cohérent avec les différentes distributions de probabilités. Les tests de distribution proposés incluent notamment :

  • Les tests Anderson-Darling
  • Les tests unilatéraux et bilatéraux de Kolmogorov-Smirnov
  • Les tests Chi² de la qualité de l’ajustement
  • Les tests de Lilliefors
  • Les tests d’Ansari-Bradley
  • Les tests de Jarque-Bera
  • Les tests Durbin-Watson
Réaliser une estimation du maximum de vraisemblance sur des données tronquées, pondérées ou bimodales.

Génération de nombres aléatoires

Statistics and Machine Learning Toolbox fournit également des fonctions pour la génération de séries numériques pseudo-aléatoires et quasi-aléatoires à partir des distributions de probabilités. Vous pouvez générer des nombres aléatoires à partir d’une distribution de probabilités ajustée ou construite en appliquant la méthode aléatoire. Statistics and Machine Learning Toolbox fournit également des fonctions pour :

  • Générer des nombres aléatoires à partir de distributions multi variées, comme les distributions t, normales, copules et de Wishart
  • Créer des échantillons à partir de populations finies
  • Exécuter des échantillonnages par hypercube latin
  • Générer des échantillons à partir des systèmes de distributions de Pearson et Johnson

Vous pouvez également générer des séries numériques quasi-aléatoires. Les flux de nombres quasi-aléatoires produisent des échantillons hautement uniformes à partir de l’hypercube unité. Les flux de nombres quasi-aléatoires peuvent accélérer les simulations de Monte Carlo car ils exigent moins d’échantillons pour obtenir une couverture complète.

Utilisez des copules pour générer des données à partir de distributions multivariées lorsque des relations complexes existent entre les variables ou lorsque les variables proviennent de différentes distributions.

Test d’hypothèses, plan d’expériences et contrôle des processus statistiques


Test d’hypothèses

Il peut être difficile à cause d’une variation aléatoire de déterminer si des échantillons pris sous des conditions distinctes sont différents. Les tests d’hypothèses sont un outil efficace pour analyser si les différences d’échantillon à échantillon sont significatives et nécessitent une autre évaluation, ou si elles sont cohérentes avec la variation de données attendue et aléatoire.

Statistics and Machine Learning Toolbox supporte les tests d’hypothèses paramétriques et non paramétriques les plus connus, dont :

  • Les tests t à un et deux échantillons
  • Les tests non paramétriques pour un échantillon, des échantillons appariés et deux échantillons indépendants
  • Les tests de distribution (Chi², Jarque-Bera, Lilliefors et d Kolmogorov-Smirnov)
  • Les comparaisons de distributions (Kolmogorov-Smirnov à deux échantillons)
  • Les tests pour l’autocorrélation et le caractère aléatoire
  • Les tests d’hypothèses linéaires sur les coefficients de régression
Calculer la taille d’échantillon nécessaire pour un test d’hypothèse.

Plan d’expériences

Vous pouvez utiliser Statistics and Machine Learning Toolbox pour définir, analyser et visualiser un plan d’expériences personnalisé. Les fonctions pour les plans d’expériences permettent de créer et de tester des plans pratiques pour regrouper des données pour une modélisation statistique. Ces plans montrent comment manipuler des données d’entrées en tandem pour générer des informations sur leurs effets sur les données de sorties. Les types de conception supportés comprennent :

  • La conception factorielle complète
  • La conception factorielle fractionnaire
  • La surface de réponse (conception composite centrée et de Box-Behnken)
  • La conception D-optimal
  • La conception hypercube latin

Par exemple, il est possible d’évaluer les effets et les interactions d’entrée à l’aide d’ANOVA, de la régression linéaire et de la modélisation par surfaces de réponse, puis de visualiser les résultats dans des tracés faisant apparaître les effets principaux, des tracés d’interaction et des diagrammes multivariés.

Générer des designs composites centrés et de Box-Behnken

Contrôle des processus statistiques

Statistics and Machine Learning Toolbox fournit un ensemble de fonctions qui supportent le contrôle des processus statistiques (SPC). Ces fonctions permettent de surveiller et d’améliorer les produits ou les processus en évaluant la variabilité du processus. Avec ces fonctions SPC, vous pouvez :

  • Faire des études de répétabilité et de reproductibilité
  • Estimer la capacité du processus
  • Créer des diagrammes de contrôle
  • Appliquer les règles de contrôle de Western Electric et Nelson pour contrôler les données du diagramme
Visualisez les limites de contrôle du processus de refroidissement par ventilateur d’un moteur à l’aide de diagrammes de contrôle.

Big Data, calcul parallèle et génération de code

Utilisez les outils MATLAB avec Statistics and Machine Learning Toolbox pour réaliser des analyses statistiques lourdes en données et qui exigent des calculs complexes.

 


Big Data

Vous pouvez utiliser de nombreuses fonctions de la boîte à outils avec les tableaux tall et des tables tall afin d’appliquer des fonctions statistiques et d’apprentissage automatique à des données hors mémoire contenant un nombre de lignes arbitraire. Cela vous permet d’utiliser du code MATLAB familier pour travailler avec de gros jeux de données sur des disques locaux. Vous pouvez également utiliser MATLAB Compiler™ pour déployer le même code MATLAB afin qu’il fonctionne dans des environnements de Big Data comme Hadoop®.

Consultez la documentation de la boîte à outils pour obtenir la liste complète des fonctions supportées.

Prédiction du retard de départ d’un vol en fonction de plusieurs variables.

Calcul parallèle

Vous pouvez utiliser Statistics and Machine Learning Toolbox et Parallel Computing Toolbox™ afin d’accélérer les calculs de statistiques, y compris :

Consultez la documentation de la boîte à outils pour obtenir la liste complète des fonctions supportées.

Effectuez la régression de l’évaluation des risques d’assurance liés aux importations de voitures à l’aide de TreeBagger en parallèle.

Génération de code C

Vous pouvez utiliser la boîte à outils avec MATLAB Coder™ pour générer un code C portable et lisible pour certaines fonctions de classification, régression, clustering, statistiques descriptives et distribution de probabilités. Vous pouvez utiliser le code ainsi généré afin d’exploiter les statistiques et l’apprentissage automatique pour :

  • Le développement de systèmes embarqués
  • L’intégration à d’autres logiciels
  • Accélérer le code MATLAB intensif en calculs.
Générez un code C qui permet à une fonction MATLAB d’estimer la position d’un objet en mouvement à partir d’anciennes mesures bruitées.