Statistics and Machine Learning Toolbox

Analysez et modélisez des données à l'aide de statistiques et du Machine Learning

 

Statistics and Machine Learning Toolbox™ fournit des fonctions et des applications pour décrire, analyser et modéliser des données. Vous pouvez utiliser des statistiques descriptives et des graphiques pour l’analyse exploratoire des données, les ajustements de loi de probabilité, la génération des nombres aléatoires pour les simulations Monte-Carlo et réaliser des tests d’hypothèse. Les algorithmes de régression et de classification vous permettent de déduire des comportements à partir des données et de construire des modèles prédictifs.

Pour l’analyse de données multidimensionnelles, Statistics and Machine Learning Toolbox propose la sélection de variables pertinentes, la régression stepwise (pas à pas), l’analyse en composantes principales (acp), la régularisation et d’autres méthodes de réduction de dimension qui vous permettent d’identifier les variables ou les caractéristiques ayant un impact significatif sur votre modèle.

La toolbox comprend également des algorithmes de machine learning supervisé et non supervisé, notamment les machines à vecteurs de support (supportvector machines, ou « SVM »), le boosting/bagging, les méthodes des k plus proches voisins (k-nearest neighbors ou « knn »), k-means et k-médoïdes (k-medoids), le clustering hiérarchique, les mélanges gaussiens (GMM - Gaussian mixture models) et les chaînes de Markov cachées. La plupart des méthodes statistiques et de machine learning peuvent être utilisées pour des calculs sur des jeux de données qui sont trop massifs pour être stockés en mémoire.

Analyse exploratoire

Explorez les données de manière interactive à l'aide de graphiques statistiques. Identifiez des modèles et des caractéristiques avec le clustering.

Visualisations

Explorez visuellement les données avec des tracés de probabilité, des boîtes à moustaches (box plot), des histogrammes, des diagrammes quantile-quantile et des graphiques avancés d'analyse multivariée, tels que des dendrogrammes, des diagrammes de double projection (biplot) et des graphiques d'Andrews.

Utilisez un scatter plot multidimensionnel pour explorer les relations entre les variables.

Explorez les données à l'aide de moyennes et de variances groupées.

Analyse de cluster

Découvrez des modèles en groupant des données à l'aide des k-means, des k-medoids, du DBSCAN (Density-Based Spatial Clustering of Applications with Noise), du clustering hiérarchique, des mélanges gaussiens et des chaînes de Markov cachées.

Application d'un DBSCAN à deux groupes concentriques.

Extraction de caractéristiques et réduction de dimension

Transformez des données brutes en caractéristiques plus adaptées au machine learning. Explorez et créez de nouvelles caractéristiques itérativement, et sélectionnez celles qui optimisent vos performances.

Extraction de caractéristiques

Extrayez les caractéristiques à partir de données en utilisant des techniques d'apprentissage non supervisé telles que le filtrage de données creuses (sparse) et l'analyse en composantes indépendantes (ICA) avec reconstruction. Vous pouvez aussi utiliser des techniques spécialisées pour extraire des caractéristiques à partir d'images, de signaux, de texte et de données numériques.

Extraction de caractéristiques à partir de signaux fournis par des appareils mobiles. 

Sélection des variables pertinentes

Identifiez automatiquement le sous-ensemble des variables qui fournit les meilleures capacités de prédiction pour la modélisation des données. Les méthodes de sélection de variables comprennent la régression stepwise, la sélection séquentielle, la régularisation ainsi que des méthodes ensemblistes.

L'analyse NCA permet de sélectionner les variables qui préservent au mieux la précision du modèle.

Transformation de variables et réduction de dimension

Réduisez la dimension de vos données en transformant les variables (non catégoriques) existantes en de nouvelles variables prédictives dans lesquelles les variables les moins pertinentes peuvent être ignorées. Les méthodes de transformation comprennent l'analyse en composantes principales (ACP), l’analyse factorielle et la factorisation par matrices non négatives (Non-negative Matrix Factorization ou « NMF »).

L'analyse ACP fait une projection orthogonale de nombreuses variables pour les réduire en conservant le maximum d’information.

Machine Learning

Créez des modèles de classification et de régression à l'aide d'applications interactives. Sélectionnez des variables et améliorez vos modèles automatiquement en optimisant les hyperparamètres.

Apprentissage, validation et optimisation de modèles prédictifs

Comparez plusieurs algorithmes de machine learning, sélectionnez des variables, ajustez les hyperparamètres et évaluez les performances prédictives.

Classification

Modélisez une variable de réponse catégorique comme une fonction d'un ou plusieurs prédicteurs. Utilisez de nombreux algorithmes paramétriques et non paramétriques de classification, dont la régression logistique, les machines à vecteurs de support (SVM), les arbres décisionnels de bagging et de boosting, les classifications naïves bayésiennes, les knn et l'analyse de discriminant linéaire.

Entraînez des classificateurs de manière interactive avec l'application Classification Learner.

Optimisation de modèle automatisée

Améliorez les performances des modèles en ajustant les hyperparamètres, en sélectionnant les variables et en traitant les déséquilibres de jeux de données de manière automatique à l'aide de matrices de coût (cost matrix).

Optimisation efficace des hyperparamètres à l'aide de l'optimisation bayésienne.

Régression et ANOVA

Modélisez une variable de réponse continue comme une fonction d'un ou plusieurs prédicteurs en utilisant la régression linéaire ou non linéaire, des modèles à effets mixtes, des modèles linéaires généralisés et la régression non paramétrique. Attribuez une variance aux différentes sources à l'aide d'ANOVA.

Régression linéaire et non linéaire

Modélisez le comportement des systèmes complexes à plusieurs prédicteurs ou variables réponse en choisissant parmi de nombreux algorithmes de régression linéaire et non linéaire. Ajustez les modèles hiérarchiques ou multi-niveaux, les modèles linéaires et non linéaires, et les modèles linéaires généralisés à effets mixtes avec des effets aléatoires croisés et/ou imbriqués pour effectuer des analyses longitudinales ou de panels, des mesures répétées et des modélisations de croissance.

Ajustez des modèles de manière interactive avec l'application Regression Learner.

Régression non paramétrique

Générez un ajustement précis sans modèle spécifié décrivant la relation entre les prédicteurs et la réponse, notamment des machines à vecteurs de support (SVM), des forêts aléatoires, des processus et des noyaux gaussiens.

Identifiez les valeurs aberrantes ou extrêmes à l'aide de la régression quantile.

Analyse de la variance (ANOVA)

Attribuez la variance d’un échantillon à différentes sources et déterminez si la variation survient dans ou entre les différents groupes de population (variance inter ou intra). Utilisez des ANOVA à un facteur, deux facteurs, N facteurs, multivariées ou non paramétriques, ainsi que des analyses de covariance (ANOCOVA) et des analyses de variance à mesures répétées (RANOVA).

Testez les groupes à l'aide de l'ANOVA.

Lois de probabilité et tests d'hypothèse

Ajustez les distributions aux données. Analysez si les différences d’échantillon à échantillon sont significatives ou si elles sont cohérentes avec la variation de données. Générez des nombres aléatoires à partir des distributions.

Lois de probabilité

Ajustez des loi continues ou discrètes, utilisez des graphiques statistiques pour évaluer la qualité de l’ajustement, et calculez les fonctions de densité de probabilité et les fonctions de répartition de plus de 40 distributions.

Ajustez des lois de probabilité à l'aide de l'application Distribution Fitter.

Génération de nombres aléatoires

Générez des séries numériques pseudo-aléatoires et quasi-aléatoires à partir d'une loi de probabilité ajustée ou construite.

Générez des nombres aléatoires de manière interactive.

Tests d’hypothèse

Effectuez des tests t, des tests de distribution (Chi², Jarque-Bera, Lilliefors et Kolmogorov-Smirnov) et des tests non paramétriques pour un échantillon, des échantillons appariés ou des échantillons indépendants. Testez l'autocorrélation et le caractère aléatoire, et comparez les distributions (test de Kolmogorov-Smirnov à deux échantillons).

Région de rejet dans un test t unilatéral.

Statistiques industrielles

Analysez statistiquement les effets et les tendances de vos données. Appliquez des techniques de statistique industrielle telles que les plans d'expériences et le contrôle des processus statistiques.

Plan d’expériences (DOE)

Définissez, analysez et visualisez un plan d'expériences personnalisé (design of experiments, « DOE »). Créez et testez des plans pratiques relatifs à la manière de manipuler les données d’entrées en tandem pour générer des informations par rapport à leurs effets sur les données de sorties.

Appliquez un design de Box-Behnken pour générer des surfaces de réponse de d'ordres plus élevés.

Contrôle des processus statistiques (SPC)

Surveillez et améliorez des produits ou des processus en évaluant la variabilité du processus. Créez des diagrammes de contrôle, estimez la capacité du processus et effectuez des études de répétabilité et de reproductibilité.

Surveillance de processus de fabrication à l'aide de diagrammes de contrôle.

Analyse de fiabilité et de survie

Visualisez et analysez les données de probabilité d'une panne, avec ou sans censure, en exécutant des modèles de risques proportionnels de la régression de Cox, et ajustez les distributions. Calculez les risques empiriques, la survie, des fonctions de distribution cumulée et des estimations de densité de noyau.

Données de défaillance en tant qu'exemple de valeurs « censurées ».

Évoluer vers le Big Data et le cloud

Utilisez des techniques statistiques et de machine learning avec les données massives ou hors mémoire (out-of-memory). Accélérez les calculs statistiques et l'apprentissage de modèles de machine learning sur des instances de clusters et de cloud.

Analyser le Big Data avec des tall arrays

Utilisez les tall arrays et des tables avec de nombreux algorithmes de classification, de régression et de clustering pour entraîner vos modèles sur des jeux de données qui ne peuvent tenir en mémoire sans modifier votre code.

Accélérez les calculs avec Parallel Computing Toolbox ou MATLAB Parallel Server™.

Cloud et calcul distribué

Utilisez des instances de cloud pour accélérer les calculs statistiques et de Machine Learning. Exécutez le processus complet de Machine Learning dans MATLAB Online™.

Effectuez des calculs sur les instances de cloud Amazon ou Azure.

Déploiement et génération de code

Déployez vos modèles ou fonctions statistiques et de machine learning sur des systèmes embarqués, accélérez des calculs informatiques complexes à l'aide de code C, et intégrez-les aux systèmes de l'entreprise.

Génération de code

Générez du code C ou C++ portable et lisible pour l'inférence des algorithmes de classification et de régression, des statistiques descriptives et des lois de probabilité à l'aide de MATLAB CoderTM. Accélérez la vérification et la validation de vos simulations high-fidelity à l'aide de modèles de machine learning via les blocs de fonction et les blocs de système MATLAB.

Deux chemins pour le déploiement : générer du code C ou compiler du code MATLAB.

Intégrer avec des applications et des systèmes d'entreprise

Déployez vos modèles statistiques et de machine learning en tant qu’applications autonomes, MapReduce, Spark™ et applications web, ou en tant que add-ins Microsoft® Excel® à l'aide de MATLAB Compiler™. Créez des librairies partagées C/C++, des Microsoft .NET assemblies, des classes Java® et des packages Python® à l'aide de MATLAB Compiler SDK™.

Utilisez MATLAB Compiler pour intégrer un modèle de classification de la qualité de l'air.

Mettre à jour des modèles déployés

Mettez à jour les paramètres des modèles déployés sans regénérer de code C/C++ de prédiction.

Processus de génération de code et de mise à jour de modèle.

Nouveautés

Applications de Machine Learning 

optimisez les hyperparamètres dans le Classification Learner et le Regression Learner, et spécifiez les coûts de classification erronée dans le Classification Learner.

Génération de code 

actualisez un arbre de décision déployé ou un modèle linéaire sans regénérer le code, et générez du code C/C++ pour les fonctions de distribution des probabilités (requiert MATLAB Coder).

Génération de code 

générez du code C/C++ virgule fixe pour la prédiction d’un modèle SVM (requiert MATLAB Coder et Fixed-Point Designer).

Clustering spectral 

réalisez un clustering spectral à l’aide de spectralcluster.

Classement de caractéristiques 

classez des caractéristiques catégorielles et numériques par importance en utilisant un algorithme MRMR (minimum redundancy, maximum relevance) et classez les caractéristiques pour l’apprentissage non supervisé à l’aide de scores Laplaciens.

Reportez-vous aux notes de version pour en savoir plus sur ces fonctionnalités et les fonctions correspondantes.

Introduction au Machine Learning

Une introduction interactive à des méthodes pratiques de Machine Learning pour résoudre des problèmes de classification.

Version d’évaluation

Bénéficiez d'une version d'évaluation de 30 jours.

Télécharger

Prêt à acheter ?

Obtenez les tarifs et explorez les produits associés.

Vous êtes étudiant ?

Obtenez la version étudiante des logiciels MATLAB et Simulink.

En savoir plus