Analyse en composantes principales (ACP)

Pour l’analyse multi variée des données, l’analyse en composantes principales (ou ACP) est une méthode visant à modifier des variables liées (ayant des corrélations statistiques) en nouvelles variables synthétiques appelées « composantes principales », et expliquant à elles seules plus de 60% de la variance des observations.

D’un point de vue mathématique, l’analyse en composantes principales consiste en un changement de base dans l’espace vectoriel. Les variables initiales deviennent représentées dans la base des facteurs définis par les vecteurs propres de la matrice de corrélations. Ainsi, les liaisons linéaires entre facteurs peuvent être étudiées, sur des données quantitatives discrètes ou ordinales.

L'analyse en composantes principales est utilisée pour tout type d’applications (ex : biologie computationnelle, finance quantitative, traitement d’image) et dans tous les domaines.

Elle est d’une part très utile à des fins de visualisation :

des corrélations entre variables, en vue de réduire le nombre de variables à mesurer
dans un espace 2 ou 3D, en vue d'identifier des sections ou groupes d'observations homogènes voire aberrantes

Mais aussi à des fins de modélisation :

identification de facteurs non corrélés (en tant que combinaisons linéaires des variables de départ), utiles pour faire de la classification/prédiction telle que la régression linéaire, la régression logistique ou l'analyse discriminante.

L’environnement MATLAB propose tous les éléments nécessaires à la réalisation de ce type d’analyse factorielle en quelques lignes de code, faisant appel aux fonctions haut-niveau de la Statistics and Machine Learning Toolbox. De plus, vous pouvez visualiser les résultats des analyses grâce aux puissants outils graphiques et fonctions natives d’affichage de données.

Exemples et démonstrations

Démarrer avec MATLAB (10:00) - Vidéo
Techniques avancées pour l’ajustement de données (55:16) - Vidéo
Analyse factorielle sous MATLAB - Exemple

Références

Analyse en Composantes Principales de données brutes - Documentation
Analyse en Composantes Principales multi-échelle - Documentation
Analyse probabiliste en Composante Principales - Documentation

Voir aussi: Statistics and Machine Learning Toolbox, Régression linéaire, Analyse des données, Modélisation mathématique

Introduction à Statistics and Machine Learning Toolbox

Formation MathWorks :

Méthodes de calcul statistique dans MATLAB