Linear Regression

Qu'est-ce qu'une régression linéaire ?

La régression linéaire est une technique de modélisation statistique utilisée pour décrire une variable de réponse continue en fonction d'une ou plusieurs variables appelées prédicteurs. Cette méthode peut vous aider à comprendre et prédire le comportement de systèmes complexes ou bien à analyser des données expérimentales, financières ou biologiques.

Les techniques de régression linéaire sont utilisées pour créer un modèle linéaire. Le modèle décrit la relation entre une variable dépendante \(y\) (également appelée « réponse ») comme une fonction d’une ou plusieurs variables indépendantes \(X_i\) (appelées « prédicteurs »). L'équation générale pour un modèle de régression linéaire est la suivante :

\[Y = \beta_0 + \sum \ \beta_k X_k + \epsilon_i\]

où \(\beta\) représente les paramètres linéaires à calculer et \(\epsilon) représente l'erreur.

Types de régression linéaire

Régression linéaire simple : modèle à un prédicteur. L'équation générale est la suivante :

\[Y = \beta_0 + \beta_1 X+ \epsilon\]

Tracé illustrant une droite de régression linéaire, les valeurs des réponses (accidents mortels de la circulation par état) et les valeurs des prédicteurs (population de l'état).

Exemple de régression linéaire simple montrant comment prédire le nombre d'accidents mortels de la circulation dans un État (variable réponse, \(Y\) par rapport à la population de cet État (variable prédicteur, \(X\)). (Consulter l'exemple de code MATLAB® pour voir comment utiliser l'opérateur mldivide pour estimer les coefficients d'une régression linéaire simple.)

Régression linéaire multiple : modèle avec plusieurs prédicteurs. Cette régression utilise plusieurs \(X_i\) pour prédire la réponse, \(Y\). Exemple d'équation :

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2+ \epsilon\]

Tracé illustrant une régression linéaire multiple, les valeurs des réponses (consommation de carburant) et les valeurs des prédicteurs (poids et puissance).

Exemple de régression linéaire multiple qui prédit la consommation de carburant de différentes voitures (variable réponse, \(Y\)) en fonction du poids et de la puissance (variables prédicteurs, \(X_j\)). (Consulter l'exemple de code MATLAB pour comprendre comment utiliser la fonction regress et interpréter la relation dans une régression linéaire multiple.)

Régression linéaire multivariée : modèles avec plusieurs variables réponses. Cette régression utilise plusieurs variables \(Y_i\) dérivées des mêmes données \(Y\). Elles sont exprimées dans différentes formules. Exemple de système à deux équations :

\[Y_1 = \beta_{01} + \beta_{11} X_1 + \epsilon_1\]

\[Y_2 = \beta_{02} + \beta_{1 2}X_1 + \epsilon_2\]

Tracé illustrant une régression linéaire multivariée, les valeurs des réponses (estimation de la grippe dans 9 régions) et les valeurs des prédicteurs (semaine de l'année).

Exemple de régression linéaire multivariée montrant comment prédire la diffusion de la grippe dans 9 régions (variables réponses, \(Y_i\)), en fonction de la semaine de l'année (variable prédicteur, \(X\)). (Consulter l'exemple de code MATLAB pour voir comment utiliser la fonction mvregress pour déterminer les coefficients estimés pour une régression linéaire multivariée.)

Régression linéaire multivariée multiple : modèles utilisant plusieurs prédicteurs pour plusieurs variables réponses. Cette régression utilise plusieurs variables \(X_i\) pour prédire plusieurs réponses \(Y_i\). Une généralisation des équations est:

Équation pour le calcul de plusieurs réponses Yi à partir de plusieurs prédicteurs Xi en utilisant une régression linéaire multivariée.

Exemple de régression linéaire multivariée multiple pour calculer la consommation de carburant en ville et sur route (variables réponses : \(Y_1\) et \(Y_2\)), à partir de trois variables : l'empattement, le poids à vide et type de carburant (variables prédicteurs : \(X_1\), \(X_2\) et \(X_3\)). (Consulter l'exemple de code MATLAB pour voir comment utiliser la fonction mvregress pour estimer les coefficients.)

Applications de la régression linéaire

Les propriétés des régressions linéaires sont particulièrement intéressantes dans les applications suivantes :

  • Prédiction ou prévision - Utilisation d'un modèle de régression pour construire un modèle de prévision pour un jeu de données spécifique. À partir du modèle, vous pouvez utiliser la régression pour prédire les valeurs des réponses lorsque seuls les prédicteurs sont connus.
  • Force de la régression - Utilisation d'un modèle de régression pour déterminer l'existence et la force d'une relation entre une variable et un prédicteur.

Régression linéaire avec MATLAB

Les ingénieurs utilisent en général MATLAB pour créer des modèles de régression linéaire simple. Pour la régression linéaire multiple et multivariée, vous pouvez utiliser Statistics and Machine Learning Toolbox™ de MATLAB. Cet outil offre des possibilités de régression graduelle, robuste et multivariée pour :

  • Générer des prédictions
  • Comparer les ajustements des modèles linéaires
  • Tracer des résidus 
  • Évaluer la qualité de l’ajustement 
  • Détecter les valeurs aberrantes

Pour créer un modèle linéaire qui ajuste les courbes et les surfaces à vos données, voir Curve Fitting Toolbox™.