Régression linéaire multiple : définition, principes et cas d'usage
La régression linéaire multiple est un algorithme utilisé en machine learning. Cette technique permet de dégager des tendances et prédictions en se basant sur plusieurs variables explicatives.
La régression linéaire multiple, c’est quoi ?
La régression linéaire multiple repose sur le même principe que la régression linéaire simple mis à part qu'elle utilise plus d'une variable explicative (dite indépendante) pour déterminer un résultat (la variable dite expliquée). Ce dernier est toujours continue alors que les variables explicatives peuvent êtres continues ou catégorielles. L'objectif est le même que pour la régression linéaire simple : réaliser des prédictions.
Par exemple une régression linéaire multiple peut permettre de prédire le niveau de vente d'un produit en fonction du profil des acheteurs : âge, niveau de salaire, adresse....
Quand utiliser la régression linéaire multiple ?
La régression linéaire multiple est une solution permettant d'identifier les liens de corrélation entre un résultat (la variable dite expliquée) et plusieurs variables explicatives et indépendantes. Comme indiqué plus haut, il peut s'agir d'anticiper la performance des ventes d'un produit donné (un ordinateur haut de gamme par exemple) en fonction du profil des acheteurs potentiels : âge, niveau de salaire, adresse....
Pourquoi faire une régression multiple ?
A la base, la régression multiple a pour but d'identifier les relations existantes entre plusieurs variables indépendantes ou prédictives avec une variable explicative (dite dépendante).
Comment interpréter les résultats d'une régression linéaire multiple ?
Alors que la régression linéaire simple projette un nuage de points sur un plan graphique en deux dimensions (avec la variable explicative sur l'axe des ordonnées et la variable expliquée sur l'axe des abscisses), une régression linéaire multiple projette le nuage de points dans un graphique à plusieurs dimensions. L'objectif étant de modéliser la présence de plusieurs variables explicatives.
Pour interpréter une régression linéaire, il convient d'abord d'observer le nuage de points, sa forme, son étendue... Des ensembles de données peuvent très bien renvoyer à la même moyenne, au même écart-type et au même coefficient de corrélation. Cependant, les formes de ces ensembles peuvent être tout à fait différents.
Comment réaliser une régression linéaire multiple sous Excel ?
Pour effectuer une régression linéaire multiple avec Excel, il convient tout d’abord d’intégrer le module XLSTAT dans les extensions du tableur. À partir de l’onglet nouvellement installé, il faut ensuite sélectionner l’option "modélisation", puis la fonction "régression linéaire". Le paramétrage se focalise essentiellement sur l’onglet "général" pour réaliser un modèle multiple standard. Cela passe, entre autres, par le renseignement des variables expliquées et explicatives.
La configuration reste similaire à celle d’une régression linéaire simple, à la différence près qu’il est possible de renseigner plusieurs variables explicatives. Le libellé des variables est à laisser coché afin de présenter leur dénomination dans la première colonne du tableau. D’autres onglets permettent de personnaliser avec plus de précision le modèle de régression linéaire multiple :
- options ;
- validation ;
- prédiction ;
- données manquantes ;
- sorties.
Après avoir finalisé le paramétrage, il suffit de valider à partir du bouton "ok" et ainsi générer la régression linéaire multiple.
Dans quel domaine la régression linéaire multiple est-elle utilisée ?
La régression linéaire multiple présente de nombreux champs d’application. Cela s’explique par la prise en charge de plusieurs variables afin de développer des modèles plus complexes qu’un système linéaire simple. On peut s’en servir dans les domaines d’expertise suivants :
- Les prévisions météorologiques ;
- Les tendances climatiques sur une zone géographique plus ou moins vaste ;
- La propagation d’une infection virale à travers un pays ou suivant une classification des personnes contaminées ou à risque ;
- Les études financières et boursières ;
- L'économétrie ;
- L’analyse statistique.
Il s’agit là de quelques exemples. Cela ne constitue pas une liste exhaustive des nombreux usages de la régression linéaire multiple.