Réduction de dimensionnalité en machine learning : définition
La réduction de dimensionnalité en machine learning consiste à réduire le nombre de variables au sein des données d'apprentissage, afin d'obtenir un modèle d'intelligence artificielle plus robuste et un temps de traitement plus rapide.
La réduction de dimensionnalité, c'est quoi ?
En machine learning, la réduction de dimensionnalité consiste à passer d'un espace d'apprentissage de grande dimension à un espace de calcul plus restreint. En d'autres termes, il s'agit de réduire le nombre de variables ou caractéristiques (features) permettant d'entraîner le modèle d'IA. Si les données sont représentées dans un tableau, la réduction de dimensionnalité passera par une diminution du nombre de colonnes. Quant à un modèle en trois dimensions comme un cube ou une sphère, il pourra être réduit à un plan unique, respectivement à un carré ou à un cercle.
Schématiquement, l'objectif est d'éliminer les variables redondantes ou corrélées. Un algorithme de détection de spam par exemple peut se baser sur de très nombreuses variables : mots clés dans le message ou l'objet, présence d'une signature, de fautes d'orthographe... Certaines peuvent être moins pertinentes que d'autres ou se recouvrir entre elles. C'est elles qui seront éliminées. Autre exemple : un modèle de classification identifiant les clients commentant positivement tel ou tel produit sur un site d'e-commerce. Le catalogue comprend 1000 produit. Au lieu d'identifier l'appétence pour chacun, la réduction de dimensionnalité consistera à cerner ce résultat par catégories de produits.
Quel est l'intérêt de la réduction de dimensionnalité ?
Si le nombre de variables d'un modèle de machine learning est trop important, on risque le surapprentissage (ou overfitting). Dans ce cas, le modèle se limitera à la détection des exemples ayant servi à l'entraîner, et ne pourra pas en identifier de nouveaux. Il sera incapable de généraliser comme le disent les data scientists. On parle alors de fléau de la dimension.
La réduction du nombre de variables dans les données d'apprentissage conduit de facto à une meilleure robustesse ou stabilité de l'algorithme. Elle permet une amélioration du machine learning, en construisant des modèles plus simples, où les variables inutiles ont été écartées. Le paramétrage se révèle de fait plus efficace, en limitant les erreurs qui pourraient survenir avec des caractéristiques de départ non pertinentes.
En réduisant l'espace dimensionnel, on diminue également le nombre de possibilités à ingérer. Ce qui permet de réaliser un apprentissage plus rapide en limitant le temps et les ressources de calcul.
Quels méthodes utilisées pour la réduction de dimensionnalité ?
Il existe deux méthodes principales afin de réduire la dimensionnalité d'un modèle de machine learning. La première consiste à sélectionner les variables les plus pertinentes et à les transposer dans un espace plus réduit. Il s'agit de limiter le nombre de caractéristiques à traiter. La seconde méthode passe par la combinaison de caractéristiques en sous-ensembles (les produits en catégories de produits par exemple).
Parmi les algorithmes les plus connus en matière de réduction de dimensionnalité, on peut citer :
- PCA (principal component analysis) : l'analyse en composante principale consiste à identifier les principales directions avec des variantes importantes,
- LDA (linear discriminant analysis) : l'analyse discriminante linéaire identifie les directions décorrélées les unes des autres,
- SVD (singular value decomposition) : la SVD passe par une décomposition d'une matrice en valeurs singulières.