Apprentissage non-supervisé : définition et algorithmes populaires
En machine learning, lorsque l'on souhaite regrouper des données sans les étiqueter, le recours à l'apprentissage non supervisé, sans aucune intervention humaine, s'impose.
L'apprentissage non supervisé, qu'est-ce que c'est ?
En machine learning, la technique de l’apprentissage non supervisé (ou unsupervised learning) consiste à entraîner des modèles, sans réaliser d’étiquetage manuel ou automatique des données au préalable. Les algorithmes regroupent les données en fonction de leur similitude, sans aucune intervention humaine.
Comment fonctionne l'apprentissage non supervisé ?
L'apprentissage non supervisé détecte des données ou individus présentant des caractéristiques ou des structures communes. Typiquement, l'unsupervised learning peut servir à développer un moteur de recommandation de produits, qui est conçu pour proposer à un visiteur des produits au regard des appétences des clients présentant les mêmes caractéristiques.
Quelle est la différence entre apprentissage non supervisé et apprentissage supervisé ?
A la différence de l'apprentissage supervisé qui fait appel à des données étiquetées ou annotées pour réaliser des prédictions, l'apprentissage non supervisé n'a pas besoin d'étiquette. Puisque les données ne sont pas étiquetées, il n'est pas possible pour le modèle de calculer des scores de réussite. En conséquence, alors que les systèmes supervisés se concentrent sur les tâches de régression et classification, la technique non supervisée est utilisée pour effectuer des regroupements ou des mises en grappe de données en fonction de leurs ressemblances ou différences.
Quelles sont les techniques de l'apprentissage non supervisé ?
En apprentissage supervisé, le clustering est l'algorithme le plus utilisé. Il consiste à regrouper des données hétérogènes en groupes de données ayant des caractéristiques homogènes. Comme indiqué plus haut, le clustering est très utilisé pour réaliser des segmentations de clients présentant des caractéristiques et comportements communs.
Il existe plusieurs types d'algorithmes de clustering. Parmi les plus populaires figurent la méthode des K-moyennes (voir question ci-dessous), l'algorithme apriori, le clustering hiérarchique ou encore la décomposition en valeurs singulières (SVD). Autre type d'algorithme non supervisé : l'analyse en composantes principales (ACP).
L'algorithme K-means, c'est quoi ?
Très populaire en machine learning, l'algorithme K-means ou des K-moyennes est un modèle d'apprentissage non supervisé appliquant le partitionnement des données de manière non hiérarchique. Sur la base d'un ensemble de données, il les catégorise dans de multiples clusters, dans le respect du principe de l’exclusivité d’appartenance : une même observation ne peut appartenir qu’à un seul cluster, une donnée ne peut pas relever de deux clusters à la fois.
Les utilisateurs du logiciel choisissent la valeur K, qui représente le nombre de clusters. Vu qu’il n’est pas possible de connaître la valeur idéale à l’avance, K-means est donc lancé à plusieurs reprises avec différentes valeurs K afin de calculer la variance des clusters, soit la somme des distances entre chaque centre d’un cluster et les observations incluses dans le même cluster. Le but est de déterminer un nombre de clusters optimal, de manière à ce que la valeur K retenue minimise la distance intra-classe.
Dans le monde de l’entreprise, l'algorithme K-means est notamment utilisé pour segmenter les données clients, afin de regrouper les prospects en fonction de certains critères, comme les habitudes d'achat et la démographie. Des portails d’informations s’en servent également pour regrouper des articles d’actualité aux thématiques similaires.