Variance en machine learning : définition, dilemme, compromis...

La variance est un des principaux indicateurs de qualité d'un modèle de machine learning. Comment comprendre et appréhender cet indicateur ?

La variance en machine learning, qu'est-ce que c'est ?

En machine learning, la variance correspond aux erreurs de résultat d'un modèle d'apprentissage du fait de sa sensibilité à des petites fluctuation au sein de la base d'entrainement. Trop sensible, le modèle se noie dans le détail des données, et n'est plus capable de discerner les tendances. On parle alors de surapprentissage.

Si la variance est trop faible, elle entraîne, à l'inverse, un risque de sous-apprentissage. Le modèle n'est pas capable de représenter le phénomène et de faire les bonnes prédictions. Les résultats biaisés se multiplient.

Comment mesurer la variance d'un modèle de machine learning ?

La validation croisée consiste à découper le data set d'entrainement en plusieurs couples d'échantillons d'apprentissage et de validation. A l'issue de la phase d'entrainement, on obtient autant de scores de performance que de couples d'échantillons (apprentissage / validation). On estime alors les biais et la variance en calculant la moyenne et l'écart type des scores de performance obtenus.

Comment réduire la variance d'un modèle de machine learning ?

Réduire la variance d’un modèle de machine learning peut passer par la réduction du nombre de dimensions, c'est-à-dire le volume de variables utilisées. Autre méthode plus radicale : tester plusieurs types de modèle et opter pour celui qui, compte tenu du résultat recherché, se traduit par une variance équilibrée.

Enfin, on pourra recourir aux méthodes des ensembles qui consistent à agréger plusieurs modèles à variance élevée en les moyennant pour optimiser la variance finale.

La variance dans un réseau de neurones, c'est quoi ?

Dans un réseau de neurones, la variance augmente et les biais diminue avec le nombre de couches cachées du réseau. Comme pour un modèle linéaire généralisé, une régularisation peut être appliquée. Conclusion : il est important d'optimiser la taille du réseau de neurones en fonction du résultat recherché, la variété des tâches à accomplir, etc.

Qu'est-ce que le dilemme (ou compromis) biais-variance ?

Un modèle de machine learning avec une variance trop élevée n'est plus capable de discerner les tendances. Il se noie dans le détail des données. On dit que le modèle n'est pas généralisable. A l'inverse, un modèle avec une variance trop faible, est trop peu sensible aux variations de données. Ce qui peut engendrer des biais. C'est le dilemme biais-variance.

Le compromis biais-variance consiste à trouver le bon équilibre entre une variance trop élevée et une variance trop faible. Il cherche le bon équilibre entre le biais, la variance et l'erreur irréductible renvoyant au bruit inhérent à la phase d'apprentissage. Ce travail s'applique à tout algorithme d'apprentissage supervisé : classification, régression, arbre de classification, KNN...