Comment LinkedIn tisse son social graph intelligent de 830 millions de membres
Le réseau social professionnel s'adosse à un graph social neuronal pour aiguiser la pertinence de ses recommandations sans pour autant faire de compromis sur ses performances.
Fort de 830 millions de membres au dernier pointage, LinkedIn adosse le cœur de son réseau professionnel à un graph social combiné à un réseau de neurones artificiels. Une double technologie d'IA qui se classe dans le domaine des graph neural networks (GNN). L'enjeu ? Se baser sur les cercles relationnels de chaque utilisateur, de premier et de deuxième niveau, et sur leur historique de consultation pour leur faire des recommandations à la fois de contenus et de postes à pourvoir. Au fur et à mesure des nouvelles connexions activées et information consommée, le modèle de machine learning s'enrichit et affine la pertinence de ses conseils.
Problème : un GNN n'est pas capable de distinguer le bon grain de l'ivraie. Il tend à prendre en compte toutes les relations sans distinction. Ce qui, au final, engendre des limitations tant en termes de pertinence que de performance. Pour résoudre l'équation, LinkedIn a mis au point une méthode baptisée PASS (pour performance-adaptive sampling strategy).
"Dans beaucoup de cas, un membre a de très nombreuses connexions. Or, les exploiter toutes n'est pas faisable. Par exemple, une célébrité peut avoir des centaines de millions de liens relationnels qui ne se révèlent pas tous pertinents pour une tâche de recommandation donnée", explique-t-on chez LinkedIn.
"Pass surpasse le niveau de précision des méthodes GNN de dernière génération de 1,3% à 10,4%"
Parmi ces connexions non-pertinentes figurent notamment les cercles d'amis. Elles n'apportent aucune valeur ajoutée au modèle de machine learning et peuvent même en dégrader les résultats. Pass est justement conçu pour dénicher ces intrus et se limiter aux membres améliorant la précision de la prédiction du GNN. "Il peut également identifier les comptes fake", précise LinkedIn. Cette méthode passe par un échantillonnage adaptatif des voisins réellement informatifs pour une tâche ciblée.
Google, Pinterest et Twitter sur les rangs
"Appliqué à sept benchmarks publics et deux graphs LinkedIn, Pass surpasse le niveau de précision des méthodes GNN de dernière génération de 1,3% à 10,4%", argue le réseau social. "Il a également atteint une précision jusqu'à 3 fois supérieure comparé aux méthodes de référence en ajoutant ce que l'on appelle des 'bords bruyants'". Et l'équipe d'ingénierie de LinkedIn d'ajouter : "À notre connaissance, il s'agit de la première méthode pour apprendre à sélectionner 'des voisins' en vue de maximiser les performances prédictives d'un GNN." Publié par LinkedIn en open source sur GitHub, Pass permet au final de recourir à un nombre plus restreint de voisins tout en atteignant une meilleure pertinence que les GNN traditionnels, et ce pour une performance d'exécution plus rapide.
La recherche sur les GNN est extrêmement active. Tout l'enjeu demeure de trouver des solutions à leur limitation. Parmi les géants américains sur les rangs, on compte Airbnb, Google, IBM, Pinterest ou encore Twitter. En France, l'INRIA est également engagé dans la course.