Plateformes cloud d'IA : Amazon et Microsoft distancés par Google
Le cloud de Mountain View se détache sur le front du machine learning automatisé, mais aussi dans l'open source et les processeurs taillés pour le deep learning. Son offre Vertex, qui vient d'être annoncée, termine d'unifier sa plateforme.
Sur le terrain des plateformes d'IA en mode cloud, Amazon, Google et Microsoft font la course en tête. Leur objectif ? Proposer un environnement unique pour gérer la création et le déploiement d'applications de machine learning (ML). Tous couvrent désormais toutes les étapes du processus : data préparation, découpage des data sets (entre données d'entraînement, de validation et de test), exécution de l'apprentissage machine, tuning des hyper-paramètres des modèles, puis mise en production de ces derniers à grande échelle. Proposant des modèles pré-packagés dans le NLP (natural language processing), la reconnaissance vocale ou la vision par ordinateur, les trois offres sont taillées pour cibler à la fois les data scientists qui échafaudent les algorithmes, les équipes de production informatique qui les déploient, et les analystes métiers qui exploitent leurs résultats. Comparé à Amazon et Microsoft, Google se détache. Le groupe de Mountain View affiche une longueur d'avance dans trois domaines : le machine learning automatisé, les processeurs orientés deep learning et l'open source.
Fonctionnalité | AWS SageMaker | Microsoft Azure Machine Learning | Google Cloud AI Platform / Vertex AI |
---|---|---|---|
Feature store managé | X | X | |
Data préparation avancée et temps réel, intégrée au Feature Store | X | ||
AutoML avancé et intégré | X | ||
Modélisation visuelle des pipeline de MLOps et CI/CD | X | X | |
Processeur spécialisé pour le deep learning | X | ||
Open source / recherche fondamentale | X |
Précurseur de l'IA en mode cloud, Google sort dès 2010 Prediction API. Sur la base d'un jeu de données, l'interface entraîne le modèle considéré le plus pertinent, de l'analyse de sentiment à la prévision des ventes en passant par la recommandation de produits. La première pierre de la future offre d'automatisation du ML de Google (AutoML) est posée. En 2015, Amazon Web Services (AWS) lui emboîte le pas avec Amazon Machine Learning. Une console graphique conçue pour créer et tuner des modèles, puis les mettre en production au travers d'API. Elle se connecte à Amazon S3, RedShift et RDS. La même année, Microsoft dégaine Azure Machine Learning. La solution s'articule autour d'un studio de data science, l'un des tout premiers proposés en mode cloud. Baptisé Azure ML Studio, il permet de modéliser graphiquement des pipeline d'apprentissage, d'y injecter des data sets, puis de déployer les modèles en passant là-encore par le biais d'API. L'outil se veut à la portée des non-informaticiens. L'avantage commun aux trois produits : une gestion des ressources de calcul automatisée.
Microsoft cible les citizen data scientists
Près de six ans après et des dizaines de nouveautés plus tard, la plateforme d'IA de Microsoft demeure la plus adaptée aux analystes métiers. Elle permet sans connaissance approfondie en data science de se lancer dans le machine learning. "La stratégie globale de Microsoft dans l'intelligence artificielle est de cibler les citizen data scientists", rappelle le Gartner dans son Magic Quadrant 2021 sur les services cloud de développement d'IA. Une étude qui classe Microsoft et Google en tête des leaders du segment devant AWS. "Dans ses dernières itérations, Azure Machine Learning reprend la logique graphique de l'ex-Azure Studio. En quelques clics, on peut créer un modèle, l'entraîner, puis le déployer", souligne Franck Wolff, expert Azure ML au sein de l'ESN Devoteam. "Intégré à Azure DevOps, la brique Azure Pipeline donne la possibilité de concevoir visuellement les flux de ML, connecter les data sets d'apprentissage, puis gérer graphiquement les phases d'entraînement, de validation, de test et de mise en production."
"Google est engagé dans des projets open source clés dans le machine learning, qu'il a lui-même lancés"
Même s'il gère le versionning des modèles via Azure Pipeline, Microsoft n'intègre pas pour autant de service de feature store managé comme c'est le cas chez AWS et Google. Une solution dessinée pour standardiser le formatage des data d'apprentissage en vue de garantir leur cohérence entre les phases d'entraînement et de test tout en facilitant leur réutilisation de projet en projet pour accélérer le feature engineering.
AWS associe feature store et data preparation
En amont du feature store, la plateforme d'Amazon, désormais appelée SageMaker, s'adosse à Data Wrangler pour exécuter le formatage des données. "A la différence de Cloud Dataprep de Google (qui repose sur une application tierce signée Trifacta, ndlr), c'est un outil graphique qui ne gère pas seulement le batch mais aussi les transformations et mises à jour en temps réel", compare Sergio Winter, ML engineer chez Revolve, entité de Devoteam experte AWS. Fin 2020, Amazon complète Data Wrangler du module Clarify pour identifier les sources de biais dans les données.
L'offre de Mountain View avance néanmoins d'autres arguments qui font pencher la balance en sa faveur. Le premier d'entre eux : ses services d'IA sont désormais intégrés au sein d'une plateforme unifiée managée. Baptisée Vertex AI, elle a été annoncée ce 18 mai lors de l'événement Google I/O. Avec à la clé une interface graphique et une API uniques (voir architecture ci-dessous).
Deuxième argument de Google : l'open source. "Il est engagé dans des projets open source clés dans le machine learning, qu'il a lui-même lancés", reconnaît le Gartner, qui cite la bibliothèque de deep learning TensorFlow, le réseau de neurones de traitement du langage BERT ou encore Kubeflow, qui standardise l'exécution des workflows de ML sur Kubernetes. Et le cabinet d'ajouter : "Google exploite ses capacités de recherche, notamment autour de DeepMind et Google Brain, pour innover sur toute la pile d'IA, de l'optimisation des hyper-paramètres au federated learning en passant par l'inférence en mode edge." Autres innovations évoquées : les processeurs TPU conçus pour l'apprentissage profond, et désormais en version 4, que Google est le seul à développer et à proposer via son cloud, sans oublier l'automatisation du développement des modèles.
Google, grand maître de l'auto ML
Face à AWS et Azure, eux-aussi positionnés dans l'auto ML, Google reste en tête du domaine. Il a été le premier à lancer une offre sur ce segment dès 2017. Intégré à sa plateforme Vertex AI, cet outil graphique, baptisé AutoML, permet de créer rapidement des modèles exploitables. "Il est équipé de modules de NLP, de traduction, de vision...", égraine Maher el Natout, CTO et expert AI plateform chez Ysance, autre entité de Devoteam experte en cloud. En bêta, la brique AutoML Tables va jusqu'à générer des modèles basés sur des ensembles de modèles avec, chacun, une configuration différente d'hyper-paramètres pour optimiser performance et généralisation. Les solutions d'AWS et Azure ne vont pas jusque-là. "Il faudra néanmoins savoir comment créer un jeu de données d'entraînement prêt à être ingéré contenant des indicateurs pertinents pour répondre à la problématique business : transformation adéquates des variables d'entrée, vérification de la distribution des variables, etc.", prévient Idriss Brahimi, data scientist chez Ysance (lire son post sur le sujet).
En 2021, Amazon, Google et Microsoft devraient avancer leur pion sur l'échiquier de la cloud data platform. "L'enjeu est d'aboutir à une infrastructure de données unifiée gérant à la fois la BI et l'analytics en mode batch mais aussi l'IA à chaud en mode temps-réel", anticipe Mick Levy, directeur de l'innovation business au sein de l'ESN Business & Decision. "Des solutions comme Amazon Redshift, Azure Synapse et Google BigQuery sont à considérer pour cette orientation cloud data platform. Snowflake propose quant à lui une solution nativement multicloud disponible à la fois sur Azure, AWS et Google Cloud. Cela permet d'instaurer des fonctionnalités de data sharing ou encore de data marketplaces qui sont un véritable atout pour casser les silos de données et exploiter facilement des données externes" Même stratégie pour Databricks, qui vise lui-aussi à fusionner data warehouse et data science / ML à travers une plateforme multicloud. Mais cette dernière se veut plus polyvalente que Snowflake et surtout mieux adaptée aux traitements orientés machine learning. AWS, Azure et Google pourraient-ils se faire disrupter ?