Data mesh : quand le big data joue à Spiderman
Imaginez une architecture de données qui permettrait au business de reprendre le contrôle de ses données et de ses projets en data et IA. C'est un nouvel univers qui s'ouvre.
Introduit par l'ingénieur logiciel Zhamak Dehghani en 2018, le data mesh confère au big data l'agilité qui lui manquait. A l'inverse de la logique d'un data lake lourd et centralisé, ce concept désigne une architecture de données légère et distribuée. Pour les experts que nous avons interrogés, si le data mesh est comparable à un super-héros, ce serait Spiderman. Pourquoi ? Parce qu'il tisse sa toile (mesh en anglais signifie maillage) en se déplaçant à très grande vitesse dans tous les sens (voir le webinar de Business & Decision sur le sujet).
"Pendant des années, les entreprises ont cherché à s'affranchir des silos d'informations. Le data mesh recommande de jouer avec eux", traduit Mick Levy, directeur de l'innovation business au sein de l'ESN Business & Décision (groupe Orange). L'objectif ? Prendre les contenus là où ils se trouvent et les découper en domaines logiques, par exemple le produit, le marketing, la finance, la supply chain... Chaque domaine gère ensuite lui-même ses propres données analytics et opérationnelles, et développe ses produits et services data.
Le métier reprend le pouvoir
Résultat, avec le data mesh, les équipes en charge des données (data scientists, data engineers, data analysts...) ne sont plus regroupées, mais réparties dans chaque domaine. Une infrastructure IT standardisée, basée sur une solution comme celle de Denodo par exemple, est déployée en parallèle pour gérer les différentes sources de manière unifiée. Un framework qui est également conçu pour exposer les applications correspondantes via des API standard en mode self-service, et ce quel que soit le client, interne ou externe. "Chaque métier est responsable de ses données et de ses projets data et IA. Du coup, on obtient des informations de meilleure qualité. Idem pour les applications en découlant qui seront distribuées via une data marketplace", argue Mick Levy.
"La gouvernance sera centralisée. D'une part pour définir une infrastructure IT standardisée. D'autre part pour sécuriser les données."
En rapprochant les experts data des équipes métier, le data mesh s'inspire directement des méthodes agiles. Lobna Karoui, stratégiste et architecte data chez Capgemini insiste : "Sa gouvernance sera centralisée. D'une part pour définir l'infrastructure IT standardisée visant à gérer l'ensemble de façon fédérée et permettre un passage à l'échelle efficace des applications, d'autre part pour sécuriser les données." La gestion des identités et des accès est fédérée, tout comme le contrôle de la qualité des data.
Data mesh vs data fabric
"Le cloud est une solution toute trouvée pour prendre en charge l'infrastructure chapeau du data mesh et provisionner les ressources machine en fonction de la demande de chaque domaine", ajoute Mick Levy. A la différence d'une data fabric, le data mesh est agnostique en termes de technologie. Bases SQL, No SQL, data warehouse... Il peut s'appuyer sur tout type de socle de données. Issues de l'univers des outils d'ETL (extract, transform and load) ou d'ELT (extract, load, transform), les data fabrics consistent, elles, à intégrer les informations sur une plateforme centralisée pour ensuite les mettre à disposition.
"Avec les premiers clients engagés dans des projets de data mesh, nous passons du temps à décomposer leur activité en domaines", explique Lobna Karoui chez Capgemini. Et Mick Levy d'ajouter : "Evoluer vers cette architecture ne se fait pas d'un claquement de doigts. Son déploiement implique une feuille de route sur plusieurs années. C'est un véritable chantier de transformation. Sachant que le data mesh recouvre à la fois des problématiques organisationnelles et technologiques."
Le secteur bancaire à la pointe
Quid des premiers secteurs d'activité engagés dans des chantiers de data mesh ? "Nous accompagnons des entreprises bancaires anglophones qui font preuve d'une forte appétence pour ce concept", constate Lobna Karoui, qui évoque également le retail. "Des acteurs du manufacturing et de l'automobile sont actuellement en phase de réflexion." La consultante de Capgemini cite les ports, les aéroports et les usines. "Avec le data mesh, les données sont stockées et traitées localement en s'appuyant par exemple sur des réseaux 5G privés et un cloud basé sur place."
Les avantages data mesh ? En évitant les remontées vers un cloud centralisé, il se traduit par une cybersécurité accrue et une vitesse d'accès applicative optimale. Les cas d'usage sont nombreux. Il permet notamment le déploiement de robots autonomes sur les lignes de montage, de caméras de surveillance pour contrôler la qualité produit (via une IA de proximité orientée reconnaissance d'image). Il permet aussi l'installation de millions de capteurs par kilomètre carré pour superviser des processus industriels. Des traitements en temps réel sur de gros volumes d'informations qui ne pourraient souffrir de la latence réseau d'un cloud distant. "Aux côtés du data mesh, c'est le besoin business qui permettra de définir l'infrastructure réseau nécessaire", conclut Lobna Karoui.