Data lineage : définition, principes et outils
En procédant à un inventaire des données, le data lineage assure leur traçabilité. Ce travail de cartographie des flux de données repose un ensemble de techniques. Quelques explications et exemples d'outils.
Le data lineage, c'est quoi ?
Le data lineage, que l'on traduire par lignage de données, consiste à visualiser l’ensemble du cycle de vie de la donnée, de sa création à sa suppression en passant par les différents étapes de collecte, d'exploitation et de stockage. Ce travail de cartographie permet de remonter à la source originelle de la donnée et de suivre les différentes transformations qu'elle a subies au fil du temps.
Pourquoi le data lineage est important ?
A l’heure du big data et des projets d’intelligence artificielle, la connaissance fine des flux de données présente plusieurs avantages. Le data lineage permet de répondre aux exigences du cadre réglementaire européen sur la protection des données personnelles (RGPD). Il permet de tracer les différents états de la donnée, de son origine aux différentes étapes de transformation. En facilitant l'identification d'erreurs dans des traitements de données à caractère personnel, le data lineage réduit les risques de non-conformité. En décrivant et documentant les flux de données, il participe à une bonne gouvernance de la donnée.
Il s'agit aussi d'un outil précieux pour optimiser l'architecture et l'urbanisation du système d’information. La traçabilité du data lineage permet, enfin, aux équipes IT de détecter et de corriger plus rapidement les dysfonctionnements liés aux données.
Quels sont les différents types de data lineage ?
Le data lineage dit technique vise à fournir le parcours de la donnée en détaillant techniquement les étapes de transformation et les espaces de stockages associés. Le data lineage fonctionnel élimine ces détails techniques pour offrir aux opérationnels et experts métiers un vision plus globale de la vie de la donnée.
Exemples d'outils de data lineage
La plupart des plateformes dédiées à la gouvernance des données proposent un service de data lineage. Parmi les éditeurs spécialisés, on peut citer Atlan, Talend (avec une déclinaison open source), Colibra, Informatica, Dremio ou CloverDX.