Définition

Data Lineage

Qu’est-ce que le Data Lineage ?

Imaginez que vous présentez un tableau de bord stratégique à votre direction et qu’une question tombe : « D’où vient ce chiffre exactement ? ». Si vous bafouillez ou si vous devez remonter manuellement des dizaines de scripts SQL pour trouver la réponse, vous avez un problème de Data Lineage.

En clair, le Data Lineage (ou lignage de données) est la cartographie complète du cycle de vie de la donnée. C’est le fil d’Ariane qui permet de retracer le parcours d’une information, de sa source brute (un CRM, un capteur IoT, un fichier Excel) jusqu’à sa destination finale (un rapport BI ou un modèle de Machine Learning).

Pourquoi est-ce devenu le nerf de la guerre ?

À l’heure où les architectures data se complexifient avec le Cloud et le temps réel, savoir comment la donnée a été transformée en cours de route n’est plus un luxe, c’est une nécessité vitale pour plusieurs raisons :

  • La confiance (Trust) : Une donnée dont on ne connaît pas l’origine est une donnée suspecte. Le lignage apporte la preuve de la qualité.
  • La conformité (RGPD) : Les régulateurs exigent de savoir où sont stockées les données sensibles et comment elles circulent.
  • L’analyse d’impact : Avant de modifier une colonne dans une base de données, le lignage vous indique instantanément quels rapports ou quels modèles d’IA vont « casser » en cascade.

Concrètement, comment ça marche ?

Le Data Lineage ne se contente pas de lister les tables. Il s’intéresse aux relations et aux transformations. On distingue généralement deux niveaux de lecture :

  1. Le lignage métier : Une vue macro pour les décideurs. On voit que les « Ventes » proviennent du CRM et de l’ERP.
  2. Le lignage technique : Une vue granulaire pour les Data Engineers. On y voit les jointures, les filtres et les calculs précis appliqués à chaque étape.

Un cas d’usage courant : L’erreur de reporting

Supposons qu’un indicateur de Chiffre d’Affaires semble erroné. Grâce au lignage, vous pouvez remonter le flux et découvrir qu’une règle de conversion de devise a été mal appliquée dans une couche intermédiaire (le Staging). Sans lignage, cette investigation pourrait prendre des jours ; avec lui, quelques minutes suffisent.

Les défis de mise en œuvre

On ne va pas se mentir : documenter cela à la main est impossible. Le lignage moderne repose sur l’automatisation. Les outils de Data Catalog scannent aujourd’hui les métadonnées de vos outils (Snowflake, dbt, Power BI…) pour reconstruire ce graphe automatiquement.

En résumé

Le Data Lineage transforme la donnée d’un actif opaque en actif traçable et maîtrisé.
C’est un socle essentiel pour la confiance, la conformité et la fiabilité des systèmes data et IA.


Cet article a été rédigé par les experts AVISIA, pour approfondir ce sujet ou explorer comment cela pourrait bénéficier à votre entreprise, contactez nous.

Data contact

Avec notre expertise, faites parler vos données