La Data Gouvernance et l’IA Générative au service de la Business Intelligence

La Data Gouvernance et l’IA Générative au service de la Business Intelligence

Contexte

La transformation numérique a profondément modifié les attentes et la vision des consommateurs sur les assets digitaux. Désormais plus aguerris sur les possibilités offertes par les technologies numériques, les consommateurs attendent des entreprises des services personnalisés qui leur permettent de disposer d’une qualité d’expérience personnalisée, fluide, immersive et rapide. Aujourd’hui l’IA Générative est mise en avant dans de nombreux domaines pour accroître la connaissance et la productivité de ses utilisateurs avec ses avantages et ses travers.

La “Gen BI” pour démocratiser l’accès aux données 

La démocratisation de l’accès aux données est un enjeu majeur pour les entreprises qui cherchent à exploiter pleinement leur potentiel. Pour répondre à cet enjeu, AVISIA a développé un outil de Gen BI proposant une solution innovante de Self-Service Analytics basée sur l’IA Générative et la Data Gouvernance

Generative BI

En permettant aux utilisateurs de requêter leur système d’information (SI) en langage naturel, notre outil de Gen BI supprime les barrières techniques liées à la maîtrise des langages de programmation et de requêtes de bases de données (SQL et autres). Cette approche, rendue possible grâce à l’IA Générative, ouvre la voie à une exploitation plus agile et intuitive des données, favorisant ainsi la prise de décision éclairée à tous les niveaux de l’entreprise. 

La Gouvernance Data, en garantissant la connaissance, la qualité, la fiabilité et la sécurité des données, joue un rôle essentiel dans ce processus en assurant la pertinence des résultats obtenus. 

Nous allons aussi découvrir, qu’elle se révèle être aussi un formidable accélérateur des initiatives IA et tout particulièrement des solutions Gen BI que nous souhaitons commencer à mettre en avant à travers cet article.

Pour garantir la pertinence de notre outil de Gen BI et donc la qualité des résultats obtenus, la démarche suivante a été opérée :

  • Identification des tables à exploiter pour nourrir l’IA Générative sur la performance Digitale
  • Capture automatique de la structure (champs avec formats) et des métadonnées associées aux tables sélectionnées hébergées sous Google BigQuery
  • Enrichissement des métadonnées des champs des tables avec des informations manuelles sur le type de données disponibles (courte définition, exemples de valeurs disponibles et/ou possibles)
  • Ajout d’informations relatives au jointures entre les tables
  • Création d’une interface graphique permettant aux clients d’interagir avec le service
  • Création manuelle d’exemples d’analyses possibles pour enrichir le prompt à travers des exemples. Permettant ainsi d’optimiser la pertinence des réponses adressées
  • Utilisation de Gemini pour transformer les demandes adressées en langage naturel en requêtes SQL. Requêtes exploitées pour la résolution des réponses et l’affichage des résultats de recherche exposés aux utilisateurs. Les requêtes SQL sont également mises à disposition des utilisateurs pour téléchargement et exploitation

Dans cette démarche, nous remarquons que plusieurs étapes comme l’enrichissement des métadonnées reposent sur des tâches manuelles opérées par le développeur du service. Nous voilà désormais exposé à l’une des facettes de la Data Gouvernance, la gestion de la connaissance et de l’accessibilité aux données.

Les opportunités des Catalogues Data (Data Catalog ou Data Knowledge Catalog)

Data Gouvernance - Data Catalog

Pour gérer ces aspects les Data Stewards, acteurs majeurs dans la conduite de la Gouvernance Data, ont recours à différents assets et solutions telles que les Data Catalog. Ces solutions permettant de collecter et centraliser la connaissance Data à destination des équipes Data, Business et IT.

Focus sur les Data Catalog

Les Data (Knowledge) Catalog représentés par des acteurs tels que DataGalaxy, CastorDoc, Alation, Zeena, Collibra… en mode autonome ou faisant parti des package de solutions d’un éditeur offrent généralement les différentes opportunités suivantes :

  • Un Dictionnaire technique permettant de déclarer, classifier et définir les données techniques exploitées reposant généralement sur des bases de données Cloud.
    On y retrouve par exemple une copie des tables utilisées enrichies de données à la maille champ ou objet sur la catégorisation, la description, les valeurs disponibles, les formats attendus, les règles de gestion techniques opérées, le caractère obligatoire et réglementaire des données.
  • Un Glossaire des données permettant de déclarer, classifier et définir les dimensions et métriques issues du Dictionnaire technique et exploitées à des fins business et data.
    On y retrouve par exemple en plus des éléments techniques du Dictionnaire présentés sous un angle business, des informations telles que les règles business permettant de construire les dimensions et indicateurs, le niveau de qualité de la donnée, les rôle et responsabilités autour de la donnée, les destinataires des données (prospects, clients, employés…).
  • Un regroupement des Traitements opérés sur les données (ingestion, transformation…) permettant d’identifier aisément les éventuels problèmes de données rencontrés sur ces aspects techniques.
  • Un regroupement des Usages (dashboards, rapports, fichiers…) associés aux données exploitées et permettant d’identifier les impacts sur les chiffres exposés aux métiers et inhérents à une problématique de remonté des données.
  • Une fonctionnalité de lineage permettant de lier l’ensemble des briques de l’outil (Dictionnaire technique, glossaire, traitements et usages) et suivre le flux et les impacts des données.

Après avoir énuméré de manière non exhaustive les options offertes par les Data Catalog nous pouvons aisément comprendre que cette source d’informations cruciales enrôlée dans la Gouvernance Data peut venir nourrir automatiquement la Gen BI avec des Métadonnées optimales.

Les évolutions suivantes ont donc été appliqués sur notre outil AVISIA Gen BI :

  • Un export hebdomadaire des données DataGalaxy issues des différentes briques de l’outil (Glossaire, Dictionnaire, Traitements et Usages) est désormais réalisé et déposé sur un espace FTP sécurisé dédié pour une exploitation automatique.
  • Les données sont exploitées via un job GCP dédié à la collecte et la mise en relation avec les métadonnées des tables. 

Vous souhaitez en savoir plus sur ce projet ou sur d’autres exploitations des données à forte valeur ajoutée conduites par AVISIA, contactez-nous via le formulaire de mise en relation du site.

Ressources

Vous pouvez également vous référer aux articles AVISIA ci-dessous pour obtenir des informations sur nos expertises Data Gouvernance et Data IA :

Contact

Si cet article vous intéresse et que vous vous posez des questions sur ce sujet, n’hésitez pas à nous contacter ici.

Articles en lien

Data contact

Avec notre expertise, faites parler vos données