Le semantic layer s’impose aujourd’hui comme la réponse à un problème bien connu des équipes data…peut-être en avez-vous déjà fait l’expérience ?
- Une même mesure différente entre deux présentations de résultats.
- Des analystes contraints de décrypter du code SQL pour répondre à des questions simples.
- Le dashboard du marketing qui présente une marge bénéficiaire de 7% quand celui utilisé par la finance est de 9%.
- Ou encore pourquoi votre IA générativeQu'est-ce que l'IA générative ? L'IA générative (intelligence artificielle générative) est une sous-branche de l'intelligence artificielle qui se concentre sur la création de nouveaux contenus, que ce soit des textes, des images, des vidéos ou d'autres formats, à partir des données d'entra... More échoue-t-elle sur une question aussi basique que votre revenu mensuel.
Le problème ne vient peut-être pas de la donnée en elle-même mais de son interprétation.
Le contexte intrinsèque attaché aux données et spécifique au métier est bien trop souvent éparpillé entre les équipes et les différents outils de l’écosystème data. Les départements ne partagent pas toujours les mêmes définitions et ce manque de consensus peut devenir un risque majeur pour exploiter efficacement la valeur ajoutée présente dans les données.
Le besoin d’une source commune et partagée de vérité devient un enjeu stratégique.
Semantic Layer
La couche sémantique agit comme un traducteur universel placé entre vos données et vos utilisateurs, pour fournir une vue consistante et business-friendly des données. Elle prend la forme d’une couche d’abstraction qui retranscrit les données brutes en des concepts métiers et des métriques communes.
Le concept n’a rien de nouveau mais il fait un retour en force suite aux limites du “tout en libre-service” observé ces dernières années. Un échec relatif qui ne vient pas de l’autonomie des utilisateurs, mais du manque de cadre commun. Sans cette couche sémantiqueQu'est-ce qu'un Semantic Data Layer ? Le Semantic Data Layer (ou couche sémantique de données) est une composante essentielle des architectures de données modernes. Il agit comme une couche d'abstraction métier positionnée entre les sources de données physiques complexes et les outils de conso... More, un agent IA doit “deviner” les règles métiers et l’emplacement des données pertinentes, au risque de multiplier les interprétations contradictoires.
Avec le semantic layer l’IA n’interroge plus des tables mais des concepts métiers : la fiabilité des réponses augmente drastiquement.
Les différentes implémentations d’un semantic layer
On observe aujourd’hui 2 grandes approches pour implémenter une couche sémantique. Et peu importe celle choisie elles partagent à minima 3 éléments clés :
- Un mapping : Cette colonne cmd_01 dans la base de données correspond à un identifiant unique de commande
- Des logiques de jointure : Pour lier un client à une vente, il faut toujours utiliser la clé customer_id
- Des logiques de calcul : La Marge est toujours égale à (Prix – Coût) / Prix
Les approches diffèrent de par l’endroit où est implémentée la couche sémantique, son interopérabilité et les usages qu’elle adresse.
1. Le semantic layer natif (ou intégrée) : Rapidité et écosystème
Ici la couche sémantique est directement intégrée dans les outils de visualisation ou de stockage, elle peut être rapidement mise en place et s’intègre parfaitement au sein de son propre écosystème. L’interopérabilité y est en revanche limitée.
« BI-Locked »
La logique sémantique est codée directement dans le moteur de calcul propriétaire de l’outil de visualisation (comme le moteur VertiPaq de Power BI ou le LookML de Looker). Et bien que les éditeurs développent de plus en plus de connecteurs BI pour y accéder en dehors de la solution, le calcul ne peut être déclenché que par l’interface de cet outil spécifique.
- Les Plus : Une expérience utilisateur fluide avec des calculs optimisés pour les graphiques (comparaisons de périodes, moyennes glissantes) qui réagissent instantanément aux filtres visuels.
- Les Moins : L’effet silo, votre intelligence métier est « prisonnière » de l’outil. Si vous créez un indicateur de performance dans Power BI, votre agent IA ou votre équipe Data ScienceQu'est-ce que la Data Science ? La Data Science, ou science des données, est une discipline interdisciplinaire qui utilise des méthodes scientifiques, des processus, des algorithmes et des systèmes pour extraire des connaissances et des insights à partir de données, qu'elles soient structurées... More ne pourra pas forcément le réutiliser en dehors de l’outil sans tout recoder.
« In-Warehouse »
Toute la logique sémantique est écrite et stockée directement dans l’entrepôt de donnéesQu’est-ce qu’un Data Warehouse ? Dans un monde où chaque interaction client et chaque processus interne génèrent des volumes massifs de données, le Data Warehouse (ou entrepôt de données) s’impose comme la colonne vertébrale de toute stratégie décisionnelle. Pour faire simple, imagine... More : de la forme la plus classique sous forme de Vues SQL et de données “Gold”, aux formes plus évoluées permettant de définir des objets sémantiques directement dans la plateforme comme avec dbt Semantic Layer ou Snowflake Semantic Views.
- Les Plus : Performance et sécurité centralisée : pas de transfert de données hors du Warehouse, on utilise la puissance de calcul brute de la base.
- Les Moins : Un manque de souplesse pour les calculs dynamiques à la volée. Le Warehouse livre des tables, mais il ne sait pas « expliquer » ses métriques à une IA via une API simple ou gérer des changements de granularité complexes sans multiplier les tables.
2. Le semantic layer agnostique « Headless »
Contrairement aux approches précédentes, l’approche headless est une couche logicielle indépendante qui sert de cerveau central. Elle ne stocke pas de données et n’affiche pas de graphiques, elle “sert” des concepts via des APIs (REST, SQL, GraphQL).
- Les Plus : L’Omnicanalité, une seule définition de métrique alimente votre dashboard, vos applications et votre IA. C’est l’assurance d’avoir le même chiffre partout, quel que soit l’outil de consommation.
- Les Moins : Une brique technologique de plus à maintenir. Cela demande une vraie rigueur d’ingénierie logicielle (versioning Git, gestion d’API) et peut introduire une légère latence réseau.
Quelle approche choisir ?
Chacune a ses avantages et ses inconvénients et le meilleur choix à opérer dépend naturellement de la maturité technique, des usages prévus et de la stack actuelle de votre organisation.
L’on peut toutefois recommander d’éviter la logique jetable : que votre semantic layer soit intégrée à votre outil de BI ou dans un fichier YAML, elle doit être pensée comme un actif réutilisable, capable demain d’alimenter un chatbot, un algorithme prédictif ou une application métier sans avoir à tout re-développer.
Retour d’expérience : une IA conversationnelle fiable grâce au semantic layer
Un grand groupe international dans le secteur du luxe, opérant dans un environnement 100% Google Cloud Platform, cherchait à déployer un outil d’IA générative pour ses collaborateurs.
L’objectif était de développer des compagnons métier (agents conversationnels) capables de transformer du langage naturel en requêtes BigQuery afin de fournir des réponses précises et fiables. Le projet s’adressait tant aux utilisateurs techniques (forecasting des ventes pour les équipes de Data Science) qu’aux utilisateurs métiers (pour assurer le suivi opérationnel des indicateurs de performance).
Notre Approche : La couche sémantique comme garante de la précision
Notre expertise nous a permis de concevoir une architecture hybride dans laquelle la couche sémantique, contenue dans LookML et utilisable directement par Looker est également exploitée par un LLM interne à disposition des métiers. Une architecture à mi-chemin entre les approches bi-locked et headless rendue possible par les connecteurs de LookML.
Nous avons tiré parti de l’architecture de Looker Modeling Language pour créer une couche sémantique structurée et optimisée pour l’IA :
- Structure LookML : Traduction du jargon technique des bases de données en concepts business clairs via les “Views”, au lieu de laisser l’IA deviner le calcul, nous avons fixé les règles métier directement dans le code.
Cartographie des différentes relations entre les données grâce aux « Explores« , définissant comment les informations doivent se croiser (ventes, stocks, clients). - Configuration de l’Agent par prompt : Le modèle LookML est complété par un prompt détaillé intégré dans le code de l’agent. Ce prompt sert de cadre précis et orienté « chat » pour le Grand Modèle de LangageQu'est-ce qu'un Large Language Model (LLM) ? Si vous avez testé des outils d'IA conversationnelle récemment, alors vous avez directement interagi avec ce qu'on appelle un Large Language Model. Derrière ce terme se cache une réalité technologique fascinante. Concrètement, il s'agit d'un systèm... More (LLM), lui expliquant l’objectif, les métriques à utiliser et les scénarios de réponse, permettant au LLM de se connecter à l’outil sémantique pour générer des requêtes.
- Fiabilité et raisonnement : L’agent conversationnel développé est capable d’un processus de raisonnement, il appelle la couche sémantique, vérifie les filtres et renvoie les requêtes SQL et les données. Nos travaux ont également inclus le développement de capacités d’auto-correction pour l’agent, lui permettant de repérer et de corriger lui-même des erreurs de syntaxe (par exemple, une mauvaise orthographe dans le nom d’un groupe).
La mise en place de cette architecture dans laquelle la couche sémantique agit comme une source unique et partagée de vérité pour créer des agents d’IA conversationnels ultra-spécifiques, garantie à la fois :
- la précision analytique pour les data scientists (validation des prévisions)
- la simplicité d’accès pour les utilisateurs métier (analyse de l’évolution des ventes et de la part de marché).
Un défi davantage humain que technique
L’outil ne fait pas tout et implémenter une couche sémantique est avant tout un défi organisationnel : quelle gouvernance mettre en place ? Comment mettre d’accord les utilisateurs sur une définition ?
Un effort de construction qui nécessite notamment que les équipes métiers et techniques travaillent main dans la main et dont les effets pourront être directement appréciables sur toute la chaîne de valeur de la donnée :
- En redonnant du contexte métier à des équipes techniques trop souvent focalisées sur le développement, l’architecture et l’optimisation.
- En offrant une porte d’entrée aux métiers vers une exploitation simplifiée et robuste en self service de la donnée par l’interrogation en langage naturel (Text-to-SQL).
En centralisant dans un référentiel unique la définition des métriques et dimensions, le semantic layer devient la source de vérité partagée qui élimine les débats sur « quel chiffre est le bon » et garantit que chaque outil qui l’exploite parle exactement le même langage métier.
L’avenir du semantic layer
Dans un écosystème data d’entreprise dans lequel la logique métier est éparpillée entre données, outils et collaborateurs, le semantic layer s’impose comme un atout puissant pour fiabiliser et accélérer l’exploitation des données. Avec la démocratisation de l’utilisation de l’IA, le semantic layer n’est plus qu’une option d’architecture, c’est le fondement commun à des usages de self-service analytiques et BI.
Mais au-delà de la technique, c’est un choix de gouvernance. Mettre en place une couche sémantique c’est décider collectivement que la définition de « chiffre d’affaire » ou de « client actif » n’appartient plus à un outil ni à une équipe, elle appartient à l’organisation entière.
C’est ce déplacement du silo vers le commun qui transforme la donnée en véritable actif partagé : compréhensible par tous, exploitable partout, et fiable pour chaque décision au sein de l’organisation toute entière.
Auteurs : Gaétan Michenet, Yves Tran, Thibaud Galeazzi







