Les 26 et 27 septembre 2023, nous avons assisté au Salon de la Big Data et de l’Intelligence Artificielle à Paris, une vitrine exceptionnelle des dernières avancées technologiques dans ces domaines.
Lors de cet évènement, nous avons assisté à l’atelier captivant d’IBM consacré au Data Mesh, un cadre architectural qui mérite toute notre attention ! Aujourd’hui nous partageons avec notre communauté les connaissances et les découvertes que nous avons acquises à travers cet atelier.
De nos jours, avec la génération quotidienne de 2,5 quintillions d’octets de données, nous sommes confrontés à un potentiel d’exploitation de ces données qui reste largement sous-exploitées.
Une agilité accrue est essentielle pour localiser aisément les données nécessaires.
En parallèle, la confiance dans la qualité des données devient impérative, d’où l’importance d’un Master Data Management efficace.
Compte tenu de l’augmentation considérable du volume de données générées chaque jour, un autre enjeu majeur est la collaboration autour des données : il s’agit de les rendre accessibles aux utilisateurs finaux de manière sécurisée tout en assurant leur fiabilité.
Le Data Mesh apparaît alors comme la solution adéquate, grâce à son organisation décentralisée des données par domaines d’expertise métier. Pour implémenter cette stratégie, il est nécessaire de se tourner vers des solutions cloud natives et des plateformes cloud, qui permettront de s’adapter et d’atteindre les objectifs de gestion des données.
Nous évoluons d’une architecture où les données sont gérées par une plateforme centralisée unique vers une structure où elles sont réparties de manière décentralisée. Dans ce nouveau modèle, les données sont traitées en tant que produits, utilisant une architecture de micro-services.
Le data mesh s’oriente ainsi vers une autonomie des utilisateurs en matière d’accès aux données.
La gouvernance des données au sein d’un data mesh joue un rôle crucial, couvrant des aspects tels que la qualité des données et les permissions d’accès. Quant à la Data Fabric, elle représente la fondation technologique facilitant l’implémentation du data mesh, qui est en lui-même une conception organisationnelle orientée données.
La Datafabric offre un éventail de fonctionnalités essentielles tandis que le data-mesh se charge de structurer l’organisation de la donnée.
Les différents niveaux de cette architecture facilitent la tâche des utilisateurs finaux en matière d’accès, de gouvernance, de qualité, leur permettant ainsi de manipuler les dataproducts.
L’organisation des données en domaines distincts repose sur un catalogue de données qui assure leur standardisation. Cela conduit à l’établissement de la notion de « Datalayer », où les données, organisées et gouvernées de manière précise, sont mises à disposition grâce au support de la Data Fabric.
Les domaines de données sont conçus selon les principes du Domain-Driven Design (DDD), visant à segmenter les données en domaines spécifiques. Dans cette optique, les organisations qui génèrent des données en deviennent les propriétaires, ce qui contribue à en améliorer significativement la qualité.
Cette segmentation par domaine d’activité est supervisée par des data product owners qui gèrent le sourcing, le nettoyage et la diffusion des données. Ils sont ainsi garants de la qualité des données mises à disposition pour les métiers consommateurs qui en dépendent.
L’investissement dans la conceptualisation des produits de données et le niveau de maturité du projet, vont grandement influencer l’organisation des domaines de données. Certaines organisations pourraient identifier seulement quelques data domaines, alors que d’autres pourraient en définir plusieurs dizaines. L’objectif est de libérer le consommateur final, c’est-à-dire le secteur d’activité concerné, des préoccupations relatives à la qualité et à la provenance des données, en assurant ces aspects en amont.
Les données fournies par chaque domaine doivent être interopérables, c’est-à-dire qu’elles doivent être utilisables pour plusieurs cas d’utilisation et potentiellement réutilisables par d’autres domaines si nécessaire.
Dans la pratique, il est rare de partir d’une feuille blanche. Il est donc essentiel de lancer un projet pilote pour évaluer le Time to Market et les éventuels gains apportés par le data mesh.
L’objectif d’un proof of concept (POC) est de sélectionner quelques cas d’usage pour commencer la transition d’une gouvernance centralisée vers une gouvernance décentralisée, idéalement dans des domaines transversaux. Une phase ultérieure consiste à étendre la migration à un ou deux domaines de data mesh avec des équipes pilotes.
Les domaines de données se chargeront alors du soucing, de la préparation et de la mise à disposition des données pour des use cases spécifiques.
L’implémentation de ce système nécessitera des rôles clés tels que les data product owners et des data stewarts au sein de chaque domaine. Une gouvernance fédérée sera indispensable. Plus il y aura de domaines, plus il sera crucial que les standards établis au niveau central soient correctement implémentés au sein de chaque domaine.
À terme, chaque domaine de données disposera d’une roadmap détaillée de sourcing pour chaque data domaine, et une procédure pour la consommation des données. Il sera alors essentiel de se fier à la data readyness, c’est à dire d’éviter de lancer des use cases pour lesquels les données ne sont pas disponibles ou de prioriser les projets pour lesquels la disponibilité des données est cruciale ; cela implique un besoin constant de communication de données et leur utilisateurs finaux.
Enfin les Data Marketplaces offrent aux utilisateurs finaux la possibilité d’exploiter des données auxquelles ils sont autorisés selon leur niveau d’habilitation. Ils pourront ainsi générer des rapports analytiques ou développer des solutions d’IA en s’appuyant sur les données disponibles.
Naturellement, l’accès direct aux données centrales est restreint pour des raisons de sécurité évidentes, afin de préserver l’intégrité et la confidentialité des données.
À l’avenir, les avancées en intelligence artificielle générative ouvriront la voie à une interaction en langage naturel avec les données sur de nombreuses plateformes. Cela facilitera une plus grande démocratisation de l’accès aux données pour les utilisateurs professionnels.
En conclusion, le Data-Mesh tient-il ses promesses ?
- L’accès aux données ? Le Data Mest simplifie considérablement cette tâche
- L’Agilité ? La date Mesh contribue positivement à accélérer la création de valeur en réduisant significativement les coûts.
- Qualité des données ? Cette question reste ouverte pour le moment. Il existe toujours des obstacles à la création de valeur liés à des problèmes persistants de qualité des données. Des efforts conséquents doivent encore être déployés pour que le Data Mesh puisse pleinement réaliser son potentiel.
D’autres articles arrivent très prochainement…
Nous partagerons avec notre communauté les détails d’autres ateliers que nous avons suivis au cours de ce salon passionnant, notamment ceux consacrés à Microsoft Fabric, Snowflake et le Chatbot « Hopla » de Carrefour basé sur ChatGPT4.
Restez connectés pour découvrir les avancées et les perspectives les plus stimulantes de l’univers passionnant de la Big Data et de l’Intelligence Artificielle.