Le Data Mesh n’est pas à proprement parler une approche technologique, mais les domaines de données doivent disposer de puissants moyens techniques pour développer leurs produits. La Data Platform et son infrastructure constituent ainsi des facilitateurs de la fédération des initiatives et de la rationalisation des technologies employées. Il leur faut pour cela réunir des caractéristiques essentielles en termes d’agilité et d’automatisation pour une consommation des ressources à la demande ou self-service. Le Self-service Data Infrastructure as a Platform constitue le troisième des quatre piliers du Data Mesh.
Replay
Matinale Data / IA 2024 : Les clés pour réussir votre transformation et vos projets
Lire la suiteUne plateforme fédérée, interopérable et provisionnable à la demande
Le Self-service Data Infrastructure as a Platform constitue le pilier technique du Data Mesh. Il vise à outiller les domaines de données et à accueillir les Data Products développés par ceux-ci. Pour permettre l’autonomie des domaines et la distribution des données, il est indispensable, dans le cadre du Data Mesh, de fournir une plateforme ou infrastructure fédérée, interopérable et dont les ressources sont adressées en mode self-service.
Pilier technologique, le Self-service Data Infrastructure as a Platform a donc pour enjeu de positionner l’IT comme un facilitateur de la démarche Data Mesh. Il ambitionne également de prévenir une explosion des technologies exploitées pour les projets liés aux données.
Approche distribuée, le Data Mesh n’en repose pas moins sur une consolidation de l’infrastructure et des services de données. En effet, il ne faudrait pas risquer de balayer les efforts entrepris ces dernières années en matière de rationalisation en multipliant par exemple, le nombre de solutions de stockage des données au sein de l’organisation.
Comme dirait Spidey : « À grands pouvoirs, grandes responsabilités ». La DSI reste donc plus que jamais la garante de la cohérence des choix technologiques.
Data Mesh : infrastructure et data platform fédérées pour plus d’efficacité
L’un des points-clés du Data Mesh est d’être techno-agnostique. Il peut donc être mis en œuvre avec tout type d’outil ou de base de données. Avec un outil d’ETL ou avec du développement spécifique, avec des bases de données SQL ou NoSQL, avec des outils de reporting traditionnel ou de data visualisation, avec des studios de Data Science ou des langages de programmation… tout est possible ! Le tout est que les échanges de données et les accès puissent être standardisés à l’échelle de l’organisation pour une bonne interaction entre les domaines.
Indépendamment des briques qui la composent, l’infrastructure se doit donc d’être fédérée et disponible sous forme d’une plateforme dont les services sont consommables à la demande par les différents domaines.
La plateforme englobe des services, regroupés dans un catalogue applicatif, activables par les domaines en fonction de leurs besoins et ceux de leurs produits. Elle comprend aussi un ensemble de ressources d’infrastructure, qui seront allouées, toujours selon les besoins des domaines.
Cette vision d’une plateforme unifiée présente différents avantages, notamment en termes de rationalisation, mais également de supervision, opérée depuis un point et par des équipes uniques. La Data Platform doit d’ailleurs être gérée comme une ressource mutualisée dont l’évolution est pilotée et opérée dans le cadre d’une roadmap organisée en fonction des besoins de ses utilisateurs (les domaines).
Comme dirait Spidey : « À grands pouvoirs, grandes responsabilités ». La DSI reste donc plus que jamais la garante de la cohérence des choix technologiques.
Data Mesh : une réaffirmation du rôle de la DSI sur la Data Platform
Par son rôle dans la mise à disposition d’un catalogue de services applicatifs et d’infrastructure, le département IT de l’organisation consolide sa fonction, tout en la faisant évoluer. En effet, il intervient moins sur le volet « projet » (le développement des data products est du ressort des domaines) pour se recentrer sur le déploiement, le maintien en condition opérationnelle et le support technique des services d’infrastructure et applicatifs.
Dans ce contexte, la mission de la DSI est donc capitale. Elle permet et facilite, par ses opérations et son expertise sur les technologies sous-jacentes, l’ensemble des initiatives Data portées par les domaines. Et à cette fin, la DSI définit les règles du jeu du pilier technologique.
Opérationnellement, l’IT intervient donc sur trois plans :
- L’infrastructure (capacités de provisionnement des ressources, calcul, stockage, orchestration…)
- La supervision de l’infrastructure comme des dépenses (via le FinOps), et sa gouvernance.
- Le développement de la plateforme, comme un produit, au bénéfice des domaines.
Quelles technologies pour le Data Mesh ?
La DSI organise la mise à disposition des ressources techniques en self-service. Cette caractéristique peut prêter à confusion dans l’univers de la Data. Le self-service s’applique souvent à l’accès aux données métiers via des outils de data visualisation (dataviz). Appliquée au Data Mesh, le self-service caractérise ici la capacité à provisionner et affecter les ressources matérielles et applicatives de la plateforme data à la demande des domaines de données.
Par ailleurs, deux approches technologiques facilitent considérablement la mise en œuvre du Data Mesh : le cloud et la virtualisation des données.
En effet, ces deux courants technologiques ont pour point commun de permettre une allocation souple et une maîtrise forte des ressources matérielles. Elles peuvent aussi reposer sur différentes briques technologiques sous-jacentes tout en proposant un haut niveau de standardisation des accès aux données. En outre, leur élasticité et scalabilité permettront de gérer les montées et baisses de charge liées aux évolutions des produits data.
Dans cette optique d’extrême agilité, les approches DevOps et DataOps sont au cœur de la démarche de la DSI. En effet, le Data Mesh s’appuie sur des pratiques modernes d’ingénierie de la donnée telles que l’intégration et le déploiement continus (CI/CD) sans lesquelles il sera difficile d’envisager un niveau d’industrialisation à l’échelle de l’entreprise. Pour une souplesse maximale, on pourra d’ailleurs privilégier l’Infrastructure as code.
Deux approches technologiques facilitent considérablement la mise en œuvre du Data Mesh : le cloud et la virtualisation des données.
Rappelons une nouvelle fois que le Data Mesh reste agnostique sur le plan des technologies utilisées. Le concept ne privilégie pas le recours à des infrastructures cloud public plus que le recours à des infrastructures cloud privé ou on-premise. Il est donc possible de l’appréhender dans le cadre d’une architecture IT hybride ou depuis un Data Warehouse, Data Lake ou Data Hub traditionnels de « l’ère Data Centric ». Des adaptations de ce dernier seront à toutefois opérer pour lui faire gagner en agilité s’assurer d’un accès aux données standardisé.
Cloud et approche FinOps pour le Data Mesh
Avec l’avènement du cloud, l’univers de l’infrastructure IT connaît ces dernières années une grande révolution technologique. Les entreprises ne s’y trompent pas et investissent massivement pour se doter d’environnements agiles et soutenir leurs efforts de transformation.
Cet engouement se traduit par une progression constante des dépenses. Le rapport « Worldwide Quarterly Enterprise Infrastructure Tracker : Buyer and Cloud Deployment » estime que les dépenses en matière d’infrastructures cloud dépassent les 90 milliards de dollars au niveau mondial dès 2022. Le cabinet anticipe en outre que les dépenses liées à l’infrastructure cloud supplantent les budgets alloués aux infrastructures on-premise.
Plusieurs facteurs expliquent l’adoption du cloud dans les entreprises. Parmi ceux-ci : l’enjeu de la Data. Le cloud est considéré comme un moyen de casser les silos et d’accélérer les projets en matière d’utilisation des données et d’intelligence artificielle. Ainsi, les Cloud Data Platforms s’imposent désormais comme le nouvel eldorado des entreprises.
🔎 Leboncoin & Data Mesh : la plateforme data comme tremplin
Leboncoin a traversé différents cycles. Pour leboncoin, la transition vers le Data Mesh a été progressive au niveau de la Data Platform, et se poursuit encore. L’entreprise en témoignait lors du Salon de la Data.
Depuis 2018, leboncoin dispose d’une plateforme cloud répondant à ses exigences de scalabilité, d’élasticité et de résilience. Pour son pilotage, l’équipe IT a défini une offre de service couvrant tous les besoins depuis la gestion des pipelines de données jusqu’à leur exploitation dataviz et leur gouvernance.
Pour développer des usages plus avancés des données, en particulier sur l’IA, leboncoin a repensé son organisation au travers de la mise en place de feature teams, qui ont pris en charge une partie de la gestion des données via l’intégration de compétences de data engineering.
Des infrastructures data en mode plateforme, faciles à consommer, ont également été fournies. Enfin, les développeurs accèdent au catalogue de l’ensemble des sources de données existantes et des produits Data via un catalogue unifié.
Ces plateformes, mais aussi l’infrastructure sous-jacente, représentent sans nul doute aussi un atout dans le cadre de la mise en œuvre d’une démarche Data Mesh. Dans leurs mécanismes de fonctionnement, ces technologies favorisent la montée en puissance sur le pilier que constitue le Self-service Data Infrastructure as a Platform.
Le recours au cloud dans le cadre d’une démarche Data Mesh nécessite cependant d’appliquer de bonnes pratiques de suivi des dépenses. Ainsi, en matière de gestion des coûts, le déploiement de la plateforme doit s’accompagner de la mise en place d’une démarche FinOps. Ceci est essentiel car la consommation et donc les dépenses associées sont réalisées de façon distribuée, par les domaines de données. Il est donc essentiel de se doter de moyens pour garder une vision fédérée et assurer une bonne maîtrise de la dépense globale.
A ce titre, chacun des domaines peut suivre sa consommation et éventuellement intégrer ces coûts (en euros et en émissions de CO2) à son propre budget. La ventilation des dépenses pourra ainsi s’effectuer avec une granularité fine pour permettre une supervision par domaine, par projet, par brique applicative ou par produit.
💡 Ce qu’il faut retenir
📌 Infrastructure / plateforme fédérée, interopérable et self-service
📌 Catalogue applicatif et des ressources d’infrastructure
📌 Catalogue des APIs (standardisation de l’accès aux data products)
📌 Culture DevOps (déjà bien) ancrée
📌 La DSI garante de la cohérence des choix technologiques
📌 Le Data Mesh est une technologie agnostique
📌 Des technologies « naturellement Data Mesh » : le cloud et la data virtualisation
👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈
Cet article a été rédigé en collaboration avec Christophe Auffray.
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.