Accueil > Culture Data & IA > Tendances Data > Data Warehouse, Data Lake, Data Mesh : quelles différences ?

Tendances Data

Data Warehouse, Data Lake, Data Mesh : quelles différences ?

8 juillet 2022 Modifié le 5 mai 2023

D’année en année, les entreprises ont fait évoluer leur architecture de données pour faire face à des besoins croissants et à une création de valeur toujours plus forte. Elles sont ainsi passées d’une architecture monolithique dédiée à la Business Intelligence à des solutions orientées Big Data. Aujourd’hui, de nouvelles solutions basées sur le cloud et la virtualisation des données proposent de nouvelles approches.Tour d’horizon des courants d’architecture data avec le Data Warehouse, le Data Lake et le Data Mesh.

Livre blanc

Data Mesh : Spiderman vous guide vers l’entreprise data-driven

Enjeux d’une architecture de données

L’architecture de données désigne la manière dont une entreprise organise ses données. Avoir une architecture de données solide permet une meilleure utilisation des données disponibles. Toute organisation data-driven doit se soucier de la construction et de la maintenance d’une architecture pérenne.

Il est donc primordial de bien comprendre les concepts de base des architectures de données. Passons en revue leur évolution.

Data Warehouse (années 1990) : centraliser les données opérationnelles

Dans les années 90, les entreprises ont construit leurs systèmes d’information décisionnels pour centraliser leurs données opérationnelles. On ne traitait alors que des données structurées. L’ETL (Extract, Transform, Load) est l’ensemble d’outils qui réalisent les trois fonctions : extraction de données des différentes sources, transformation des données extraites et enfin chargement des données transformées dans le Data Warehouse. Les données sont enfin présentées par domaines fonctionnels, les datamarts. Le datamart est un sous-ensemble de données spécialisé dans un unique métier, ou un thème.

L’utilisation d’un Data Warehouse présente de nombreux avantages évidents comme la cohérence et la qualité des données, ainsi que la facilité des analyses historiques.

Les données sont hébergées dans des bases de données relationnelles pour fournir de la donnée adaptée aux besoins de la Business Intelligence. De la gestion de la clientèle à l’intelligence artificielle, les domaines d’usage des Data Warehouses sont nombreux.

Data Warehouse : centraliser les données opérationnelles

Data Lake (années 2010) : stocker les données brutes

Avec les années 2000, l’entreprise doit faire face à un véritable déluge de données (le Big Data), au besoin de données non structurées (c’est-à-dire des données stockées sans format prédéfini : emails, images, vidéos…), au besoin de données en temps réel (pour prendre des décisions rapides et proactives).

Cette révolution conduit à la création d’un Data Lake, où les données sont stockées dans un format brut. Ce n’est que lorsque les données sont lues en vue d’un traitement qu’elles sont adaptées ; on ne parle alors plus d’ETL (Extract, Transform, Load) mais d’ELT (Extract, Load, Transform).

Le coût de stockage des données baisse, mais leur accès se complexifie.

Data Lakehouse (années 2020) : réunir Data Warehouse et Data Lake

Depuis quelques années, des réflexions pour concilier la flexibilité et le coût réduit du lac de données avec les capacités analytiques de l’entrepôt de données ont conduit à une nouvelle architecture de données connue sous le nom de Data Lakehouse.

Le Data Lakehouse cherche à réunir Data Warehouse et Data Lake, et n’en garder que le meilleur pour surmonter leurs limites respectives. Le Data Lakehouse implémente les structures de données du Data Warehouse et les fonctionnalités de gestion du Data Lake, qui sont moins coûteuses.

Parmi les principaux Data Lakehouse du marché, on doit citer ceux proposés par le trio des Cloud Service Providers que sont AWS, Azure et GCP, construits respectivement autour de Amazon Redshift, Azure Synapse Analytics et Google Bigquery.

On ne doit pas oublier non plus les agnostiques comme la Cloud Data Platform de Snowflake, ou encore le Delta Lake de Databricks.

Muer sans changer d’architecture

Data Warehouse et Data Lake sont des architectures centralisées, avec des inconvénients majeurs : elles manquent de flexibilité, se heurtent au manque de connaissance des équipes data, avec pour conséquence une lenteur de la réponse aux demandes des métiers.

Cependant, il est possible de résoudre ces problèmes sans changer d’architecture physique. Il ne s’agit dès lors plus de migrer (d’une architecture vers une autre), mais de muer.

Le Data Mesh laisse une autonomie aux métiers

C’est ainsi qu’est née l’idée et le concept du Data Mesh, qui n’est pas à proprement parler une architecture mais plutôt une approche décentralisée et fédérée pour la gestion des données analytiques : pas de lourdeur due à une plateforme centrale, une compréhension de la donnée par le métier, et une autonomie laissée aux métiers pour utiliser les outils qui leur conviennent.

Un Data Mesh peut par exemple se baser sur un, voire des Data Warehouse(s), laissant ainsi à chaque métier une parfaite autonomie.

Combiner Data Mesh et virtualisation

Le modèle virtuel implémente une couche sémantique et cache au consommateur de données la complexité des systèmes sous-jacents. La virtualisation des données permet aux domaines de créer rapidement des silos de données en créant de manière itérative des modèles virtuels jusqu’à ce que les besoins de l’entreprise soient satisfaits.

Ce modèle, aussi dénommé Logical Data Warehouse ou Virtual Data Warehouse, est considéré par certains comme la prochaine génération de Data Warehouse. Ses composants peuvent être combinés et recombinés de manière logique plutôt que physique. Il peut prendre en charge une grande variété de sources de données.

Il y a trois ans déjà, Gartner voyait dans la virtualisation une voie mature pour le data management à l’échelle de l’entreprise.

Denodo est aujourd’hui le leader de la virtualisation des données, grâce notamment au service de données à la demande (« Data as a service »), à des automatismes et à la gouvernance intégrée.

Data Hub

Le Data Hub est une plateforme de stockage de données virtuelles. Il déplace et intègre physiquement des données multi-structurées provenant de diverses sources, pour les stocker dans un répertoire central et unifié. De ce fait il est LE point unique de vérité, ce qui facilite la gouvernance des données.

Le data hub harmonise les données qu’il ingère des différents silos puis les indexe, offrant des requêtes plus rapides. Contrairement au Data Warehouse, le Data Hub offre des données de qualité en temps réel. Et contrairement au Data Lake, il n’est pas nécessaire d’avoir une connaissance parfaite du SI.

Le Data Warehouse n’a pas dit son dernier mot

On a vu les avantages que proposent les solutions basées sur le Data Mesh et les nouvelles approches technologiques du cloud et de la virtualisation.

Mais le Data Warehouse n’a pas dit son dernier mot et conserve des avantages sur ses challengers :

Les performances des requêtes analytiques sont meilleures dans un Data Warehouse car les données y sont « prémâchées »
Le reporting sur un Data Warehouse n’affecte pas les performances des systèmes opérationnels
Les fonctions liées à la qualité des données d’un ETL permettent de prendre en charge les exigences les plus complexes

Les systèmes d’information de nos entreprises sont de plus en plus complexes, et les architectures continuent d’évoluer à l’image de tous les nouveaux usages de la donnée.

Gageons que de plus en plus d’entreprises iront vers le Data Mesh et les données en libre-service, mais méfions-nous des projections hâtives : NoSQL n’a pas tué le Data Warehouse, et l’IA continue de nécessiter beaucoup de préparations de données…

Il n’y a donc pas de solution unique et on peut affirmer que différentes approches et architectures vont continuer de cohabiter pour répondre aux besoins de valorisation des données des entreprises.

👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈

Data Steward Business & Decision

Moldu pendant plus de 30 ans, j’ai développé des compétences en modélisation de données et en analyse qui m’ont permis de me convertir à la data.

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Tendances Data

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

« On peut faire dire ce qu’on veut aux chiffres » Vous avez déjà sûrement entendu cette phrase, et vous vous dites peut-être que ce n’est pas possible, que non, un chiffre...

Premium

Intégrer l'IA et la Data Science

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

LVMH a bâti sa stratégie Data & IA autour des solutions DataGalaxy et Dataiku, eux-mêmes accompagnés par Orange. Cap sur un retour d’expérience inspirant présenté au cours d’une table-ronde dédiée...

Premium

Intégrer l'IA et la Data Science

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Comment appréhender concrètement toutes les facettes de la révolution technologique des intelligences artificielles ? Réponses avec Microsoft et nos experts Orange Business / Business & Decision. L’occasion de revivre la Matinée...

Tutoriels outils et langages data

Snowflake : pourquoi et comment coder directement en Python ?

Snowflake, la plateforme d’hébergement de données dans le cloud est reconnue pour sa puissance, sa flexibilité et sa sécurité. Elle offre un large éventail de services pour stocker, analyser, partager...

Actualités Data et IA

Revue de presse Data & IA – Juin 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le mode d’emploi de la...

Premium

Transformation digitale

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

En s'appuyant sur des algorithmes d'intelligence artificielle et d'apprentissage automatique, le Captcha Invisible d’Orange Business analyse les comportements des utilisateurs (utilisation de la souris ou du clavier, réputation de l'adresse...

Tutoriels outils et langages data

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Après toutes les annonces de Snowflake lors du Summit et Snow Day de l'année dernière, les nouvelles fonctionnalités arrivent progressivement en General Availibility. C’est désormais au tour des Dynamic Tables,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : ce qu'il faut retenir (ou...

Tendances Data

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

Qui a déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Où chacun avance des affirmations sans pouvoir complètement...

Premium

Solutions technologiques

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Marketplace & e-Commerce, Intranet & Extranet, Partenaires & Fournisseurs, modules de Marketing Analytics ou Relationnels… Orange Business a placé Liferay au cœur de sa stratégie Digitale et réalisé de nombreux...

Actualités Data et IA

Revue de presse Data & IA – Avril 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'opportunité pour l'Europe de devenir...

Parcours client

IA et Expérience utilisateur : stratégies, défis et opportunités

L’évolution du rapport entre l’homme et la machine a connu une accélération spectaculaire ces dernières années. De l’avènement des ordinateurs encombrants aux dispositifs personnels tels que les smartphones et les...

Premium

Parcours client

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

La région Bretagne a développé son projet de relation usager avec Orange et a présenté lors d’une conférence dédiée avec les experts Orange Business comment ce projet a été préparé....

Tutoriels outils et langages data

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur ;) ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn....

Data Warehouse, Data Lake, Data Mesh : quelles différences ?

Enjeux d’une architecture de données

Data Warehouse (années 1990) : centraliser les données opérationnelles

Data Lake (années 2010) : stocker les données brutes

Data Lakehouse (années 2020) : réunir Data Warehouse et Data Lake

Muer sans changer d’architecture

Le Data Mesh laisse une autonomie aux métiers

Combiner Data Mesh et virtualisation

Data Hub

Le Data Warehouse n’a pas dit son dernier mot

Découvrez aussi

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Snowflake : pourquoi et comment coder directement en Python ?

Revue de presse Data & IA – Juin 2024

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Revue de presse Data & IA – Mai 2024

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Revue de presse Data & IA – Avril 2024

IA et Expérience utilisateur : stratégies, défis et opportunités

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

Informations sur la gestion de vos données et vos droits

Newsletter