Accueil > Culture Data & IA > Stratégie Data > Entreprise Data-centric : bien intégrer les nouvelles données

Stratégie Data

Entreprise Data-centric : bien intégrer les nouvelles données

29 mai 2018 Modifié le 5 mai 2023

La Data est devenue pléthorique et très diverse et les organisations doivent convenablement gérer cette nouvelle masse de données, si elles veulent rester dans la course.

Habituées depuis de nombreuses années à transformer les données provenant de leurs systèmes de production en indicateurs de pilotages, les organisations sont devenues expertes en tableaux de bord et autres Dashboards diffusés à tous les niveaux hiérarchiques des organisations.

Entreprise Data-centric : l'intégration de nouvelles sources de données

Une explosion du volume des données qui ne fait que commencer

Avec l’avènement des réseaux sociaux, la généralisation de l’utilisation de mobiles et l’apparition de l’IoT (Internet of Things), la Data est devenue pléthorique, riche, et très diverse. Ce phénomène a été théorisé sous le nom de Big Data. Les organisations doivent convenablement gérer cette nouvelle masse de données, si elles veulent rester dans la course et ne pas être dépassées.

Cette explosion du volume de la Data n’en est qu’à ses débuts. Selon IDC, 200 milliards d’objets connectés verront le jour, et ainsi chaque personne sur terre générera 1,7 mégabytes de données par seconde d’ici 2020. J’aime rappeler qu’on estime à 180 zettaoctets le poids des données digitales à l’horizon 2025, soit encore « un peu » moins que le nombre d’étoiles dans notre univers observable (estimation Nasa : 10²⁴) ce qui nous fait sentir encore bien petit malgré toute notre production de données !

Le Big Data sans intelligence, ce n’est pas grand-chose

Comme une complexité ne vient jamais seule, la maîtrise technique de ces données ne suffit pas. Afin de pouvoir les transformer en valeur, il va falloir « les faire parler ». Pour cela, ces énormes sources de données doivent être canalisées puis « apprivoisées » en les visualisant (Data visualization), en les interprétant (descriptive analytic) et en les modélisant (predictive analytic) avec différentes approches (statistique, machine learning…). La surcouche « intelligente » du Big Data est apparue : c’est la Data science.

La « transformation en valeur » de la donnée va donc à la fois se complexifier et démultiplier la capacité de création de valeur. Cette création de valeur va tout d’abord se réaliser par l’identification des données qui peuvent améliorer, faire croître, ou réinventer… l’activité de l’organisation.

L’identification et l’intégration de nouvelles sources de données

Identifier de nouvelles sources de données est aujourd’hui fondamental dans une approche Data-centric. Bien entendu, il ne faut pas négliger certaines complexités de la collecte, du stockage et de la diversité des données et de la gouvernance.

Dans une approche pragmatique, on cherchera à valoriser dans un premier temps les données existantes dans les systèmes de production de l’organisation. On orientera ensuite la collecte vers des masses de données externes (Open Data, Data providers, flux RSS, réseaux sociaux…) afin d’enrichir les analyses, d’approfondir la compréhension de comportements et de détecter des changements.

Les enjeux métiers (amélioration de la qualité, fiabilité des appareils, sécurité…) amènent aussi les organisations à collecter des données de senseurs et d’objets connectés (IoT) produites par l’homme et les machines. Ces données, de par leurs sources et leurs formats hétérogènes sont souvent stockées dans des systèmes « silotés ». Et tout l’intérêt consiste à « casser » ces silos pour mieux les exploiter et les valoriser.

Même si la canalisation d’énormes volumes de données n’est pas au centre du business modèle de l’organisation, le simple croisement de sources de données externes ajoute de la valeur aux analyses de l’entreprise.

Chantier central de la stratégie Data : la gestion des diverses sources de données via le Datalake

Le Datalake permet la démocratie et évite l’anarchie

Le premier réflexe, pour être capable de manipuler des données externes, est souvent de réconcilier directement les différents flux dans les outils d’analyse. Et ce, sans implémenter une solution centralisée. En effet, les outils d’analyse des données sont simples d’utilisation, puissants par leur capacité de calcul « In memory », et déjà capables de gérer un certain volume de données. Mais ce mode de fonctionnement, bien que pouvant être un point de passage intéressant pour travailler la culture de la donnée externe, va trouver assez rapidement ses limites.

En effet, il ne permet pas le partage des sources de données pouvant avoir de la valeur pour toute l’organisation. Surtout, s’il est mal gouverné, des référentiels de données vont apparaître un peu partout et un mode de consommation très anarchique.

Nous sommes régulièrement confrontés à des situations où apparaissent de multiples branchements directs des systèmes analytiques sur des systèmes opérationnels. Ce mode de fonctionnement dégrade leur performance et déclenche même des dénis de service.

La mise en place d’un Datalake préconisée

Afin de pouvoir démocratiser l’utilisation de la donnée à différents niveaux d’organisation, nous préconisons la mise en place d’un Datalake. Ce concept est un moyen pour les organisations de mettre en œuvre une plateforme de stockage de données, structurées ou non, provenant de diverses sources internes et externes. Pour y être intégrées, ces données doivent être qualifiées tant sur leur fiabilité que sur leur valeur ajoutée pour l’organisation.

Une question qui nous est très fréquemment posée est la cohabitation du Datalake avec le Datawarehouse d’entreprise. La réponse est claire : oui, les deux composants doivent cohabiter car ils ont deux rôles différents :

Le Datawarehouse sert à produire le référentiel d’indicateurs partagés pour le pilotage de l’organisation.
Le Datalake est le réceptacle de toutes les données qualifiées pour tous les types de consommations.

Le Datalake va donc devenir le système source du Datawarehouse. Mais il va permettre aussi la gestion et l’intégration de données en mode streaming pouvant ouvrir un mode d’utilisation « temps réel » des données.

Nous verrons aussi, dans un prochain chantier, l’importance de maintenir le référentiel centralisé de l’organisation pour éviter qu’il y ait autant d’indicateurs que de consommateurs de données !

Le Datalake démultiplie les capacités d'utilisation de la donnée. — Le Datalake démultiplie les capacités d’utilisation de la donnée.

Quel Datalake mettre en œuvre ?

Il n’existe pas de vérité absolue sur l’orientation technologique que doit prendre un Datalake. Cependant nous pouvons citer trois types de briques pouvant s’interconnecter et coexister :

les plateformes Big Data distribuées de type Spark et/ou cluster Hadoop, qui permettent de gérer nativement les données variées et volumineuses,
les bases de données NoSQL qui elles, peuvent gérer des données de type log et/ou semi-structurées
et enfin pour des problématiques de données non structurées présentant un important volume, on peut utiliser des moteurs d’indexation avec analyse sémantique de type NLP (Natural Language Processing).

Je vous invite à consulter notre article Du datalake au datawarehouse agile qui présente bien ces différentes options.

Pour assurer une maintenabilité et exploitabilité optimale du Datalake, la mise en œuvre un système de suivi et de traçabilité des données est conseillée… Sinon le Datalake se transforme assez rapidement en un Dataswamp (ou marécage).

Le Datalake, un accès direct aux données pour les utilisateurs avancés

Contrairement à l’historique ODS (operational data store) qui était une sous-couche de préparation technique de la donnée pour l’alimentation du Datawarehouse, le Datalake va être ouvert à certains utilisateurs avancés.

Afin de transformer et normaliser les données du Datalake, il est possible de brancher des outils de Data préparation. Ils ont pour objectif de qualifier « techniquement parlant » la qualité des données. L’objectif ici : exclure les données mal formées ou aberrantes, ainsi qu’identifier les interactions et les croisements possibles de données.

Mais il va surtout mettre à disposition des utilisateurs Self-service BI, des sources de données qualifiées pouvant leur permettre de croiser des indicateurs déjà calculés et des sources de données brutes. Ce mode de fonctionnement permet à la fois aux utilisateurs avancés de disposer de nouvelles sources de données et de ne pas plugger de manière anarchique toutes les sources désirées.

Le Datalake permet aussi la mise en place de « Analytics Sandbox », potentiellement éphémères, qui donneront aux Data scientists une forte capacité d’analyse. Cette autonomie dans l’utilisation de la donnée, complétée par une mise à disposition de sources de données qualifiées et réutilisables, permet aux Data scientists de se concentrer sur le cœur de leur activité : la mise en place de modèles mathématiques créant de la valeur.

Le Datalake : zone de stockage des données internes ou externes permettant une consommation directe par des utilisateurs avancés

Le datalake est la brique technologique de la stratégie data

La mise en place du Datalake est le chapitre le plus technique de la stratégie Data. Il requiert donc une analyse architecturale poussée. Son implémentation peut être abordée de diverses manières, et le but de cette publication n’est pas de mettre en place un guide technique de mise en œuvre. Je vous propose cependant quelques conseils pour éviter certains écueils fréquemment rencontrés :

Faire du projet « Datalake » un chantier 100 % technique. Ce composant, bien qu’étant une sous-couche de l’architecture, devient le référentiel Data de l’entreprise. Des utilisateurs avancés vont directement y piocher des sources de données. Son implémentation est donc autant un projet métier que technique.
Sous-estimer la gouvernance dans sa mise en place et son utilisation. Par exemple, l’ouverture directe au Datalake ne doit se faire que pour les utilisateurs avancés. Et son utilisation correspond à des utilisations ad hoc ne devant pas remplacer les reporting d’entreprises.
Mettre toutes les données dans le Datalake sans qualification. Il va très rapidement se transformer en marécage et être inutilisable.
Ne pas croire que l’ODS est un Datalake. Le Datalake doit remplacer l’ODS et non l’inverse. L’ODS, est une sous-couche uniquement technique. Elle n’est pas faite pour une utilisation directe par le métier, et se retrouverait très rapidement inutilisable et saturée pas les gros volumes de données.

Directeur conseil Business & Decision

J’accompagne et conseille les entreprises et organisations dans la définition et la mise en œuvre de leur stratégie digitale et data sur le marché romand. Depuis près de 20 ans, j’anime la transformation de grands groupes avec succès, notamment chez Yves Rocher au sein de…

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Parcours client

IA et Expérience utilisateur : stratégies, défis et opportunités

L’évolution du rapport entre l’homme et la machine a connu une accélération spectaculaire ces dernières années. De l’avènement des ordinateurs encombrants aux dispositifs personnels tels que les smartphones et les...

Premium

Parcours client

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

La région Bretagne a développé son projet de relation usager avec Orange et a présenté lors d’une conférence dédiée avec les experts Orange Business comment ce projet a été préparé....

Tutoriels outils et langages data

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur ;) ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn....

Actualités Data et IA

Revue de presse Data & IA – Mars 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le Parlement européen adopte l'AI...

Premium

Solutions technologiques

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

Cdiscount a placé la data et les IA au cœur de sa stratégie. Analytique, Intelligence Artificielle, Data Mesh, Big Data, Data Cloud, la démarche du leader e-commerce s'est construit au...

Tendances Data

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Qui n'a pas déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Des discussions où chacun avance des affirmations...

Actualités Data et IA

Revue de presse Data & IA – Février 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : OpenAI dévoile son nouveau modèle...

Premium

Solutions technologiques

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

Comment les entreprises peuvent-elles optimiser leurs coûts dans un contexte de besoin d’analyses toujours plus important ? Réponses avec le retour d’expérience de Peaksys, filiale Tech de Cdiscount, présenté lors Data...

IoT et objets connectés

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

Dans un précédent article, nous vous présentions notre projet Data Rider, le circuit de voiture électrique amélioré de capteurs en tout genre visant à collecter les données des voitures en...

Comprendre l'IA et la Data Science

RAG : Enrichir les IA génératives avec les données de l'entreprise

RAG est l’acronyme incontournable pour tous ceux qui veulent créer de la valeur avec les iA génératives sur les données de leur organisation. Retour sur ce concept-clé et sur les...

Premium

Tendances Data

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Nous vous présentons pour la 8ème édition les 7 sujets chauds Data et IA pour l’entreprise. Dans ce webinar à revoir en replay, nos experts vous décryptent les sujets qui...

Actualités Data et IA

Revue de presse Data & IA – Janvier 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'importance de maîtriser l'IA avant...

Tendances Data

#Data / #IA : 7 sujets chauds pour 2024

C’est parti pour la 8ème édition des 7 sujets chauds Data et IA. Chacun de ces sujets constitue autant de solutions pour l’entreprise performante. Quels sont alors les sujets Data...

Actualités Data et IA

Revue de presse Data & IA – Décembre 2023

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l’AI Act et le droit...

Entreprise Data-centric : bien intégrer les nouvelles données

Une explosion du volume des données qui ne fait que commencer

Le Big Data sans intelligence, ce n’est pas grand-chose

L’identification et l’intégration de nouvelles sources de données

Le Datalake permet la démocratie et évite l’anarchie

La mise en place d’un Datalake préconisée

Quel Datalake mettre en œuvre ?

Le Datalake, un accès direct aux données pour les utilisateurs avancés

Le datalake est la brique technologique de la stratégie data

Découvrez aussi

IA et Expérience utilisateur : stratégies, défis et opportunités

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

Revue de presse Data & IA – Mars 2024

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Revue de presse Data & IA – Février 2024

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

RAG : Enrichir les IA génératives avec les données de l'entreprise

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Revue de presse Data & IA – Janvier 2024

#Data / #IA : 7 sujets chauds pour 2024

Revue de presse Data & IA – Décembre 2023

Informations sur la gestion de vos données et vos droits

Newsletter