Accueil > Culture Data & IA > Stratégie Data > Entreprise Data-centric : bien intégrer les nouvelles données

Stratégie Data

Entreprise Data-centric : bien intégrer les nouvelles données

29 mai 2018 Modifié le 5 mai 2023

La Data est devenue pléthorique et très diverse et les organisations doivent convenablement gérer cette nouvelle masse de données, si elles veulent rester dans la course.

Habituées depuis de nombreuses années à transformer les données provenant de leurs systèmes de production en indicateurs de pilotages, les organisations sont devenues expertes en tableaux de bord et autres Dashboards diffusés à tous les niveaux hiérarchiques des organisations.

Entreprise Data-centric : l'intégration de nouvelles sources de données

Une explosion du volume des données qui ne fait que commencer

Avec l’avènement des réseaux sociaux, la généralisation de l’utilisation de mobiles et l’apparition de l’IoT (Internet of Things), la Data est devenue pléthorique, riche, et très diverse. Ce phénomène a été théorisé sous le nom de Big Data. Les organisations doivent convenablement gérer cette nouvelle masse de données, si elles veulent rester dans la course et ne pas être dépassées.

Cette explosion du volume de la Data n’en est qu’à ses débuts. Selon IDC, 200 milliards d’objets connectés verront le jour, et ainsi chaque personne sur terre générera 1,7 mégabytes de données par seconde d’ici 2020. J’aime rappeler qu’on estime à 180 zettaoctets le poids des données digitales à l’horizon 2025, soit encore « un peu » moins que le nombre d’étoiles dans notre univers observable (estimation Nasa : 10²⁴) ce qui nous fait sentir encore bien petit malgré toute notre production de données !

Le Big Data sans intelligence, ce n’est pas grand-chose

Comme une complexité ne vient jamais seule, la maîtrise technique de ces données ne suffit pas. Afin de pouvoir les transformer en valeur, il va falloir « les faire parler ». Pour cela, ces énormes sources de données doivent être canalisées puis « apprivoisées » en les visualisant (Data visualization), en les interprétant (descriptive analytic) et en les modélisant (predictive analytic) avec différentes approches (statistique, machine learning…). La surcouche « intelligente » du Big Data est apparue : c’est la Data science.

La « transformation en valeur » de la donnée va donc à la fois se complexifier et démultiplier la capacité de création de valeur. Cette création de valeur va tout d’abord se réaliser par l’identification des données qui peuvent améliorer, faire croître, ou réinventer… l’activité de l’organisation.

L’identification et l’intégration de nouvelles sources de données

Identifier de nouvelles sources de données est aujourd’hui fondamental dans une approche Data-centric. Bien entendu, il ne faut pas négliger certaines complexités de la collecte, du stockage et de la diversité des données et de la gouvernance.

Dans une approche pragmatique, on cherchera à valoriser dans un premier temps les données existantes dans les systèmes de production de l’organisation. On orientera ensuite la collecte vers des masses de données externes (Open Data, Data providers, flux RSS, réseaux sociaux…) afin d’enrichir les analyses, d’approfondir la compréhension de comportements et de détecter des changements.

Les enjeux métiers (amélioration de la qualité, fiabilité des appareils, sécurité…) amènent aussi les organisations à collecter des données de senseurs et d’objets connectés (IoT) produites par l’homme et les machines. Ces données, de par leurs sources et leurs formats hétérogènes sont souvent stockées dans des systèmes « silotés ». Et tout l’intérêt consiste à « casser » ces silos pour mieux les exploiter et les valoriser.

Même si la canalisation d’énormes volumes de données n’est pas au centre du business modèle de l’organisation, le simple croisement de sources de données externes ajoute de la valeur aux analyses de l’entreprise.

Chantier central de la stratégie Data : la gestion des diverses sources de données via le Datalake

Le Datalake permet la démocratie et évite l’anarchie

Le premier réflexe, pour être capable de manipuler des données externes, est souvent de réconcilier directement les différents flux dans les outils d’analyse. Et ce, sans implémenter une solution centralisée. En effet, les outils d’analyse des données sont simples d’utilisation, puissants par leur capacité de calcul « In memory », et déjà capables de gérer un certain volume de données. Mais ce mode de fonctionnement, bien que pouvant être un point de passage intéressant pour travailler la culture de la donnée externe, va trouver assez rapidement ses limites.

En effet, il ne permet pas le partage des sources de données pouvant avoir de la valeur pour toute l’organisation. Surtout, s’il est mal gouverné, des référentiels de données vont apparaître un peu partout et un mode de consommation très anarchique.

Nous sommes régulièrement confrontés à des situations où apparaissent de multiples branchements directs des systèmes analytiques sur des systèmes opérationnels. Ce mode de fonctionnement dégrade leur performance et déclenche même des dénis de service.

La mise en place d’un Datalake préconisée

Afin de pouvoir démocratiser l’utilisation de la donnée à différents niveaux d’organisation, nous préconisons la mise en place d’un Datalake. Ce concept est un moyen pour les organisations de mettre en œuvre une plateforme de stockage de données, structurées ou non, provenant de diverses sources internes et externes. Pour y être intégrées, ces données doivent être qualifiées tant sur leur fiabilité que sur leur valeur ajoutée pour l’organisation.

Une question qui nous est très fréquemment posée est la cohabitation du Datalake avec le Datawarehouse d’entreprise. La réponse est claire : oui, les deux composants doivent cohabiter car ils ont deux rôles différents :

Le Datawarehouse sert à produire le référentiel d’indicateurs partagés pour le pilotage de l’organisation.
Le Datalake est le réceptacle de toutes les données qualifiées pour tous les types de consommations.

Le Datalake va donc devenir le système source du Datawarehouse. Mais il va permettre aussi la gestion et l’intégration de données en mode streaming pouvant ouvrir un mode d’utilisation « temps réel » des données.

Nous verrons aussi, dans un prochain chantier, l’importance de maintenir le référentiel centralisé de l’organisation pour éviter qu’il y ait autant d’indicateurs que de consommateurs de données !

Le Datalake démultiplie les capacités d'utilisation de la donnée. — Le Datalake démultiplie les capacités d’utilisation de la donnée.

Quel Datalake mettre en œuvre ?

Il n’existe pas de vérité absolue sur l’orientation technologique que doit prendre un Datalake. Cependant nous pouvons citer trois types de briques pouvant s’interconnecter et coexister :

les plateformes Big Data distribuées de type Spark et/ou cluster Hadoop, qui permettent de gérer nativement les données variées et volumineuses,
les bases de données NoSQL qui elles, peuvent gérer des données de type log et/ou semi-structurées
et enfin pour des problématiques de données non structurées présentant un important volume, on peut utiliser des moteurs d’indexation avec analyse sémantique de type NLP (Natural Language Processing).

Je vous invite à consulter notre article Du datalake au datawarehouse agile qui présente bien ces différentes options.

Pour assurer une maintenabilité et exploitabilité optimale du Datalake, la mise en œuvre un système de suivi et de traçabilité des données est conseillée… Sinon le Datalake se transforme assez rapidement en un Dataswamp (ou marécage).

Le Datalake, un accès direct aux données pour les utilisateurs avancés

Contrairement à l’historique ODS (operational data store) qui était une sous-couche de préparation technique de la donnée pour l’alimentation du Datawarehouse, le Datalake va être ouvert à certains utilisateurs avancés.

Afin de transformer et normaliser les données du Datalake, il est possible de brancher des outils de Data préparation. Ils ont pour objectif de qualifier « techniquement parlant » la qualité des données. L’objectif ici : exclure les données mal formées ou aberrantes, ainsi qu’identifier les interactions et les croisements possibles de données.

Mais il va surtout mettre à disposition des utilisateurs Self-service BI, des sources de données qualifiées pouvant leur permettre de croiser des indicateurs déjà calculés et des sources de données brutes. Ce mode de fonctionnement permet à la fois aux utilisateurs avancés de disposer de nouvelles sources de données et de ne pas plugger de manière anarchique toutes les sources désirées.

Le Datalake permet aussi la mise en place de « Analytics Sandbox », potentiellement éphémères, qui donneront aux Data scientists une forte capacité d’analyse. Cette autonomie dans l’utilisation de la donnée, complétée par une mise à disposition de sources de données qualifiées et réutilisables, permet aux Data scientists de se concentrer sur le cœur de leur activité : la mise en place de modèles mathématiques créant de la valeur.

Le Datalake : zone de stockage des données internes ou externes permettant une consommation directe par des utilisateurs avancés

Le datalake est la brique technologique de la stratégie data

La mise en place du Datalake est le chapitre le plus technique de la stratégie Data. Il requiert donc une analyse architecturale poussée. Son implémentation peut être abordée de diverses manières, et le but de cette publication n’est pas de mettre en place un guide technique de mise en œuvre. Je vous propose cependant quelques conseils pour éviter certains écueils fréquemment rencontrés :

Faire du projet « Datalake » un chantier 100 % technique. Ce composant, bien qu’étant une sous-couche de l’architecture, devient le référentiel Data de l’entreprise. Des utilisateurs avancés vont directement y piocher des sources de données. Son implémentation est donc autant un projet métier que technique.
Sous-estimer la gouvernance dans sa mise en place et son utilisation. Par exemple, l’ouverture directe au Datalake ne doit se faire que pour les utilisateurs avancés. Et son utilisation correspond à des utilisations ad hoc ne devant pas remplacer les reporting d’entreprises.
Mettre toutes les données dans le Datalake sans qualification. Il va très rapidement se transformer en marécage et être inutilisable.
Ne pas croire que l’ODS est un Datalake. Le Datalake doit remplacer l’ODS et non l’inverse. L’ODS, est une sous-couche uniquement technique. Elle n’est pas faite pour une utilisation directe par le métier, et se retrouverait très rapidement inutilisable et saturée pas les gros volumes de données.

Directeur conseil Business & Decision

J’accompagne et conseille les entreprises et organisations dans la définition et la mise en œuvre de leur stratégie digitale et data sur le marché romand. Depuis près de 20 ans, j’anime la transformation de grands groupes avec succès, notamment chez Yves Rocher au sein de…

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Tendances Data

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

« On peut faire dire ce qu’on veut aux chiffres » Vous avez déjà sûrement entendu cette phrase, et vous vous dites peut-être que ce n’est pas possible, que non, un chiffre...

Premium

Intégrer l'IA et la Data Science

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

LVMH a bâti sa stratégie Data & IA autour des solutions DataGalaxy et Dataiku, eux-mêmes accompagnés par Orange. Cap sur un retour d’expérience inspirant présenté au cours d’une table-ronde dédiée...

Premium

Intégrer l'IA et la Data Science

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Comment appréhender concrètement toutes les facettes de la révolution technologique des intelligences artificielles ? Réponses avec Microsoft et nos experts Orange Business / Business & Decision. L’occasion de revivre la Matinée...

Tutoriels outils et langages data

Snowflake : pourquoi et comment coder directement en Python ?

Snowflake, la plateforme d’hébergement de données dans le cloud est reconnue pour sa puissance, sa flexibilité et sa sécurité. Elle offre un large éventail de services pour stocker, analyser, partager...

Actualités Data et IA

Revue de presse Data & IA – Juin 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le mode d’emploi de la...

Premium

Transformation digitale

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

En s'appuyant sur des algorithmes d'intelligence artificielle et d'apprentissage automatique, le Captcha Invisible d’Orange Business analyse les comportements des utilisateurs (utilisation de la souris ou du clavier, réputation de l'adresse...

Tutoriels outils et langages data

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Après toutes les annonces de Snowflake lors du Summit et Snow Day de l'année dernière, les nouvelles fonctionnalités arrivent progressivement en General Availibility. C’est désormais au tour des Dynamic Tables,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : ce qu'il faut retenir (ou...

Tendances Data

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

Qui a déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Où chacun avance des affirmations sans pouvoir complètement...

Premium

Solutions technologiques

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Marketplace & e-Commerce, Intranet & Extranet, Partenaires & Fournisseurs, modules de Marketing Analytics ou Relationnels… Orange Business a placé Liferay au cœur de sa stratégie Digitale et réalisé de nombreux...

Actualités Data et IA

Revue de presse Data & IA – Avril 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'opportunité pour l'Europe de devenir...

Parcours client

IA et Expérience utilisateur : stratégies, défis et opportunités

L’évolution du rapport entre l’homme et la machine a connu une accélération spectaculaire ces dernières années. De l’avènement des ordinateurs encombrants aux dispositifs personnels tels que les smartphones et les...

Premium

Parcours client

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

La région Bretagne a développé son projet de relation usager avec Orange et a présenté lors d’une conférence dédiée avec les experts Orange Business comment ce projet a été préparé....

Tutoriels outils et langages data

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur ;) ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn....

Entreprise Data-centric : bien intégrer les nouvelles données

Une explosion du volume des données qui ne fait que commencer

Le Big Data sans intelligence, ce n’est pas grand-chose

L’identification et l’intégration de nouvelles sources de données

Le Datalake permet la démocratie et évite l’anarchie

La mise en place d’un Datalake préconisée

Quel Datalake mettre en œuvre ?

Le Datalake, un accès direct aux données pour les utilisateurs avancés

Le datalake est la brique technologique de la stratégie data

Découvrez aussi

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Snowflake : pourquoi et comment coder directement en Python ?

Revue de presse Data & IA – Juin 2024

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Revue de presse Data & IA – Mai 2024

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Revue de presse Data & IA – Avril 2024

IA et Expérience utilisateur : stratégies, défis et opportunités

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

Informations sur la gestion de vos données et vos droits

Newsletter