Accueil > Technologies > Fondamentaux technologiques data > DMP, DataLake, CDP : les solutions pour la qualification des données

Fondamentaux technologiques data

DMP, DataLake, CDP : les solutions pour la qualification des données

4 novembre 2021 Modifié le 15 mai 2023

Didier Gaultier

Comment choisir la solution la plus adaptée à la qualification des données pour ses projets Data ? Quels sont les critères à prendre en compte ? Les réponses de Didier Gaultier, Directeur Data Science et IA (Business & Decision) et de Simon Boivin, Senior Manager (Ekimetrics), à l’occasion de la table-ronde animée par Philippe Leroy lors de la Journée de la Data organisée par Silicon.

Projet Data : le projet doit prédominer avant la solution

Philippe Leroy : Avec quelle solution animer un projet Data ? Est-ce l’acte d’achat de la solution IT qui va permettre de réussir ce projet ? En préparant cette table-rond, vous m’avez tous les deux dit que ce n’est jamais la solution qui doit prédominer un projet Data. On doit commencer par le projet. Y a-t-il tout de même des typologies de projet qui orientent vers certaines solutions ou pas ?

Didier Gaultier : Je dirai qu’il y a 4 grandes catégories de projets Data, Data Science et valorisation de données. Il y a des projets qui consistent à faire mieux que ce qu’on faisait avant, sans l’IA ou sans de la Data avancée. Par exemple, nous avons réalisé l’automatisation des flux dans un port international et cela a permis de réduire les amendes que payaient l’écosystème portuaire auprès des compagnies maritimes. Le principal facteur : parvenir à prédire l’arrivée à l’heure des portes-containers, pour le chargement / déchargement.

La 2^ème catégorie est l’intimité client. Tout ce qui concerne le marketing est en pleine mutation aujourd’hui. C’est un changement que je n’ai jamais vu en 25 ans dans le marketing analytique. On peut donc faire plus, avoir plus de marge et surtout avoir plus de satisfaction client.

Les 4 grandes catégories de projets Data
📌 1^ère catégorie : l’amélioration de l’existant.
📌 2^ème catégorie : l’intimité client.
📌 3^ème catégorie : la lutte contre les anomalies.
📌 4^ème catégorie : l’innovation.

C’est aussi toute la lutte contre les anomalies, les fraudes, tout ce qui est anticipation et résolutions de problèmes. Enfin, c’est de faire des choses que nous ne pouvions pas faire avant sans l’IA et que l’on fait maintenant. Ce sont des choses innovantes.

Simon Boivin, qu’est-ce qui vous semble déterminant aujourd’hui dans le paysage des offres autour de ces projets Data ? Pourrait-on dire qu’il y a eu un changement avec l’arrivée du cloud, comme une remise à zéro des grandes solutions, DMP, CDP ? Cela a-t-il permis d’accélérer l’adoption des projets Data ?

Simon Boivin : Cela a pas mal bousculé tout l’écosystème et de nouveaux acteurs sont arrivés sur le secteur. Cela a permis au business de reprendre les rênes et de refaire des choses sans les équipes internes d’une entreprise car il « suffisait » d’une carte bleue pour les lancer. En termes d’agilité et de rapidité, cela a eu beaucoup d’impacts. Aux entreprises maintenant de s’adapter, et aux architectes de réussir à changer leur posture pour accompagner le métier et satisfaire l’utilisateur afin de satisfaire le client.

Cet accès facilité aux outils a-t-il généré une prise de risque plus importante ?

J-52

Salon de la Data et de l’IA

17 Sep 2024 |08h30 – 18h00 Nantes

S'inscrire

Simon Boivin : Cela a plutôt réduit la prise de risque, car il n’y a plus eu besoin de planifier l’achat de système ou d’infrastructure. On peut tester quelque chose et avoir un premier résultat sur une courte période. Ainsi, on peut se rendre compte si oui ou non, on est en train de créer de la valeur pour son entreprise ou sa marque. Dans les cas où l’idée s’avère mauvaise, il est possible de s’arrêter.

Cela permet vraiment d’accélérer les choses et de prendre des risques. Cela permet aussi de donner des moyens à de plus petites entreprises, car avec ces solutions, il n’y a pas besoin de service informatique gigantesque.

Il est donc possible d’acheter des solutions (presque) clé en main pour répondre aux besoins.

Auparavant, tout projet Data devait passer par un POC (Proof of concept), en êtes-vous revenus ?

Simon Boivin : Pour moi, ce n’est pas le rôle des entreprises de faire des POC. Il vaudrait mieux parler de Proof of Value. A-t-on réussi à apporter quelque chose à la marque ? A mieux répondre aux clients ? Avec cette démarche, on regarde quel KPI on souhaite augmenter pour y parvenir. Je pense que l’approche ROIste est nécessaire et doit être accompagnée par toute l’entreprise pour que les moyens soient là et que tout le monde aille au même rythme. Sinon, c’est de la prise de risque.

Aujourd’hui, en Intelligence artificielle, ce ne sont pas les algorithmes le plus difficile à maîtriser, c’est la Data.
Didier Gaultier

Chez Business & Decision, est-ce aussi la valeur créée qui indique la réussite d’un projet Data ?

Didier Gaultier : Oui ! Nous appelons cela le « Proof of Use Case », ce qui est presque la même chose. Il n’y a pas que le ROI qui est important. Il faut aussi se demander si le projet ne va pas empêcher un autre service de l’entreprise de fonctionner. Cela va-t-il vraiment rendre service au département et plus largement à l’entreprise ? Voilà les questions à se poser.

Aujourd’hui, en Intelligence artificielle, ce ne sont pas les algorithmes qui sont le plus difficile à maîtriser, c’est la Data. Les algorithmes sont tous dans le domaine public et une « famille majeure d’algorithmes » est inventée à peu près tous les 10 ans. Les sociétés de Data Science connaissent donc à peu près tous les algorithmes et savent bien les utiliser.

La question est plutôt de savoir comment intégrer la data dans les algorithmes ? Dans quel état arrive-t-elle ? Est-elle fiable ? Est-elle bien travaillée pour être exploitée par les algorithmes ? C’est à ce niveau qu’il y a du travail et que 80 % de nos Data Scientists, Data Engineers et même Data Analysts travaillent à transformer la donnée.

Livre blanc

Intelligence artificielle : restez maître de votre futur

La création de valeur ne se trouve pas tellement dans la solution qui va implémenter l’algorithme. Elle se trouve surtout dans le travail en amont sur la donnée, comme les indicateurs qui ont été créés. A-t-on créé un véritable « espace de données » qui va créer les bons indicateurs en entrée des algorithmes ? A mon sens, c’est là que les Data Scientists doivent travailler.

3 approches fondamentales pour un projet Data

Vous dites que la réussite d’un projet dépend aussi du legacy, de ce que l’on trouve sur le SI. Est-ce que cela doit être un automatisme ? Objectivement cela peut être plus simple à déployer, en allant sur du Dynamics, Azure, etc. Est-ce pour autant une bonne idée de s’appuyer son legacy pour développer ses projets Data, censés amenés un levier de création de valeur différent ?

Simon Boivin : Il faut faire attention au « piège » du cloud qui permet de tout mettre chez le même fournisseur. On peut alors être un peu prisonnier de cet investissement-là. La portabilité est très importante, beaucoup de solutions la permettent et permettent d’encapsuler les données et tous les processus de transformation de données. Peu importe le choix que l’on va faire, il faut s’assurer que le changement d’avis soit possible.

Ensuite, concernant le choix, posez-vous la question : combien de temps avez-vous envie d’y passer ? de tester ? Aujourd’hui, les grands acteurs répondent bien à 80 % des mêmes usages. Ainsi, à moins d’avoir un usage très exotique, on ne devrait a priori pas prendre de mauvaise décision.

Didier Gaultier : Je suis entièrement d’accord avec vous sur le fait qu’il faut faire attention à ne pas se faire emprisonner. Pour compléter, je dirai qu’il y a 3 approches possibles : le on premise. Certains clients le demandent, et nous le faisons quotidiennement chez nous. C’est une solution qui peut être paradoxalement assez économique pour démarrer un projet.

Ensuite, vous avez le cloud, avec deux approches fondamentales : le PaaS [1] et le IaaS [2]. Aujourd’hui, les gros acteurs (Google, Azure, Amazon…) sortent des solutions en mode PaaS. C’est nouveau en Data Science : ça date de cette année pour Google, et Azure a complètement refondu son produit. Ce sont des outils très aboutis techniquement mais qui sont propriétaires. Si vous les utilisez, tout ce que vous avez fait reste chez eux.

Il n’y a aucune réversibilité ?

Didier Gaultier : Il y a de la réversibilité, mais il y a ce qui est dit et la pratique… Vous pouvez donc choisir ces solutions-là, elles sont activables en quelques minutes.

En revanche, il existe d’autres solutions, qui sont moins immédiates, notamment comme Snowflake ou Databricks, sur lesquelles vous pouvez mettre des moteurs d’IA (Dataiku, Knime, SAS, Alteryx). Et dans ces cas-là, vous êtes portable. Le coût est un peu plus élevé au départ, mais comme vous êtes portable, le coût est maîtrisé. Ce n’est pas le cas des plateformes PaaS. Ensuite, c’est une question de choix : il n’y a pas de mauvaises ou de bonnes solutions. Je pense qu’il y a surtout des solutions qui répondent à des besoins différents.

Replay

L’École de la Data et de l’IA de Business & Decision, c’est quoi ?

Y a-t-il des solutions grands comptes et des solutions ETI / PME ?

Simon Boivin : Oui. Pour moi, l’avantage pour les grands comptes se trouve dans leur capacité à faire davantage de custom. Un grand compte peut se demander quel est son différenciant stratégique ? Où souhaite-t-il se positionner ? Il a alors la capacité de mettre l’intelligence à cet endroit-là.

En revanche, une petite entreprise va avoir tendance à choisir le cloud, et l’IA sur des choses qui sont déjà des commodités, réutilisables tout de suite. Elle va concentrer son intelligence presque on premise sur son laptop, là où il aura de la marge de manœuvre et de la maîtrise.

On a donc les deux inverses : opter pour une commodité ou opter pour du custom.

Projets Data : enjeux et attentes

Nous faisons donc une distinction de taille d’entreprises et de projets. Selon vos observations, ce que l’on attend des projets Data est-il toujours très clair ? Attend-on des projets Data la création de nouveaux produits ? De permettre de re-processer l’entreprise pour qu’elle fonctionne mieux ? Crée-t-on tant de nouvelles valeurs que ça avec de la Data ? N’est-on pas plutôt sur des projets d’optimisation de l’existant qui peut, parfois créer une extension de business qui n’avait pas forcément été vue ou prévue ?

Simon Boivin : Dans les projets sur lesquels j’interviens, on commence systématiquement par essayer d’optimiser l’existant. On essaie ainsi de faire de la Business Intelligence en première brique : on voit ainsi ce qui se passe et comment réagir à ce qui s’est passé. Puis, assez rapidement, on se demande si on est capable de générer de nouvelles choses, de mieux comprendre le client et de générer de la valeur pour la marque. Je l’observe notamment pour des banques d’investissements, pour des acteurs de jeux vidéo, des industriels de l’automobile… Dans tous les aspects, on commence par se regarder ce qui est bien mené et comment découvrir de nouvelles choses ensuite.

Didier Gaultier : Effectivement, il y a souvent de la BI. Nous avons rarement de projet purement orienté 100% Data Science. On a généralement de la Data Science et de la gouvernance de données, de la Data Science et de la BI, ou de la Data Science et du Big Data. Très souvent la Data Science n’est qu’une partie du projet.

Mon collègue Mick Levy l’explique très bien dans son livre « Sortez vos données du frigo » : il y a très peu de données réellement exploitées aujourd’hui dans les entreprises.

Il y a aussi des problèmes de qualité de données à résoudre et la création de valeur est alors énorme. Par exemple, nous avons eu des projets où le chiffre d’affaires de certains points de vente a été multiplié par 2 en utilisant de la Data Science. Ce n’est pas valable pour tous les projets et évidemment, il y a aussi toute la logistique qui va avec. Mais généralement, en termes de ROIs, on parvient à augmenter les CA de 10 %, ce qui est déjà une grande satisfaction. Cela montre le fort potentiel des données.

Le processus est cependant un peu long pour comprendre, maîtriser et structurer son projet…

Didier Gaultier : Cela dépend surtout de la qualité de la donnée au départ.

Simon Boivin : C’est un parcours d’amélioration continue. Si une entreprise était un produit fini, on n’en parlerait pas. Une entreprise, c’est l’amélioration continue, c’est pareil pour la data.

Livre Blanc

Data éthique / IA éthique : les 2 visages d’un futur responsable

On a vu la distinction entre certaines solutions plus adaptées à des profils d’entreprises. Les grandes tendances technologiques (DataLake, DMP) et leur promesse de mettre beaucoup de données au même endroit pour ensuite les chercher de manière ciblée, ne sont-elles pas derrière nous ? Les entreprises n’ont-elles pas surtout le besoin de solutions plus flexibles et pilotables de manière verticale ?

Didier Gaultier : D’une certaine manière, oui. Nous connaissons aujourd’hui des tournants, tels que la Data Éthique et maintenant le Marketing Éthique. Des choses encore possibles il y a 2-3 ans ne le sont plus : les cookies tiers sont en train de mourir, tout comme le tracking des ouvertures d’emails. Aujourd’hui, dès qu’une application veut vous tracker, vous recevez une notification. C’est peut-être une très bonne chose. Hier, toutes les ressources IA étaient utilisées principalement pour cibler le client.

Désormais, les marketeurs vont devoir utiliser de plus en plus l’IA pour « enchanter ». L’idée est de proposer un parcours client exemplaire, valorisant et qui crée un effet « d’enchantement » du client. L’intelligence artificielle est une aide précieuse pour cela. On a tout même besoin de données, d’IA pour le faire, et ce n’est pas fait de la même façon qu’il y a quelques années.

Merci beaucoup Simon Boivin et Didier Gaultier d’avoir été avec nous et de nous avoir éclairé.

[1] PaaS : Platform as a Service, comme une plateforme DataScience mais dans le cloud.
[2] IaaS : Infrastructure as a Service, comme une infrastructure mais déportée dans le cloud.

Directeur Data Science & IA Business & Decision

Data Scientist – Directeur Data Science & IA de Business & Decision, et professeur de Data Science à l’EPF. Directeur pédagogique de l’Ecole de la Data de Business & Decision.

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Tendances Data

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

« On peut faire dire ce qu’on veut aux chiffres » Vous avez déjà sûrement entendu cette phrase, et vous vous dites peut-être que ce n’est pas possible, que non, un chiffre...

Premium

Intégrer l'IA et la Data Science

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

LVMH a bâti sa stratégie Data & IA autour des solutions DataGalaxy et Dataiku, eux-mêmes accompagnés par Orange. Cap sur un retour d’expérience inspirant présenté au cours d’une table-ronde dédiée...

Premium

Intégrer l'IA et la Data Science

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Comment appréhender concrètement toutes les facettes de la révolution technologique des intelligences artificielles ? Réponses avec Microsoft et nos experts Orange Business / Business & Decision. L’occasion de revivre la Matinée...

Tutoriels outils et langages data

Snowflake : pourquoi et comment coder directement en Python ?

Snowflake, la plateforme d’hébergement de données dans le cloud est reconnue pour sa puissance, sa flexibilité et sa sécurité. Elle offre un large éventail de services pour stocker, analyser, partager...

Actualités Data et IA

Revue de presse Data & IA – Juin 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le mode d’emploi de la...

Premium

Transformation digitale

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

En s'appuyant sur des algorithmes d'intelligence artificielle et d'apprentissage automatique, le Captcha Invisible d’Orange Business analyse les comportements des utilisateurs (utilisation de la souris ou du clavier, réputation de l'adresse...

Tutoriels outils et langages data

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Après toutes les annonces de Snowflake lors du Summit et Snow Day de l'année dernière, les nouvelles fonctionnalités arrivent progressivement en General Availibility. C’est désormais au tour des Dynamic Tables,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : ce qu'il faut retenir (ou...

Tendances Data

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

Qui a déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Où chacun avance des affirmations sans pouvoir complètement...

Premium

Solutions technologiques

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Marketplace & e-Commerce, Intranet & Extranet, Partenaires & Fournisseurs, modules de Marketing Analytics ou Relationnels… Orange Business a placé Liferay au cœur de sa stratégie Digitale et réalisé de nombreux...

Actualités Data et IA

Revue de presse Data & IA – Avril 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'opportunité pour l'Europe de devenir...

Premium

Intégrer l'IA et la Data Science

LIVRE BLANC | Intelligence Artificielle : Restez maître de votre futur

S'il est un sujet qui convoque les passions et nourrit toutes les réflexions dans le monde des nouvelles technologies, c'est bien l'intelligence artificielle. Quelles sont les opportunités pour les entreprises ?...

Premium

Comprendre l'IA et la Data Science

REPLAY | Booster ses points de vente en utilisant la Data Science et l'IA

Savez-vous que la Data Science et l’IA ont déjà permis à des enseignes du retail de doubler le CA de certains de leurs points de vente ? Si vous avez...

Stratégie Data

Comment choisir sa stratégie d'implémentation d'une gouvernance de données ?

Dans cette série d’articles, nous nous intéressons aux différentes stratégies envisageables pour mettre en place la gouvernance de données. Ce premier épisode vous resitue le contexte et vous explique pourquoi...

DMP, DataLake, CDP : les solutions pour la qualification des données

Projet Data : le projet doit prédominer avant la solution

Salon de la Data et de l’IA

3 approches fondamentales pour un projet Data

Projets Data : enjeux et attentes

Découvrez aussi

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Snowflake : pourquoi et comment coder directement en Python ?

Revue de presse Data & IA – Juin 2024

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Revue de presse Data & IA – Mai 2024

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Revue de presse Data & IA – Avril 2024

LIVRE BLANC | Intelligence Artificielle : Restez maître de votre futur

REPLAY | Booster ses points de vente en utilisant la Data Science et l'IA

Comment choisir sa stratégie d'implémentation d'une gouvernance de données ?

Informations sur la gestion de vos données et vos droits

Newsletter