Picto Technologies
Picto Technologies

DMP, DataLake, CDP : les solutions pour la
qualification des données

4 novembre 2021 Modifié le 17 novembre 2021

Comment choisir la solution la plus adaptée à la qualification des données pour ses projets Data ? Quels sont les critères à prendre en compte ? Les réponses de Didier Gaultier, Directeur Data Science et IA (Business & Decision) et de Simon Boivin, Senior Manager (Ekimetrics), à l’occasion de la table-ronde animée par Philippe Leroy lors de la Journée de la Data organisée par Silicon.

Projet Data : le projet doit prédominer avant la solution

Philippe Leroy : Avec quelle solution animer un projet Data ? Est-ce l’acte d’achat de la solution IT qui va permettre de réussir ce projet ? En préparant cette table-rond, vous m’avez tous les deux dit que ce n’est jamais la solution qui doit prédominer un projet Data. On doit commencer par le projet. Y a-t-il tout de même des typologies de projet qui orientent vers certaines solutions ou pas ?

Didier Gaultier : Je dirai qu’il y a 4 grandes catégories de projets Data, Data Science et valorisation de données. Il y a des projets qui consistent à faire mieux que ce qu’on faisait avant, sans l’IA ou sans de la Data avancée. Par exemple, nous avons réalisé l’automatisation des flux dans un port international et cela a permis de réduire les amendes que payaient l’écosystème portuaire auprès des compagnies maritimes. Le principal facteur : parvenir à prédire l’arrivée à l’heure des portes-containers, pour le chargement / déchargement.

La 2ème catégorie est l’intimité client. Tout ce qui concerne le marketing est en pleine mutation aujourd’hui. C’est un changement que je n’ai jamais vu en 25 ans dans le marketing analytique. On peut donc faire plus, avoir plus de marge et surtout avoir plus de satisfaction client.

Les 4 grandes catégories de projets Data
📌 1ère catégorie : l’amélioration de l’existant.
📌 2ème catégorie : l’intimité client.
📌 3ème catégorie : la lutte contre les anomalies.
📌 4ème catégorie : l’innovation.

C’est aussi toute la lutte contre les anomalies, les fraudes, tout ce qui est anticipation et résolutions de problèmes. Enfin, c’est de faire des choses que nous ne pouvions pas faire avant sans l’IA et que l’on fait maintenant. Ce sont des choses innovantes.

Simon Boivin, qu’est-ce qui vous semble déterminant aujourd’hui dans le paysage des offres autour de ces projets Data ? Pourrait-on dire qu’il y a eu un changement avec l’arrivée du cloud, comme une remise à zéro des grandes solutions, DMP, CDP ? Cela a-t-il permis d’accélérer l’adoption des projets Data ?

Simon Boivin : Cela a pas mal bousculé tout l’écosystème et de nouveaux acteurs sont arrivés sur le secteur. Cela a permis au business de reprendre les rênes et de refaire des choses sans les équipes internes d’une entreprise car il « suffisait » d’une carte bleue pour les lancer. En termes d’agilité et de rapidité, cela a eu beaucoup d’impacts. Aux entreprises maintenant de s’adapter, et aux architectes de réussir à changer leur posture pour accompagner le métier et satisfaire l’utilisateur afin de satisfaire le client.

Cet accès facilité aux outils a-t-il généré une prise de risque plus importante ?

16 décembre
2021

Comment la MAIF s’engage sur la voie de l’IA éthique ?

Un webinar pour développer vos connaissances Data & IA en 45′ chrono, inscrivez-vous !

Simon Boivin : Cela a plutôt réduit la prise de risque, car il n’y a plus eu besoin de planifier l’achat de système ou d’infrastructure. On peut tester quelque chose et avoir un premier résultat sur une courte période. Ainsi, on peut se rendre compte si oui ou non, on est en train de créer de la valeur pour son entreprise ou sa marque. Dans les cas où l’idée s’avère mauvaise, il est possible de s’arrêter.

Cela permet vraiment d’accélérer les choses et de prendre des risques. Cela permet aussi de donner des moyens à de plus petites entreprises, car avec ces solutions, il n’y a pas besoin de service informatique gigantesque.

Il est donc possible d’acheter des solutions (presque) clé en main pour répondre aux besoins.

Auparavant, tout projet Data devait passer par un POC (Proof of concept), en êtes-vous revenus ?

Simon Boivin : Pour moi, ce n’est pas le rôle des entreprises de faire des POC. Il vaudrait mieux parler de Proof of Value. A-t-on réussi à apporter quelque chose à la marque ? A mieux répondre aux clients ? Avec cette démarche, on regarde quel KPI on souhaite augmenter pour y parvenir. Je pense que l’approche ROIste est nécessaire et doit être accompagnée par toute l’entreprise pour que les moyens soient là et que tout le monde aille au même rythme. Sinon, c’est de la prise de risque.

Aujourd’hui, en Intelligence artificielle, ce ne sont pas les algorithmes le plus difficile à maîtriser, c’est la Data.

Didier Gaultier

Chez Business & Decision, est-ce aussi la valeur créée qui indique la réussite d’un projet Data ?

Didier Gaultier : Oui ! Nous appelons cela le « Proof of Use Case », ce qui est presque la même chose. Il n’y a pas que le ROI qui est important. Il faut aussi se demander si le projet ne va pas empêcher un autre service de l’entreprise de fonctionner. Cela va-t-il vraiment rendre service au département et plus largement à l’entreprise ? Voilà les questions à se poser.

Aujourd’hui, en Intelligence artificielle, ce ne sont pas les algorithmes qui sont le plus difficile à maîtriser, c’est la Data. Les algorithmes sont tous dans le domaine public et une « famille majeure d’algorithmes » est inventée à peu près tous les 10 ans. Les sociétés de Data Science connaissent donc à peu près tous les algorithmes et savent bien les utiliser.

La question est plutôt de savoir comment intégrer la data dans les algorithmes ? Dans quel état arrive-t-elle ? Est-elle fiable ? Est-elle bien travaillée pour être exploitée par les algorithmes ? C’est à ce niveau qu’il y a du travail et que 80 % de nos Data Scientists, Data Engineers et même Data Analysts travaillent à transformer la donnée.

La création de valeur ne se trouve pas tellement dans la solution qui va implémenter l’algorithme. Elle se trouve surtout dans le travail en amont sur la donnée, comme les indicateurs qui ont été créés. A-t-on créé un véritable « espace de données » qui va créer les bons indicateurs en entrée des algorithmes ? A mon sens, c’est là que les Data Scientists doivent travailler.

3 approches fondamentales pour un projet Data

Vous dites que la réussite d’un projet dépend aussi du legacy, de ce que l’on trouve sur le SI. Est-ce que cela doit être un automatisme ? Objectivement cela peut être plus simple à déployer, en allant sur du Dynamics, Azure, etc. Est-ce pour autant une bonne idée de s’appuyer son legacy pour développer ses projets Data, censés amenés un levier de création de valeur différent ?

Simon Boivin : Il faut faire attention au « piège » du cloud qui permet de tout mettre chez le même fournisseur. On peut alors être un peu prisonnier de cet investissement-là. La portabilité est très importante, beaucoup de solutions la permettent et permettent d’encapsuler les données et tous les processus de transformation de données. Peu importe le choix que l’on va faire, il faut s’assurer que le changement d’avis soit possible.

Ensuite, concernant le choix, posez-vous la question : combien de temps avez-vous envie d’y passer ? de tester ? Aujourd’hui, les grands acteurs répondent bien à 80 % des mêmes usages. Ainsi, à moins d’avoir un usage très exotique, on ne devrait a priori pas prendre de mauvaise décision.

Didier Gaultier : Je suis entièrement d’accord avec vous sur le fait qu’il faut faire attention à ne pas se faire emprisonner. Pour compléter, je dirai qu’il y a 3 approches possibles : le on premise. Certains clients le demandent, et nous le faisons quotidiennement chez nous. C’est une solution qui peut être paradoxalement assez économique pour démarrer un projet.

Ensuite, vous avez le cloud, avec deux approches fondamentales : le PaaS [1] et le IaaS [2]. Aujourd’hui, les gros acteurs (Google, Azure, Amazon…) sortent des solutions en mode PaaS. C’est nouveau en Data Science : ça date de cette année pour Google, et Azure a complètement refondu son produit. Ce sont des outils très aboutis techniquement mais qui sont propriétaires. Si vous les utilisez, tout ce que vous avez fait reste chez eux.

Il n’y a aucune réversibilité ?

Didier Gaultier : Il y a de la réversibilité, mais il y a ce qui est dit et la pratique… Vous pouvez donc choisir ces solutions-là, elles sont activables en quelques minutes.

En revanche, il existe d’autres solutions, qui sont moins immédiates, notamment comme Snowflake ou Databricks, sur lesquelles vous pouvez mettre des moteurs d’IA (Dataiku, Knime, SAS, Alteryx). Et dans ces cas-là, vous êtes portable. Le coût est un peu plus élevé au départ, mais comme vous êtes portable, le coût est maîtrisé. Ce n’est pas le cas des plateformes PaaS. Ensuite, c’est une question de choix : il n’y a pas de mauvaises ou de bonnes solutions. Je pense qu’il y a surtout des solutions qui répondent à des besoins différents.

Y a-t-il des solutions grands comptes et des solutions ETI / PME ?

Simon Boivin : Oui. Pour moi, l’avantage pour les grands comptes se trouve dans leur capacité à faire davantage de custom. Un grand compte peut se demander quel est son différenciant stratégique ? Où souhaite-t-il se positionner ? Il a alors la capacité de mettre l’intelligence à cet endroit-là.

En revanche, une petite entreprise va avoir tendance à choisir le cloud, et l’IA sur des choses qui sont déjà des commodités, réutilisables tout de suite. Elle va concentrer son intelligence presque on premise sur son laptop, là où il aura de la marge de manœuvre et de la maîtrise.

On a donc les deux inverses : opter pour une commodité ou opter pour du custom.

Projets Data : enjeux et attentes

Nous faisons donc une distinction de taille d’entreprises et de projets. Selon vos observations, ce que l’on attend des projets Data est-il toujours très clair ? Attend-on des projets Data la création de nouveaux produits ? De permettre de re-processer l’entreprise pour qu’elle fonctionne mieux ? Crée-t-on tant de nouvelles valeurs que ça avec de la Data ? N’est-on pas plutôt sur des projets d’optimisation de l’existant qui peut, parfois créer une extension de business qui n’avait pas forcément été vue ou prévue ?

Simon Boivin : Dans les projets sur lesquels j’interviens, on commence systématiquement par essayer d’optimiser l’existant. On essaie ainsi de faire de la Business Intelligence en première brique : on voit ainsi ce qui se passe et comment réagir à ce qui s’est passé. Puis, assez rapidement, on se demande si on est capable de générer de nouvelles choses, de mieux comprendre le client et de générer de la valeur pour la marque. Je l’observe notamment pour des banques d’investissements, pour des acteurs de jeux vidéo, des industriels de l’automobile… Dans tous les aspects, on commence par se regarder ce qui est bien mené et comment découvrir de nouvelles choses ensuite.

Didier Gaultier : Effectivement, il y a souvent de la BI. Nous avons rarement de projet purement orienté 100% Data Science. On a généralement de la Data Science et de la gouvernance de données, de la Data Science et de la BI, ou de la Data Science et du Big Data. Très souvent la Data Science n’est qu’une partie du projet.

Mon collègue Mick Levy l’explique très bien dans son livre « Sortez vos données du frigo » : il y a très peu de données réellement exploitées aujourd’hui dans les entreprises.

Il y a aussi des problèmes de qualité de données à résoudre et la création de valeur est alors énorme. Par exemple, nous avons eu des projets où le chiffre d’affaires de certains points de vente a été multiplié par 2 en utilisant de la Data Science. Ce n’est pas valable pour tous les projets et évidemment, il y a aussi toute la logistique qui va avec. Mais généralement, en termes de ROIs, on parvient à augmenter les CA de 10 %, ce qui est déjà une grande satisfaction. Cela montre le fort potentiel des données.

Le processus est cependant un peu long pour comprendre, maîtriser et structurer son projet…

Didier Gaultier : Cela dépend surtout de la qualité de la donnée au départ.

Simon Boivin : C’est un parcours d’amélioration continue. Si une entreprise était un produit fini, on n’en parlerait pas. Une entreprise, c’est l’amélioration continue, c’est pareil pour la data.

On a vu la distinction entre certaines solutions plus adaptées à des profils d’entreprises. Les grandes tendances technologiques (DataLake, DMP) et leur promesse de mettre beaucoup de données au même endroit pour ensuite les chercher de manière ciblée, ne sont-elles pas derrière nous ? Les entreprises n’ont-elles pas surtout le besoin de solutions plus flexibles et pilotables de manière verticale ?

Didier Gaultier : D’une certaine manière, oui. Nous connaissons aujourd’hui des tournants, tels que la Data Éthique et maintenant le Marketing Éthique. Des choses encore possibles il y a 2-3 ans ne le sont plus : les cookies tiers sont en train de mourir, tout comme le tracking des ouvertures d’emails. Aujourd’hui, dès qu’une application veut vous tracker, vous recevez une notification. C’est peut-être une très bonne chose. Hier, toutes les ressources IA étaient utilisées principalement pour cibler le client.

Désormais, les marketeurs vont devoir utiliser de plus en plus l’IA pour « enchanter ». L’idée est de proposer un parcours client exemplaire, valorisant et qui crée un effet « d’enchantement » du client. L’intelligence artificielle est une aide précieuse pour cela. On a tout même besoin de données, d’IA pour le faire, et ce n’est pas fait de la même façon qu’il y a quelques années.

Merci beaucoup Simon Boivin et Didier Gaultier d’avoir été avec nous et de nous avoir éclairé.

[1] PaaS : Platform as a Service, comme une plateforme DataScience mais dans le cloud.
[2] IaaS : Infrastructure as a Service, comme une infrastructure mais déportée dans le cloud.

Didier Gaultier Directeur Data Science & IA
Business & Decision

Data Scientist - Directeur Data Science & IA de Business & Decision, et professeur de Data Science à l’EPF. Directeur pédagogique de l’Ecole de la Data de Business & Decision.

En savoir plus

Commentaires (0)

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Newsletter

Newsletter

Recevoir notre actualité par mail