Depuis les cinq dernières années, les projets Data Science réalisés par Business & Decision connaissent une forte croissance dans des domaines très variés, tels que l’industrie pétrolière, la téléphonie, le retail et les services. Cependant, certaines difficultés doivent être dépassées pour mettre en œuvre efficacement ce type de projets. Explications.
Tout d’abord, rappelons que la Data Science repose sur plusieurs disciplines dont la maîtrise est essentielle pour assurer le bon déroulement et le succès d’un projet :
- La préparation des données, dont l’enjeu de rassembler toute la donnée au même endroit, la recoder et la préparer pour la mettre en forme et la rendre exploitable,
- La statistique, dont la compréhension des principes est fondamentale pour manipuler les données avec justesse
- Le Machine Learning, l’outil indispensable pour gérer des données massives, évolutives, en flux ou encore incomplètes,
- L’IA qui permet l’apprentissage intensif et l’automatisation.
Didier Gaultier, Directeur Data Science & IA (Business & Decision), identifie quatre difficultés principales auxquelles se heurtent souvent les projets Data Science, avec des pistes concrètes à mettre en œuvre pour les surmonter.
1. L’enjeu de la donnée « en silos »
Il est très fréquent aujourd’hui que les données en entreprise soient « silotées » : chaque métier dispose de son propre système d’information (SI). La donnée constituant la base du projet, il est crucial pour les entreprises de s’inscrire dans une démarche Data Centric en :
- Plaçant la donnée au centre du SI : construction de datalake/datahub ;
- Disposant d’une équipe dédiée ;
- Mettant en place une gouvernance des données.
2. Les prérequis et l’organisation du projet
Avant de pouvoir effectuer un cadrage du projet et lancer un éventuel pilote, deux prérequis sont essentiels.
Matinale Data & IA
Comprendre les enjeux métiers
La bonne compréhension du métier et de ses problématiques doit être acquise. Cela conditionne le succès de la démarche et son adoption par les équipes internes. Tout projet Data Science doit donc être initié avec les équipes métiers au travers d’ateliers.
Diagnostic des données et de l’architecture du SI
Afin d’identifier les opportunités et les contraintes liées à la donnée, il est préférable d’organiser des ateliers « data » avec les équipes internes et la DSI. Ceux-ci permettront notamment d’anticiper sur d’éventuelles contraintes lors de la phase d’industrialisation : choix de l’architecture, des outils voire du langage de programmation.
3. La gestion de la complexité des algorithmes
Une bonne gestion de la complexité des algorithmes est nécessaire afin de bien maîtriser le compromis biais/variance régi par les données d’apprentissage. Or, dans certaines industries, des contraintes s’appliquent. Par exemple, dans la banque, les algorithmes sont contraints par une obligation de traçabilité.
4. Les difficultés d’industrialisation des modèles
La phase d’industrialisation permet le passage et la mise en production de la modélisation. Cependant elle peut s’avérer difficile, notamment dans les cas suivants :
- Les données n’ont pas été « dé-silotées »
- Le langage de programmation choisi ne se prête pas à l’industrialisation (privilégier Python à R par exemple)
- Les outils de maintenance ne sont pas adaptés alors qu’il existe des outils spécialisés (Dataiku, Knime, Azure Machine Learning, SAS)
4 exemples de projets Data Science
Chez Business & Decision, les experts s’appuient sur trois piliers de la Data Science : « expliquer, prédire et prescrire », afin d’accompagner les clients dans la valorisation de leurs données. Aujourd’hui, la Data Science peut se développer dans tous les domaines. Parmi les projets réalisés par la société :
- L’industrie pétrolière : développement d’une plateforme d’analyse prédictive de la consommation, du niveau d’extraction et des capacités de raffinage du pétrole brut pour un acteur du secteur pétrolier
- La téléphonie : amélioration du niveau de service client d’une entreprise de télécommunications grâce à la gestion intelligente des tickets de support par un « bot »
- Le retail : mise en place d’un dispositif « anti-churn » (ou rétention) des clients d’un distributeur de produits électriques français
- Les services : amélioration de l’efficacité de la distribution du courrier du Groupe La Poste, grâce à un algorithme de définition de tournées dynamiques pour les facteurs, à partir de la prédiction des livraisons à l’adresse. Ce projet a notamment permis la création de nouveaux services : « Expédition en boite aux lettres » et « Veiller sur mes parents »
Cet article a été rédigé par Mathieu Bruniquel, étudiant du Mastère Spécialisé Big Data de Télécom ParisTech, promotion 2019. Il fait suite à l’intervention de Didier Gaultier auprès des étudiants du MS Big Data de Télécom ParisTech, venu partager sa vision du métier de Data Scientist/Engineer et son expérience du terrain.
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.