Le terme Data Science est un mot très en vogue aujourd’hui. On peut même le qualifier de « Buzz word ». Selon les écoles de pensées, les cultures, les convictions personnelles, d’autres mots ou verbatims sont utilisés pour qualifier au final le même objectif : valoriser la donnée. C’est le pilier le plus créateur de valeur des 5 chantiers de la stratégie Data.
Mais que l’on ne se trompe pas, la majeure partie des algorithmes utilisés aujourd’hui trouvent leurs racines dans les années 70 !
Cependant, ce qui est nouveau, entre autres, ce sont la variété des données (issues des réseaux sociaux par exemple), leur volume (big data) et leur vélocité, la puissance calculatoire des ordinateurs et des approches de modélisation mixant statistiques traditionnelles et machine learning…
On pourrait d’une manière un peu réductrice imager la Data Science avec le schéma suivant :
La Data Science s’appuie sur un socle large de technologies et d’éditeurs (cliquez sur l’image pour l’agrandir).
Lorsque l’on aborde les sujets de Data Science, nous parlons inévitablement de Data Scientist. Est-ce une toute nouvelle catégorie de profils ou un « simple darwinisme » de statisticiens eux-mêmes devenus data miner dans les années 2000 ?
Ces experts, bien souvent qualifiés de « moutons à cinq pattes » ont autant de fiches de poste qu’il existe d’entreprises !
Les Data Scientists sont de plus en plus reconnus par les managers comme un élément clé dans les entreprises.
Pour le meilleur – Les managers se rendent compte qu’ils ont besoin de compétences pour répondre à leurs nouveaux enjeux d’exploitation des données. Ils les accompagnent en leur apportant une vision métier.
Ou pour le pire – Ils ne comprennent pas leur travail. Ils permettent ainsi de s’enliser dans l’approche algorithmique plutôt que le pragmatisme et l’innovation.
La Data Science au cœur de notre quotidien
Quel que soit le secteur d’activité (informatique, mode, banque, luxe, industrie manufacturière…) il n’y a aucun doute : les données, au sens large, affectent votre quotidien personnel ou professionnel.
Il ne se passera pas une semaine sans que vous ne lisiez un article, ayez une discussion ou ne soyez vous-même au cœur de la donnée et de son utilisation. Les médias sont très prolixes sur les sujets négatifs (fuites de données, cybercriminalité, incitations commerciales…) mais moins sur les positifs (recherche médicale, lutte contre la radicalisation, aides aux utilisateurs, régulation du trafic…).
Chez Business & Decision nous sommes fondamentalement convaincus que toutes les entreprises peuvent valoriser leurs données au travers de projets de Data Science.
Replay
Matinale Data / IA 2024 : Les clés pour réussir votre transformation et vos projets
Lire la suiteLes fondamentaux d’un projet Data Science : notre vision
Quatre axes fondamentaux pour aborder un projet Data Science
1. La donnée
Comme abordé dans les articles dédiés à la gouvernance des données, l’utilisation de nouvelles sources de données, la Data self-service, elle constitue « le carburant » du projet. Elle peut être issue des systèmes internes de l’entreprise, ou externe (open data, data provider…). Nous ne reviendrons pas ici sur les aspects de qualité, complétude, etc.
2. Les usages
Quels sont les nouveaux produits, services qui pourraient générer de la valeur pour l’entreprise ?
3. Les questions
Prenons un bon départ ! il doit y avoir une/des question(s) de départ correctement formulée(s) et validée(s) par le métier. Quelle offre doit-on faire, maintenant, à ce client ? Quels sont les facteurs qui permettent d’anticiper une panne ? Quel sera le volume des ventes sur tel produit sur le mois/semaine/jour ? …
4. Les technologies
Elles ne doivent pas être une finalité mais bien être au service du projet. Beaucoup d’éditeurs de logiciels promettent des ROI rapides. Il est important, pour les outils de Data Science, d’anticiper l’évolution du besoin, la volumétrie et le type de données et, surtout, les populations d’utilisateurs. Il existe aujourd’hui nombre d’utilisateurs dans les entreprises que nous pouvons qualifier de « Citizen Data Scientist » (concept issu du Gartner). Ils connaissent la donnée, ont de solides bases en Data Science mais se positionnent comme des consommateurs de méthodes et non comme des développeurs. Beaucoup de logiciels de Data Science proposent maintenant des interfaces graphiques intuitives.
Data Science : « Think Big, Start Small, Learn Fast »
Commencer un projet de Data Science dans une entreprise, avec de grandes ambitions, est vraiment excitant mais cela peut aussi être intimidant.
Les médias, le discours des éditeurs de logiciels… font peser une lourde pression sur les épaules des Data Scientists. Il est difficile parfois de ne pas se sentir comme un imposteur.
La crainte d’être perçu comme illégitime conduit souvent à se concentrer d’abord sur la complexité.
Cela nous amène à certains enseignements :
1. Aborder les problèmes métiers par une approche simple
Il est souvent recommandé par Business & Decision d’aborder les problèmes métiers par une approche assez simple, comme l’exploration et la data visualization.
2. La complexité a un coût
Un modèle complexe impliquera plus de travail de mise en production, plus de risques d’erreurs et sera plus difficile à expliquer aux métiers. L’aspect pédagogique est un facteur clé dans la réussite des projets. Vous devriez donc toujours opter en premier pour l’approche la plus simple.
3. Avoir une référence de base
Mais comment savoir si l’approche la plus simple est suffisante ? Pour cela, il faut toujours avoir une référence, une base de comparaison : sans une base de référence permettant de comparer les performances de votre modèle, vos statistiques d’évaluation sont sans signification. La comparaison avec l’aléatoire est insuffisante.
4. Toujours commencer avec les données à disposition
Un Data Scientist aura toujours des étoiles dans les yeux lorsqu’il parlera de toutes les choses étonnantes qu’il pourrait faire « si seulement il avait des données sur X, Y ou Z ». Que diriez-vous de faire quelque chose avec les données dont vous disposez ? Cela semble direct comme propos, mais c’est une vérité importante. Vous n’aurez jamais l’ensemble de données et il y en aura toujours que vous pourriez utiliser.
En moyenne, 70 % des données de l’entreprise sont peu ou pas exploitées. Dans la plupart des cas, vous serez donc en mesure de faire quelque chose avec ce que vous avez. C’est ainsi que Business & Decision accompagne ses clients dans une approche itérative basée, en premier, sur la valorisation des données existantes.
5. Oublier ses croyances et certitudes !
Il est important d’aborder toute nouvelle problématique de Data Science sans a priori. Rester sur ses convictions peut annihiler toute créativité et vous empêcher de trouver la meilleure approche.
6. Corrélation ne veut pas dire causalité
Toujours avoir à l’esprit les enjeux métiers et les leviers actionnables. Dans l’anticipation des phénomènes, il est important d’identifier les causes et leurs effets. Par exemple, on peut discuter l’affirmation suivante : « Quand on est malade, il ne faut surtout pas aller à l’hôpital : la probabilité de mourir dans un lit d’hôpital est 10 fois plus grande que dans son lit à la maison ». Mais on ne meurt pas plus parce qu’on est dans un lit d’hôpital. On est dans un lit d’hôpital parce qu’on est malade, et quand on est malade la probabilité de mourir est plus grande. Il n’y a donc pas ici de causalité.
La mise en œuvre d’une stratégie de Data Science
Les entreprises doivent accepter que les initiatives Data Science reposent sur une démarche scientifique d’amélioration continue. Elle est faite d’hypothèses et de validations, et le ROI met parfois plus de temps que prévu.
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.