Livres blancs Webinars

Après le Big Data, les sociétés sont nombreuses à se lancer dans la Data Science, discipline incontournable pour transformer le Big Data en connaissance puis en actions. Explication des 5 pratiques clés à respecter pour un projet couronné de succès.

Les 5 pratiques clés de la Data Science

1. La méthodologie

La méthodologie utilisée en Data Science est essentiellement agile et itérative. Elle procède d’un raisonnement inductif qui consiste à partir des données pour établir de la connaissance. L’approche se construit par étapes en posant d’abord des hypothèses, puis en validant ces hypothèses à l’aide d’algorithmes statistiques et/ou machine learning.

La méthode employée est en règle générale la méthode CRISP-DM en 6 étapes. Après une phase de compréhension du métier puis des données, les données sont ensuite préparées et recodées pour une phase de modélisation. Le modèle est enfin évalué avant de pouvoir l’automatiser.

La répétition de ce processus peut être nécessaire, même plusieurs fois, avant de pouvoir faire passer le modèle en production puis en exploitation.

2. Le dialogue avec les métiers

Le processus de modélisation commence et se termine impérativement avec les métiers. Au départ, le projet doit avoir un objectif général comme « mieux comprendre les facteurs clés de succès de mes points de vente ». Il est impossible de modéliser un métier que l’on ne comprend pas.

Les métiers doivent donc investir un peu de leur temps pour permettre aux Data Scientists de cerner les enjeux métier qui se cachent derrière les données. De même, les équipes de Data Science devront prendre le temps de restituer les résultats obtenus aux métiers, en utilisant des outils de Business Intelligence comme la DataViz ou le DataStorytelling.

Découvrir

Nos offres dédiées Data Science pour les entreprises

Lire la suite

3. La qualité des données

La donnée se trouve bien évidemment au cœur du processus de Data Science. Des données de qualité et bien documentées constituent la condition nécessaire d’un résultat exploitable.

Alors que le volume des données est un facteur finalement peu préoccupant, la qualité et la profondeur des données sont en revanche des facteurs clés pour une démarche Data Science. On fera particulièrement la chasse aux données manquantes, aux données fausses ou contradictoires, et on portera une attention toute particulière aux observations atypiques ou aberrantes.

4. Les enjeux humains et organisationnels

La Data Science nécessite de faire travailler ensemble de nombreuses personnes venant de cultures différentes, comme la Statistique, le machine learning, les métiers, la BI, la programmation et les bases de données. Cette diversité représente un des enjeux majeurs que l’on va généralement rencontrer lorsqu’on cherche à établir un Datalab.

5. Les enjeux techniques

Enfin, la 5ème des pratiques clés concerne les enjeux techniques. En effet, la Data Science n’est pas une science nouvelle. Née dans la statistique et le machine learning, elle a néanmoins dû s’adapter au Big Data. Cette adaptation a presque tout changé dans les façons de conduire et d’exécuter un projet Data Science.

L’apparition de nombreux outils et langages Open Source a été également un changement de paradigme important. Le temps où on faisait de la Data Science avec un seul outil appartient au passé. Les Data Scientists utilisent désormais plusieurs outils et langages (comme le langage R ou Python) pour mener leurs projets à bien.

Un point de vigilance important vient du fait qu’il existe une matrice de compatibilité entre les différentes infrastructures Big Data, et les outils ou langages de Data Science. De fait, il est fortement conseillé de définir soigneusement l’environnement Data Science avant de choisir une infrastructure Big Data si cela est possible.

En conclusion, il a été constaté que les projets Data Science ont tendance à désiloter les sociétés ce qui en fait des projets transverses par excellence. Ils devront donc de préférence être visibles à un niveau direction générale.

Directeur Data Science & IA Business & Decision

Data Scientist – Directeur Data Science & IA de Business & Decision, et professeur de Data Science à l’EPF. Directeur pédagogique de l’Ecole de la Data de Business & Decision.

En savoir plus >

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.