C’est un débat « presque » ancien qui mérite d’être regardé avec un œil neuf. La Data Science, (comme le Big Data), est un domaine en constante évolution, dont les applications notamment en connaissance client ou en marketing ne sont plus à démontrer.
Statistique et machine learning à l’ère de la Data Science et de la connaissance client
Même si le domaine d’application est certes récent, les méthodes de base employées en Data Science datent maintenant pour la plupart d’une bonne quarantaine d’années. On peut rappeler que les deux branches principalement concernées sont la statistique d’une part et le machine learning d’autre part, à laquelle j’ajouterai une troisième branche constituée de ce que l’on pourrait appeler « les ontologies métier » en tant « qu’ensemble structuré des termes et concepts représentant un savoir faire métier ou un domaine d’application » (Wikipédia). Ces ontologies permettent de décliner ce savoir-faire métier selon deux axes :
- Un axe dictionnaire des données et concepts propres à ce métier
- Un axe de capitalisation sur les processus et les modes opératoires de ce métier
Nous entendons que çà et là, d’aucuns cherchent à comparer l’efficacité, le ROI et le coût de la démarche statistique versus celle du machine learning dans les applications prédictives (notamment en marketing prédictif, Digital Marketing, en connaissance client, etc.).
L’origine du débat
Le débat n’est pas récent, dans la mesure où les deux « écoles » viennent de deux courants de pensées différents. Le « machine learning », qu’on appelle parfois aussi « intelligence artificielle » est né sur le postulat qu’on peut compter sur la force calculatoire sans cesse croissante des ordinateurs pour modéliser un phénomène donné. La statistique quant à elle constitue une branche spécialisée des mathématiques qui peut donc exister au moins théoriquement indépendamment des ordinateurs.
La statistique voit d’ailleurs sa première origine remonter sous Louis XIV, qui voulait comptabiliser les différents métiers existants en France (dans le mot statistique vous retrouvez en effet la racine du mot état, ou science de l’état). Elle s’est également elle-même ensuite divisée en plusieurs écoles notamment l’école Française, l’école Anglo-saxonne et l’école Russe.
Aujourd’hui, et après une évolution impressionnante, les trois écoles de statistique convergent plus ou moins sur les points clés, et toutes les trois bénéficient de l’accroissement exponentiel de la puissance des ordinateurs suivant la fameuse loi de Moore pour leur mise en application sous forme d’algorithmes programmés de plus en plus performants.
Sans chercher à faire du chauvinisme, l’école Française (qu’on appelle parfois « statistique à la française ») reste certainement une des plus avancées au monde, a minima dans le tissu éducatif et universitaire.
Un peu de théorie
Le fait qu’on puisse utiliser des algorithmes pour prédire un phénomène tel qu’un comportement d’un groupe de clients reste assez spectaculaire et mystérieux pour beaucoup de gens. En fait cela n’est pas aussi mystérieux qu’il y parait. Il suffit de disposer d’un ensemble de variables caractérisant le phénomène dans un certain nombre d’observations réelles, ainsi qu’une variable qui à chaque fois décrit le résultat sous la forme d’une valeur logique, catégorielle ou numérique. On cherche alors à établir un lien (ou un modèle) entre la variable de sortie (ou variable à prédire) et les variables d’entrées (ou variables prédictives).
En simplifiant l’exercice à l’extrême, l’opération repose sur l’utilisation des statistiques et/ou du Machine Learning à condition de connaître au départ le résultat de la variable à prédire sur un certain nombre limité d’observations ou de cas, qu’on appelle alors « échantillon d’apprentissage ». L’analyse de l’ajustement du modèle obtenu aux données d’observation nous permet d’évaluer la précision du modèle par rapport à cet échantillon d’apprentissage.
L’étape suivante consiste à valider le modèle prédictif obtenu sur un autre échantillon dit « de test ». Cette démarche permet de valider la robustesse (la fiabilité) du modèle issu de l’échantillon d’apprentissage.
Cela suppose bien entendu de disposer d’une assez bonne qualité de données, d’une infrastructure informatique pouvant supporter le traitement des données, d’un outil logiciel (qu’il soit orienté plutôt statistique et/ou machine learning), et bien sûr, d’une personne incontournable appelée en général « Data Scientist », qui s’appuiera sur une démarche (de type CRISP-DM – Cross Industry Standard Process for Data Mining) pour assurer un cadrage logique du projet.
L’explication
Le chant des sirènes que l’on entend souvent sur le marché, induirait que les solutions de machine learning seraient désormais capables de faire le travail presque toutes seules, sans la présence d’un spécialiste pour les paramétrer, et avec de surcroît de biens meilleurs résultats qu’avec la démarche décrite dans le paragraphe plus haut.
Le fait est qu’il existe aujourd’hui à peu près autant de méthodes de machine learning disponibles que de méthodes statistiques. L’expérience montre cependant invariablement que les meilleurs résultats sont obtenus lorsqu’on combine les deux démarches. Le discours opposant les deux approches est donc relativement vain. En réalité, la statistique et le machine learning sont complémentaires.
Cela se comprend si on dit que pour pouvoir avoir une démarche prédictive (prédire un état futur à partir d’un état présent), il faut au préalable avoir une démarche explicative (expliquer un état présent avec un état passé), et qu’avant d’avoir une démarche explicative, il faut avoir une démarche descriptive (expliquer les liens et les corrélations entre les différentes variables), voire mettre en œuvre une ontologie du métier en question.
La statistique (couplée ou non à une ontologie) est capable aujourd’hui de donner à coup sûr un véritable sens « métier » aux données de manière descriptive et explicative.
Conclusion
Peut-on dans l’absolu se passer de cette démarche descriptive et explicative (donc statistique voire ontologique) et appliquer directement du machine learning sur les données pour prédire un phénomène ?
Théoriquement, et bien que ce soit informatiquement possible, j’ai tendance à le déconseiller. En effet, la facilité d’utilisation de ces méthodes, largement évoquée par les aficionados du « Tout Machine Learning », peut laisser croire que des non statisticiens seraient à même de les utiliser. Il n’en est rien.
La robustesse et la précision d’un modèle purement « machine learning » ne garantit nullement qu’il fasse du sens d’un point de vue métier (ce que seule la statistique peut garantir).
Quand bien même le résultat initial de ces méthodes automatiques serait irréprochable d’un point de vue métier, un utilisateur non averti ne sera pas forcément en mesure d’évaluer la dégradation du modèle dans le temps due à l’arrivée de nouvelles populations de clients ou de nouvelles observations à intégrer.
Le machine learning constitue un ensemble incontournable d’algorithmes donnant de bons résultats en personnalisation, en ciblage de campagnes, etc. Mais ces résultats seront d’autant plus performants, robustes et précis, que le machine learning s’appuie sur des résultats intermédiaires statistiques comme des typologies, des scores d’appétence, etc. réalisés dans les règles de l’art.
En résumé, machine learning et statistiques ne sont pas en quelque sorte des méthodes concurrentes mais bien des méthodes complémentaires. Les meilleurs résultats en marketing et en connaissance client (CRM) seront donc obtenus en combinant les deux types d’approches.
Didier Gaultier avec la participation de Serge Krywyk.
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.