Livres blancs Webinars

L’industrialisation de l’intelligence artificielle, un des 7 sujets chauds de la Data pour 2022, passe par la mise en place du MLOps. Cette démarche comporte des passages obligés, dont une plateforme commune et un feature store. Mode d’emploi d’une transformation itérative, mais incontournable.

Après des années, certes bénéfiques en termes d’expérience acquise, consacrées au développement de PoC, les organisations ambitionnent désormais de basculer sur une nouvelle phase de maturité. Et celle-ci vise en particulier à concevoir de manière industrielle des produits Data embarquant des modèles d’intelligence artificielle.

Les objectifs recherchés sont simples, plus souvent que les moyens à mettre en œuvre pour y parvenir. Il s’agit in fine pour les entreprises d’être en mesure de développer des modèles capables de passer à l’échelle, maximisant ainsi la création de valeur et le retour sur investissement du cas d’usage. L’industrialisation n’englobe cependant pas uniquement l’étape de mise en production, mais tout le cycle de vie du modèle, dont le monitoring et le réentrainement.

Orchestrer l’interaction constante entres data scientists et data ingénieurs

Cette démarche d’industrialisation porte un nom, désigné par un acronyme : le MLOps. Par simplification, elle consiste à répliquer et adapter les principes du DevOps pour les appliquer au domaine du Machine Learning (ML). Une définition plus élaborée présente le MLOps comme l’ensemble des pratiques combinant le Machine Learning, le DevOps et le Data Engineering dans le but de déployer et maintenir les systèmes d’IA en production de manière fiable et efficace.

Voilà pour la définition théorique, qui souligne la finalité du MLOps, sans véritablement en fournir le mode d’emploi. Et pour cause puisqu’il s’agit avant tout d’un ensemble de bonnes pratiques. Les implémentations du MLOps peuvent donc différer d’une organisation à l’autre, mais aussi au fil du temps. En outre, comme pour le DevOps, l’application ne relève pas du big bang, mais d’une adoption progressive.

Inspiré du DevOps, le MLOps doit donc, dans sa pratique, réconcilier deux mondes, non ceux des Devs et des Ops, mais ceux des Data Scientists et des Data Engineers. Ces deux populations ne partagent pas toujours la même culture ni le même langage de programmation, même si Python tend de plus en plus à s’imposer dans le domaine de l’IA.

MLOps ou chaîne continue du cycle de vie de l’IA

DevOps et MLOps partagent en revanche une même ambition, soit le passage à un processus continu et agile. Cette continuité est d’autant plus indispensable en IA qu’un projet ne prend pas fin à la mise en production du modèle, développé par ailleurs dans un mode itératif. Une fois conçu, le modèle doit encore être entraîné, voire réentraîné selon sa typologie et les usages qu’il sert.

Le MLOps vise donc à industrialiser l’ensemble des étapes et processus intervenant dans l’élaboration d’un système d’intelligence artificielle jusqu’à son maintien en condition opérationnelle. Un tel produit s’apparente à un organisme vivant dont il faudra donc industrialiser toutes les phases de son cycle de vie. C’est en cela une spécificité et un défi par rapport à des développements applicatifs traditionnels. L’usine de conception de ces IA sera ainsi souvent qualifiée de Data Fab ou d’IA Fab.

Le point central en MLOps, c’est la disponibilité d’une plateforme commune pour la réalisation de l’ensemble des projets d’IA et des acteurs de l’organisation.

Didier Gaultier

Le parallèle avec l’usine peut être trompeur cependant. L’industrialisation ne signifie pas une automatisation complète. C’est aujourd’hui un objectif inatteignable en data science. Les IA produisant des IA de manière autonome ne sont pas d’actualité. Le MLOps impose surtout des bonnes pratiques. Nous en listons quatre principales :

1. Une plateforme commune

Une seule et même plateforme réunira les data ingénieurs et les data scientists. C’est une bonne pratique absolue. Cette plateforme peut avoir différents contours. On peut en identifier quatre catégories principales. Dans sa déclinaison la plus simple, il s’agira d’un langage commun, que l’approche retenue soit de type code ou low code – voire les deux.

4 bonnes pratiques en MLOps
📌 Une plateforme commune
📌 Un Feature Store
📌 Labellisation des données et entraînement des modèles
📌 Monitoring et réentraînement des modèles

Ce même langage rend possible la transmission des modèles entre data scientistes et data ingénieurs, tout en facilitant l’intégration à l’environnement de production.

A cet environnement de développement élémentaire peut s’ajouter une plateforme de type IA “portable”, telle que Dataiku, KNIME, Alteryx, SAS et DataRobot. Ces solutions offrent l’avantage de pouvoir s’exécuter dans pratiquement l’ensemble des environnements techniques (cloud et on premises) et de se connecter à toutes les sources de données.

Les plateformes cloud de type “hyperscalers”, généralement propriétaires, constituent la deuxième catégorie. Les trois principales sont Azure ML (Microsoft), GCP Vertex AI (Google), AWS Sagemaker (Amazon). Enfin, deux autres plateformes se situent à la croisée de l’infrastructure et de l’IA : Snowflake et Databricks. Ces dernières sont uniquement disponibles dans le cloud et portables d’un hyperscaler à un autre. Axées essentiellement au départ sur le stockage et le traitement, ces plateformes évoluent vers l’IA et la Data Science.

La liste des plateformes n’est pas exhaustive. Le point central en MLOps, c’est la disponibilité d’une plateforme commune pour la réalisation de l’ensemble des projets d’IA et des acteurs de l’organisation.

2. Un Feature Store           

Le feature store fait partie intégrante de la démarche MLOps. On peut même considérer qu’il s’agit de la brique la plus centrale. Si le terme est récent, il correspond à un concept existant, désigné auparavant par l’appellation de Data Hub. A une nuance près puisque le feature store intègre une notion nouvelle : le feature engineering.

Cette philosophie en Data Science repose sur une bonne pratique consistant à concevoir des modèles d’IA les plus simples possibles, garantissant une consommation de ressources moindre, tout en optimisant la transparence et l’explicabilité. Ces caractéristiques sont essentielles dans une approche “ethics by design”. Cette simplicité offre en outre des gains en termes de temps de calcul, de coûts et de maintenabilité. La contrepartie, c’est un travail plus conséquent en amont sur les données, leur préparation et la création d’indicateurs pertinents basés sur ces données.

Dans le cadre du MLOps, le feature store vise donc à stocker toutes les données prêtes à l’emploi dans les modèles et à les maintenir à jour. Ce feature store doit par ailleurs être documenté et alimenté en permanence, pour nourrir les algorithmes. C’est une des missions du data ingénieur via la mise en place de pipelines de données.

3. Labellisation des données et entraînement des modèles

Data plateforme et feature store permettent d’activer une démarche MLOps, en commençant par des modèles simples, qui seront mis en production. Leur conception est itérative. Un modèle ne répondra pas à l’intégralité des besoins dans sa première itération. Les modèles sont progressivement enrichis et les évolutions mises en production également. Dans cette perspective, un échange continu de type CI/CD entre data scientists et data ingénieurs s’enclenche, nécessitant des processus industrialisés et reproductibles pour des raisons d’efficacité. Cet échange et l’organisation de ces interactions permanentes constituent le cœur de MLOps.

Précisons qu’avant d’être transmis au data ingénieur pour mise en production, le modèle sera préalablement testé et entraîné par le data scientist. C’est aussi à cette étape qu’intervient la labellisation des données, qui peut toutefois être réalisée en amont dès la constitution du feature store. L’industrialisation couvre ces différentes opérations, dont l’apprentissage.  

4. Monitoring et réentraînement des modèles

Le monitoring des modèles est un impératif. C’est le Data Scientist qui proposera les critères de monitoring. Parmi ceux-ci, on citera notamment la précision du modèle, le nombre de faux-positifs, la robustesse, le data drift (dérive dans les données), l’homogénéité de la variance des résidus, etc. C’est le Data Engineer qui se chargera de la mise en œuvre du monitoring de tous ces indicateurs.

La supervision est assurée de manière semi-automatique par la plateforme et déclenche des alertes en cas par exemple de data drift. Les alertes seront suivies d’une action la plupart du temps manuelle, voire d’un réentraînement automatique du modèle ou d’une nouvelle labellisation des données. Ces actions dépendent des types de modèle, de monitoring et d’apprentissage. 

Les bénéfices du MLOps

Au niveau mondial, plus de 90% des projets d’IA ne seraient jamais industrialisés. Cette statistique illustre à elle seule l’urgence et l’importance de recourir à une démarche MLOps et de mettre en place ses fondamentaux. Précisons en outre que le MLOps bénéficie aux projets en production, mais aussi aux expérimentations que sont les Proof of Value (on emploie également en IA le terme PUC : Proof of Use Case).

Le premier bénéfice du MLOps est donc d’assurer l’industrialisation des projets d’IA et leur livraison à des utilisateurs finaux. Au travers du feature store, le MLOps permet en outre de capitaliser grâce notamment à une réutilisation des datasets et des composants. Ces pratiques apportent la reproductibilité, la stabilité des modèles, la traçabilité, installent une pratique collaborative entre data scientists et data ingénieurs, mais aussi avec les autres acteurs des projets (sécurité, IT, sponsors métiers…).

Le MLOps permet de gérer la continuité dans le fonctionnement et les fonctionnalités des différentes versions d’un modèle. Le MLOps apporte le gage d’un gain de productivité dans la chaîne de conception de l’IA. La mise en place des fondations du MLOps constitue indéniablement un investissement, mais son ROI est plus qu’avéré.

👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈

Directeur Data Science & IA Business & Decision

Data Scientist – Directeur Data Science & IA de Business & Decision, et professeur de Data Science à l’EPF. Directeur pédagogique de l’Ecole de la Data de Business & Decision.

En savoir plus >

Votre adresse e-mail ne sera pas publiée.

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.