Accueil > Data Science / IA > Intégrer l'IA et la Data Science > Industrialisation de l’IA : les clés d’une approche MLOps

Intégrer l'IA et la Data Science

Industrialisation de l’IA : les clés d’une approche MLOps

10 mai 2022 Modifié le 12 octobre 2023

Didier Gaultier

L’industrialisation de l’intelligence artificielle, un des 7 sujets chauds de la Data pour 2022, passe par la mise en place du MLOps. Cette démarche comporte des passages obligés, dont une plateforme commune et un feature store. Mode d’emploi d’une transformation itérative, mais incontournable.

Livre blanc

MLOps : un regard vers le futur de l’IA

Après des années, certes bénéfiques en termes d’expérience acquise, consacrées au développement de PoC, les organisations ambitionnent désormais de basculer sur une nouvelle phase de maturité. Et celle-ci vise en particulier à concevoir de manière industrielle des produits Data embarquant des modèles d’intelligence artificielle.

Les objectifs recherchés sont simples, plus souvent que les moyens à mettre en œuvre pour y parvenir. Il s’agit in fine pour les entreprises d’être en mesure de développer des modèles capables de passer à l’échelle, maximisant ainsi la création de valeur et le retour sur investissement du cas d’usage. L’industrialisation n’englobe cependant pas uniquement l’étape de mise en production, mais tout le cycle de vie du modèle, dont le monitoring et le réentrainement.

Orchestrer l’interaction constante entres data scientists et data ingénieurs

Cette démarche d’industrialisation porte un nom, désigné par un acronyme : le MLOps. Par simplification, elle consiste à répliquer et adapter les principes du DevOps pour les appliquer au domaine du Machine Learning (ML). Une définition plus élaborée présente le MLOps comme l’ensemble des pratiques combinant le Machine Learning, le DevOps et le Data Engineering dans le but de déployer et maintenir les systèmes d’IA en production de manière fiable et efficace.

Voilà pour la définition théorique, qui souligne la finalité du MLOps, sans véritablement en fournir le mode d’emploi. Et pour cause puisqu’il s’agit avant tout d’un ensemble de bonnes pratiques. Les implémentations du MLOps peuvent donc différer d’une organisation à l’autre, mais aussi au fil du temps. En outre, comme pour le DevOps, l’application ne relève pas du big bang, mais d’une adoption progressive.

Inspiré du DevOps, le MLOps doit donc, dans sa pratique, réconcilier deux mondes, non ceux des Devs et des Ops, mais ceux des Data Scientists et des Data Engineers. Ces deux populations ne partagent pas toujours la même culture ni le même langage de programmation, même si Python tend de plus en plus à s’imposer dans le domaine de l’IA.

MLOps ou chaîne continue du cycle de vie de l’IA

DevOps et MLOps partagent en revanche une même ambition, soit le passage à un processus continu et agile. Cette continuité est d’autant plus indispensable en IA qu’un projet ne prend pas fin à la mise en production du modèle, développé par ailleurs dans un mode itératif. Une fois conçu, le modèle doit encore être entraîné, voire réentraîné selon sa typologie et les usages qu’il sert.

Le MLOps vise donc à industrialiser l’ensemble des étapes et processus intervenant dans l’élaboration d’un système d’intelligence artificielle jusqu’à son maintien en condition opérationnelle. Un tel produit s’apparente à un organisme vivant dont il faudra donc industrialiser toutes les phases de son cycle de vie. C’est en cela une spécificité et un défi par rapport à des développements applicatifs traditionnels. L’usine de conception de ces IA sera ainsi souvent qualifiée de Data Fab ou d’IA Fab.

Le point central en MLOps, c’est la disponibilité d’une plateforme commune pour la réalisation de l’ensemble des projets d’IA et des acteurs de l’organisation.
Didier Gaultier

Le parallèle avec l’usine peut être trompeur cependant. L’industrialisation ne signifie pas une automatisation complète. C’est aujourd’hui un objectif inatteignable en data science. Les IA produisant des IA de manière autonome ne sont pas d’actualité. Le MLOps impose surtout des bonnes pratiques. Nous en listons quatre principales :

1. Une plateforme commune

Une seule et même plateforme réunira les data ingénieurs et les data scientists. C’est une bonne pratique absolue. Cette plateforme peut avoir différents contours. On peut en identifier quatre catégories principales. Dans sa déclinaison la plus simple, il s’agira d’un langage commun, que l’approche retenue soit de type code ou low code – voire les deux.

4 bonnes pratiques en MLOps
📌 Une plateforme commune
📌 Un Feature Store
📌 Labellisation des données et entraînement des modèles
📌 Monitoring et réentraînement des modèles

Ce même langage rend possible la transmission des modèles entre data scientistes et data ingénieurs, tout en facilitant l’intégration à l’environnement de production.

A cet environnement de développement élémentaire peut s’ajouter une plateforme de type IA “portable”, telle que Dataiku, KNIME, Alteryx, SAS et DataRobot. Ces solutions offrent l’avantage de pouvoir s’exécuter dans pratiquement l’ensemble des environnements techniques (cloud et on premises) et de se connecter à toutes les sources de données.

Les plateformes cloud de type “hyperscalers”, généralement propriétaires, constituent la deuxième catégorie. Les trois principales sont Azure ML (Microsoft), GCP Vertex AI (Google), AWS Sagemaker (Amazon). Enfin, deux autres plateformes se situent à la croisée de l’infrastructure et de l’IA : Snowflake et Databricks. Ces dernières sont uniquement disponibles dans le cloud et portables d’un hyperscaler à un autre. Axées essentiellement au départ sur le stockage et le traitement, ces plateformes évoluent vers l’IA et la Data Science.

La liste des plateformes n’est pas exhaustive. Le point central en MLOps, c’est la disponibilité d’une plateforme commune pour la réalisation de l’ensemble des projets d’IA et des acteurs de l’organisation.

2. Un Feature Store

Le feature store fait partie intégrante de la démarche MLOps. On peut même considérer qu’il s’agit de la brique la plus centrale. Si le terme est récent, il correspond à un concept existant, désigné auparavant par l’appellation de Data Hub. A une nuance près puisque le feature store intègre une notion nouvelle : le feature engineering.

Cette philosophie en Data Science repose sur une bonne pratique consistant à concevoir des modèles d’IA les plus simples possibles, garantissant une consommation de ressources moindre, tout en optimisant la transparence et l’explicabilité. Ces caractéristiques sont essentielles dans une approche “ethics by design”. Cette simplicité offre en outre des gains en termes de temps de calcul, de coûts et de maintenabilité. La contrepartie, c’est un travail plus conséquent en amont sur les données, leur préparation et la création d’indicateurs pertinents basés sur ces données.

Dans le cadre du MLOps, le feature store vise donc à stocker toutes les données prêtes à l’emploi dans les modèles et à les maintenir à jour. Ce feature store doit par ailleurs être documenté et alimenté en permanence, pour nourrir les algorithmes. C’est une des missions du data ingénieur via la mise en place de pipelines de données.

3. Labellisation des données et entraînement des modèles

Data plateforme et feature store permettent d’activer une démarche MLOps, en commençant par des modèles simples, qui seront mis en production. Leur conception est itérative. Un modèle ne répondra pas à l’intégralité des besoins dans sa première itération. Les modèles sont progressivement enrichis et les évolutions mises en production également. Dans cette perspective, un échange continu de type CI/CD entre data scientists et data ingénieurs s’enclenche, nécessitant des processus industrialisés et reproductibles pour des raisons d’efficacité. Cet échange et l’organisation de ces interactions permanentes constituent le cœur de MLOps.

Précisons qu’avant d’être transmis au data ingénieur pour mise en production, le modèle sera préalablement testé et entraîné par le data scientist. C’est aussi à cette étape qu’intervient la labellisation des données, qui peut toutefois être réalisée en amont dès la constitution du feature store. L’industrialisation couvre ces différentes opérations, dont l’apprentissage.

4. Monitoring et réentraînement des modèles

Le monitoring des modèles est un impératif. C’est le Data Scientist qui proposera les critères de monitoring. Parmi ceux-ci, on citera notamment la précision du modèle, le nombre de faux-positifs, la robustesse, le data drift (dérive dans les données), l’homogénéité de la variance des résidus, etc. C’est le Data Engineer qui se chargera de la mise en œuvre du monitoring de tous ces indicateurs.

La supervision est assurée de manière semi-automatique par la plateforme et déclenche des alertes en cas par exemple de data drift. Les alertes seront suivies d’une action la plupart du temps manuelle, voire d’un réentraînement automatique du modèle ou d’une nouvelle labellisation des données. Ces actions dépendent des types de modèle, de monitoring et d’apprentissage.

Les bénéfices du MLOps

Au niveau mondial, plus de 90% des projets d’IA ne seraient jamais industrialisés. Cette statistique illustre à elle seule l’urgence et l’importance de recourir à une démarche MLOps et de mettre en place ses fondamentaux. Précisons en outre que le MLOps bénéficie aux projets en production, mais aussi aux expérimentations que sont les Proof of Value (on emploie également en IA le terme PUC : Proof of Use Case).

Le premier bénéfice du MLOps est donc d’assurer l’industrialisation des projets d’IA et leur livraison à des utilisateurs finaux. Au travers du feature store, le MLOps permet en outre de capitaliser grâce notamment à une réutilisation des datasets et des composants. Ces pratiques apportent la reproductibilité, la stabilité des modèles, la traçabilité, installent une pratique collaborative entre data scientists et data ingénieurs, mais aussi avec les autres acteurs des projets (sécurité, IT, sponsors métiers…).

Le MLOps permet de gérer la continuité dans le fonctionnement et les fonctionnalités des différentes versions d’un modèle. Le MLOps apporte le gage d’un gain de productivité dans la chaîne de conception de l’IA. La mise en place des fondations du MLOps constitue indéniablement un investissement, mais son ROI est plus qu’avéré.

👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈

Directeur Data Science & IA Business & Decision

Data Scientist – Directeur Data Science & IA de Business & Decision, et professeur de Data Science à l’EPF. Directeur pédagogique de l’Ecole de la Data de Business & Decision.

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Tendances Data

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

« On peut faire dire ce qu’on veut aux chiffres » Vous avez déjà sûrement entendu cette phrase, et vous vous dites peut-être que ce n’est pas possible, que non, un chiffre...

Premium

Intégrer l'IA et la Data Science

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

LVMH a bâti sa stratégie Data & IA autour des solutions DataGalaxy et Dataiku, eux-mêmes accompagnés par Orange. Cap sur un retour d’expérience inspirant présenté au cours d’une table-ronde dédiée...

Premium

Intégrer l'IA et la Data Science

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Comment appréhender concrètement toutes les facettes de la révolution technologique des intelligences artificielles ? Réponses avec Microsoft et nos experts Orange Business / Business & Decision. L’occasion de revivre la Matinée...

Tutoriels outils et langages data

Snowflake : pourquoi et comment coder directement en Python ?

Snowflake, la plateforme d’hébergement de données dans le cloud est reconnue pour sa puissance, sa flexibilité et sa sécurité. Elle offre un large éventail de services pour stocker, analyser, partager...

Actualités Data et IA

Revue de presse Data & IA – Juin 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le mode d’emploi de la...

Premium

Transformation digitale

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

En s'appuyant sur des algorithmes d'intelligence artificielle et d'apprentissage automatique, le Captcha Invisible d’Orange Business analyse les comportements des utilisateurs (utilisation de la souris ou du clavier, réputation de l'adresse...

Tutoriels outils et langages data

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Après toutes les annonces de Snowflake lors du Summit et Snow Day de l'année dernière, les nouvelles fonctionnalités arrivent progressivement en General Availibility. C’est désormais au tour des Dynamic Tables,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : ce qu'il faut retenir (ou...

Tendances Data

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

Qui a déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Où chacun avance des affirmations sans pouvoir complètement...

Premium

Solutions technologiques

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Marketplace & e-Commerce, Intranet & Extranet, Partenaires & Fournisseurs, modules de Marketing Analytics ou Relationnels… Orange Business a placé Liferay au cœur de sa stratégie Digitale et réalisé de nombreux...

Actualités Data et IA

Revue de presse Data & IA – Avril 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'opportunité pour l'Europe de devenir...

Tendances Data

#Data / #IA : 7 sujets chauds pour 2022

C’est parti pour la 6ème édition des 7 sujets chauds #Data et #IA. Chacun de ces sujets constituent autant de solutions pour l’entreprise performante. Quels sont alors les sujets Data...

Premium

Stratégie Data

REPLAY | MLOps, DataOps : brisez le plafond de verre de l'IA à l'échelle de l'entreprise

Les attentes des entreprises sont nombreuses concernant la valorisation de leurs données et de l’IA. L’industrialisation des algorithmes devient l’obstacle principal. Les chiffres sont formels : 87 % des projets...

Premium

Comprendre l'IA et la Data Science

REPLAY | Booster ses points de vente en utilisant la Data Science et l'IA

Savez-vous que la Data Science et l’IA ont déjà permis à des enseignes du retail de doubler le CA de certains de leurs points de vente ? Si vous avez...

Industrialisation de l’IA : les clés d’une approche MLOps

Orchestrer l’interaction constante entres data scientists et data ingénieurs

MLOps ou chaîne continue du cycle de vie de l’IA

1. Une plateforme commune

2. Un Feature Store

3. Labellisation des données et entraînement des modèles

4. Monitoring et réentraînement des modèles

Les bénéfices du MLOps

Découvrez aussi

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Snowflake : pourquoi et comment coder directement en Python ?

Revue de presse Data & IA – Juin 2024

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Revue de presse Data & IA – Mai 2024

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Revue de presse Data & IA – Avril 2024

#Data / #IA : 7 sujets chauds pour 2022

REPLAY | MLOps, DataOps : brisez le plafond de verre de l'IA à l'échelle de l'entreprise

REPLAY | Booster ses points de vente en utilisant la Data Science et l'IA

Informations sur la gestion de vos données et vos droits

Newsletter