Accueil > Data Science / IA > Comprendre l'IA et la Data Science > Quelles sont les technologies fondamentales de l’IA générative ?

Comprendre l'IA et la Data Science

Quelles sont les technologies fondamentales de l’IA générative ?

12 juillet 2023 Modifié le 12 juillet 2023

Paul Ferré

Comme évoqué dans notre article « Développement de l’IA générative : quel impact sur les entreprises ? », l’IA générative n’est pas un concept récent. Les réseaux de neurones sur lesquels elle repose sont connus depuis des décennies. Alors pourquoi a-t-il fallu attendre 2022 pour entendre parler de cette technologie ? Les explications dans la suite de cet article.

Avant d’entrer dans le détail des technologies, il est important de noter que nous allons nous focaliser sur les technologies fondamentales de ChatGPT qui, en 2023, reste le modèle le plus mature d’IA générative que ce soit en termes de capacité de raisonnement, de capacité de génération et de créativité, et de lien entre les informations.

Première vague : AlexNet et le deep learning

Tout commence en 2012 lorsqu’Alex Krizhevsky implémente des réseaux de neurones sur des cartes graphiques. En quoi est-ce révolutionnaire ? Les réseaux de neurones sont extrêmement gourmands en temps de calcul et en volume de données. Ils sont très prompts à ce que l’on appelle l’« overfitting », c’est-à-dire la surinterprétation. La seule option jusqu’alors pour l’éviter était de réduire le nombre de paramètres soit, in fine, la performance du modèle. Les cartes graphiques ont alors permis de diviser par 100 le temps de calcul.

En parallèle, de très volumineux datasets de données ont été rendus disponibles, comme ImageNet, participant à améliorer les performances du modèle. Ces performances ont d’ailleurs été rendues publiques pour la première fois lors du concours ImageNet de 2012. Souvent citée comme une référence en matière de computer vision, cette architecture, appelée AlexNet, est considérée comme la première approche probante en deep learning, concrétisant des décennies de recherches se faisant malgré l’hiver de l’IA. Cette étape a permis de démocratiser de nombreuses recherches en mathématiques appliquées, informatique, neurosciences, etc. qui ont favorisé le développement de l’IA générative.

Livre blanc

Intelligence artificielle : restez maître de votre futur

Deuxième vague : les GAN

En 2015, l’arrivée des GAN (pour Generative Adversarial Network) grâce à Ian Goodfellow a permis de mettre en place un ensemble d’architectures et de méthodes non supervisées. Le principe consistait à faire s’affronter deux réseaux de neurones : un qui faisait de la génération d’images, et un autre qui cherchait à déterminer si l’image était vraie ou fausse. Cette étape peut être considérée comme la première génération performante d’IA générative. Toutefois les GAN donnaient lieu à des architectures particulièrement instables.

Troisième vague : les transformers

Lancés en 2017, les modèles de transformers développés par Google Brain ont la particularité de raisonner sur un modèle d’attention. Le concept est de mettre en place une sélection de l’information séquentielle au fur et à mesure du traitement de l’image. Ces transformers ont alors commencé à être utilisés dans le domaine du traitement du langage naturel (NLP) avec de bons résultats, notamment dans le cas des modèles de type BERT qui sont encore utilisés dans nombre d’applications aujourd’hui.

Quatrième vague : GPT 3 et 4

Dès lors, les grands groupes comme Microsoft (OpenAI), Meta (Facebook) ou Google ont décidé de continuer le développement de ces modèles pour travailler sur l’IA générative. C’est en ajoutant de plus en plus de paramètres et en associant divers modes d’apprentissage qu’OpenAI est ainsi parvenu à créer sa solution ChatGPT.

Ses performances reposent, entre autres, sur le cumul des quatre modes d’apprentissage tels que décrits ci-dessous et l’utilisation des cartes graphiques Nvidia H100 (voir notre article sur « Développement de l’IA générative : quel impact sur les entreprises ? »).

Le mode auto-supervisé

En 2018, le modèle GPT est développé, utilisant l’apprentissage auto-supervisé sur du texte avec les transformers. Cette approche nécessite beaucoup moins de supervision sur les données, mais implique un grand nombre de données non-étiquetées.

Elle inclut également l’apprentissage des langues à partir d’un certain corpus de texte, basé sur l’utilisation massive de ce qui a été publié sur internet. Cette étape explique notamment pourquoi ChatGPT peut intervenir en plusieurs langues. À noter qu’elle est aussi la plus consommatrice en calculs, son seul but étant de compléter le prochain mot d’une phrase ou de compléter un mot manquant dans une phrase.

La couche supervisée

Plus récemment, en 2022, InstructGPT a été introduit. Il s’agit d’un modèle GPT entraîné sur des conversations en mode supervisé. Cette approche permet d’apprendre à GPT à répondre à des questions. Elle consiste en effet à fournir un certain nombre de questions au modèle ainsi qu’un certain nombre de réponses attendues. La complexité réside alors dans le contexte dont l’IA a besoin pour répondre correctement à la question posée (également appelée le « prompt »).

Ce contexte contient en réalité les instructions que l’on va donner au modèle pour lui permettre de répondre. Il est masqué dans ChatGPT et inclus dans la couche InstructGPT ayant donné lieu à un apprentissage supervisé. Le résultat aboutit à une intelligence artificielle de type chatbot, entraînée sur un très grand corpus de texte et capable de répondre de façon brute à toute question, à condition que des éléments de réponses figurent dans le corpus d’entraînement.

L’apprentissage renforcé

Si les trois premiers modes d’apprentissage permettent de créer « le fond » de la réponse, ce 4^e mode va quant à lui favoriser « la forme » et permettre à l’IA de répondre de manière plus user-friendly. La couche supervisée aboutit en effet à un chatbot assez rude, dénué de forme de politesse.

Ici, une équipe de personnes humaines va donc poser un grand nombre de questions à ChatGPT, lui demander de générer plusieurs réponses différentes par question, puis les classer par ordre de préférence et même éliminer les réponses inappropriées sous forme d’un apprentissage renforcé avec RLHF (Reinforcement Learning from Human Feedback). Si cette étape n’intègre pas de complexité technique, elle nécessite en revanche des ressources humaines importantes.

Aujourd’hui, les grands groupes que sont OpenAI avec Microsoft, Google ou Meta sont les seuls à avoir la puissance du calcul nécessaire pour entraîner des modèles fondamentaux multilingues à base de transformers de plus en plus gigantesques.

Le futur de l’IA générative dans les mains des GAFAM

En augmentant la taille des datasets et en évitant d’avoir recours à de la labellisation massive de données, il a été possible de créer les premiers modèles de fondation qui ont permis ensuite, par affinage successif, de créer de l’interactivité proche des interactions humaines grâce à la couche InstructGPT. Aujourd’hui, les grands groupes que sont OpenAI avec Microsoft, Google ou Meta sont les seuls à avoir la puissance du calcul nécessaire pour entraîner des modèles fondamentaux multilingues à base de transformers de plus en plus gigantesques. Voilà pourquoi les futures évolutions des modèles fondamentaux de l’IA générative dépendent en partie des GAFAM.

Il faut se rappeler qu’un modèle incluant une multitude de paramètres mais sans la couche InstructGPT paraîtra inutilisable par rapport à un modèle intégrant un nombre inférieur de paramètres mais utilisant l’apprentissage supervisé. Depuis, les grands groupes n’ont de cesse d’ajouter de plus en plus de paramètres et de plus en plus de données labellisées.

Replay

GPT, l’IA de nouvelle génération au service des entreprises avec Azure OpenAI

L’IA générative aura bientôt atteint ses limites

En septembre 2022, DeepMind (un article publié par Chinchilla) a mis en avant de nouvelles lois sur l’échelle des données (également appelées lois sur la mise à l’échelle de Chinchilla ou Hoffman) pour des données LLM (Large Language Models) optimales : il faudrait ainsi utiliser des tokens de 1 400 B (1,4 T) pour entraîner de façon optimale un LLM intégrant 70B de paramètres, soit environ 20 jetons de texte par paramètre.

Ainsi, selon Chinchilla, il serait nécessaire d’utiliser 11 fois plus de données pendant l’entraînement de GPT 5 que pour GPT-3 et autres modèles similaires. Ce qui implique de se procurer, nettoyer et filtrer environ 33 To de données de texte pour un modèle de paramètre 1T. Pour information, on estime que GPT 3 a été entraîné sur la base de 175 milliards de paramètres. Par conséquent, nous risquons fort à un moment de manquer de données textuelles pour le nombre de paramètres que l’on souhaitera ajouter dans un modèle.

💡 La loi de Vapnik
Vladimir Vapnik est un mathématicien et informaticien russe, connu pour avoir développé les machines à support vectoriel (SVM), et être à l’origine de la théorie de Vapnik-Chervonenkis et de l’apprentissage statistique. Que dit cette loi ? Qu’il faut un bon équilibre entre la complexité du modèle et la complexité des données d’entraînement. En somme, si l’on vient à manquer de données, alors il ne sera pas possible d’augmenter la complexité du modèle et, in fine, de l’améliorer ou d’étendre ces capacités. Or la quantité de texte disponible sur internet étant limitée, impossible alors d’augmenter l’intelligence des modèles indéfiniment. En ce sens, l’IA générative (sur ses architectures actuelles) atteindra d’ici peu ses limites.

Inutile donc d’aller à la chasse aux paramètres pour améliorer significativement les performances des modèles. Les évolutions de cette intelligence artificielle sont donc à chercher ailleurs, du côté de l’architecture notamment. Pourquoi en effet ne pas envisager demain découvrir une architecture plus efficace que les transformers ? Par exemple des percées dans le domaine des mathématiques fondamentales (notamment sur les espaces vectoriels de grandes dimensions) pourraient peut-être permettre de progresser sur les architectures actuellement utilisées en IA.

Enfin, si les travaux en apprentissage machine n’ont pas vocation à reproduire fidèlement le fonctionnement du cerveau humain, certains mécanismes étudiés par les neurosciences peuvent donner des idées nouvelles pour les futures recherches en IA, à l’instar des premiers modèles de neurones, des modèles hiérarchiques de la vision et des mécanismes d’attention.

👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈

Consultant Senior IA, Data Science et Machine Learning Business & Decision

Avec dix ans d’expérience dans les domaines de la Data et du Machine Learning, j’aide actuellement les entreprises dans la définition et la mise en place de leur IA Factory et dans la réalisation de projets en Data Science innovants. Mon parcours me permet d’apporter…

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Sécurité des données

Identités numériques : tout comprendre sur ce domaine en pleine évolution

L'identité numérique est au cœur des interactions en ligne, des transactions commerciales, des processus administratifs et de la protection des données personnelles. Elle englobe non seulement la manière dont les...

Premium

Innovations Cloud

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

La maîtrise des coûts liés au cloud représente un enjeu crucial pour les entreprises en 2025. Cette vidéo, réalisée sous forme de webinar, met en lumière l'expérience d'un client ayant...

IoT et objets connectés

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Vous êtes-vous déjà dit que la partie « collecte de données » d’une chaîne de données était une partie relativement simple d’un projet ? Dans cette série d’articles, nous expliquons pourquoi, selon nous,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : Salesforce s’offre Informatica, Meta va entraîner ses systèmes d'IA...

Premium

Innovation

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

Dans un monde de plus en plus digitalisé, l’accessibilité numérique est devenue un impératif. Elle garantit que chacun, quels que soient ses capacités ou ses outils, puisse accéder aux contenus...

Premium

Transformation digitale

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Les attentes des clients et des collaborateurs évoluent de plus en plus vite. Ainsi, pour rester compétitif, il ne suffit plus d’innover, il faut le faire vite, bien et en...

Solutions technologiques

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Les avancées en intelligence artificielle générative, notamment via les LLMs (Large Language Models), ouvrent des perspectives inédites d’amplification des capacités humaines dans les entreprises. Comme l’ont souligné Brynjolfsson et McAfee...

Stratégie Data

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

L’ascension de ChatGPT a été fulgurante, et a propulsé l'intelligence artificielle, notamment l'IA générative, sur le devant de la scène. Jamais une technologie n’est allée aussi vite dans son adoption...

Premium

Solutions technologiques

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

Comment maximiser la sécurité et l'efficacité de votre infrastructure ? Azure Arc peut transformer la gestion de vos serveurs SQL et Windows tout en restant sur site. Nos explications en...

Premium

Solutions technologiques

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Dans un marché en constante évolution, la rapidité de déploiement des expériences et applications digitales est essentielle pour garder une longueur d’avance. 70% des entreprises considèrent l’accélération du Time to...

Actualités Data et IA

Revue de presse Data & IA – Avril 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'entreprise Bleu franchit la première étape vers la qualification...

Stratégie Data

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

Alors que la course vers une IA générale mobilise des ressources considérables, les entreprises sont confrontées à des enjeux beaucoup plus concrets. Loin des effets d’annonce, il est impératif de...

Premium

Transformation digitale

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

La CSRD, récemment bousculée par l’Omnibus de la Commission Européenne, continue de transformer le reporting extra-financer. Il devient alors essentiel pour les entreprises d’intégrer l’ESG au cœur de leur stratégie....

Premium

Migration vers le cloud

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Les entreprises et administrations publiques sont soumises à de fortes exigences en matière de confidentialité. Comment allier innovation et maîtrise des données ? Retour d’expérience pour réussir votre migration vers le...

Quelles sont les technologies fondamentales de l’IA générative ?

Première vague : AlexNet et le deep learning

Deuxième vague : les GAN

Troisième vague : les transformers

Quatrième vague : GPT 3 et 4

Le mode auto-supervisé

La couche supervisée

L’apprentissage renforcé

Le futur de l’IA générative dans les mains des GAFAM

L’IA générative aura bientôt atteint ses limites

Découvrez aussi

Identités numériques : tout comprendre sur ce domaine en pleine évolution

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Revue de presse Data & IA – Mai 2025

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Revue de presse Data & IA – Avril 2025

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Informations sur la gestion de vos données et vos droits