Comme évoqué dans notre article « Développement de l’IA générative : quel impact sur les entreprises ? », l’IA générative n’est pas un concept récent. Les réseaux de neurones sur lesquels elle repose sont connus depuis des décennies. Alors pourquoi a-t-il fallu attendre 2022 pour entendre parler de cette technologie ? Les explications dans la suite de cet article.
Avant d’entrer dans le détail des technologies, il est important de noter que nous allons nous focaliser sur les technologies fondamentales de ChatGPT qui, en 2023, reste le modèle le plus mature d’IA générative que ce soit en termes de capacité de raisonnement, de capacité de génération et de créativité, et de lien entre les informations.
Première vague : AlexNet et le deep learning
Tout commence en 2012 lorsqu’Alex Krizhevsky implémente des réseaux de neurones sur des cartes graphiques. En quoi est-ce révolutionnaire ? Les réseaux de neurones sont extrêmement gourmands en temps de calcul et en volume de données. Ils sont très prompts à ce que l’on appelle l’« overfitting », c’est-à-dire la surinterprétation. La seule option jusqu’alors pour l’éviter était de réduire le nombre de paramètres soit, in fine, la performance du modèle. Les cartes graphiques ont alors permis de diviser par 100 le temps de calcul.
En parallèle, de très volumineux datasets de données ont été rendus disponibles, comme ImageNet, participant à améliorer les performances du modèle. Ces performances ont d’ailleurs été rendues publiques pour la première fois lors du concours ImageNet de 2012. Souvent citée comme une référence en matière de computer vision, cette architecture, appelée AlexNet, est considérée comme la première approche probante en deep learning, concrétisant des décennies de recherches se faisant malgré l’hiver de l’IA. Cette étape a permis de démocratiser de nombreuses recherches en mathématiques appliquées, informatique, neurosciences, etc. qui ont favorisé le développement de l’IA générative.
Deuxième vague : les GAN
En 2015, l’arrivée des GAN (pour Generative Adversarial Network) grâce à Ian Goodfellow a permis de mettre en place un ensemble d’architectures et de méthodes non supervisées. Le principe consistait à faire s’affronter deux réseaux de neurones : un qui faisait de la génération d’images, et un autre qui cherchait à déterminer si l’image était vraie ou fausse. Cette étape peut être considérée comme la première génération performante d’IA générative. Toutefois les GAN donnaient lieu à des architectures particulièrement instables.
Troisième vague : les transformers
Lancés en 2017, les modèles de transformers développés par Google Brain ont la particularité de raisonner sur un modèle d’attention. Le concept est de mettre en place une sélection de l’information séquentielle au fur et à mesure du traitement de l’image. Ces transformers ont alors commencé à être utilisés dans le domaine du traitement du langage naturel (NLP) avec de bons résultats, notamment dans le cas des modèles de type BERT qui sont encore utilisés dans nombre d’applications aujourd’hui.
Quatrième vague : GPT 3 et 4
Dès lors, les grands groupes comme Microsoft (OpenAI), Meta (Facebook) ou Google ont décidé de continuer le développement de ces modèles pour travailler sur l’IA générative. C’est en ajoutant de plus en plus de paramètres et en associant divers modes d’apprentissage qu’OpenAI est ainsi parvenu à créer sa solution ChatGPT.
Ses performances reposent, entre autres, sur le cumul des quatre modes d’apprentissage tels que décrits ci-dessous et l’utilisation des cartes graphiques Nvidia H100 (voir notre article sur « Développement de l’IA générative : quel impact sur les entreprises ? »).
Le mode auto-supervisé
En 2018, le modèle GPT est développé, utilisant l’apprentissage auto-supervisé sur du texte avec les transformers. Cette approche nécessite beaucoup moins de supervision sur les données, mais implique un grand nombre de données non-étiquetées.
Elle inclut également l’apprentissage des langues à partir d’un certain corpus de texte, basé sur l’utilisation massive de ce qui a été publié sur internet. Cette étape explique notamment pourquoi ChatGPT peut intervenir en plusieurs langues. À noter qu’elle est aussi la plus consommatrice en calculs, son seul but étant de compléter le prochain mot d’une phrase ou de compléter un mot manquant dans une phrase.
La couche supervisée
Plus récemment, en 2022, InstructGPT a été introduit. Il s’agit d’un modèle GPT entraîné sur des conversations en mode supervisé. Cette approche permet d’apprendre à GPT à répondre à des questions. Elle consiste en effet à fournir un certain nombre de questions au modèle ainsi qu’un certain nombre de réponses attendues. La complexité réside alors dans le contexte dont l’IA a besoin pour répondre correctement à la question posée (également appelée le « prompt »).
Ce contexte contient en réalité les instructions que l’on va donner au modèle pour lui permettre de répondre. Il est masqué dans ChatGPT et inclus dans la couche InstructGPT ayant donné lieu à un apprentissage supervisé. Le résultat aboutit à une intelligence artificielle de type chatbot, entraînée sur un très grand corpus de texte et capable de répondre de façon brute à toute question, à condition que des éléments de réponses figurent dans le corpus d’entraînement.
L’apprentissage renforcé
Si les trois premiers modes d’apprentissage permettent de créer « le fond » de la réponse, ce 4e mode va quant à lui favoriser « la forme » et permettre à l’IA de répondre de manière plus user-friendly. La couche supervisée aboutit en effet à un chatbot assez rude, dénué de forme de politesse.
Ici, une équipe de personnes humaines va donc poser un grand nombre de questions à ChatGPT, lui demander de générer plusieurs réponses différentes par question, puis les classer par ordre de préférence et même éliminer les réponses inappropriées sous forme d’un apprentissage renforcé avec RLHF (Reinforcement Learning from Human Feedback). Si cette étape n’intègre pas de complexité technique, elle nécessite en revanche des ressources humaines importantes.
Aujourd’hui, les grands groupes que sont OpenAI avec Microsoft, Google ou Meta sont les seuls à avoir la puissance du calcul nécessaire pour entraîner des modèles fondamentaux multilingues à base de transformers de plus en plus gigantesques.
Le futur de l’IA générative dans les mains des GAFAM
En augmentant la taille des datasets et en évitant d’avoir recours à de la labellisation massive de données, il a été possible de créer les premiers modèles de fondation qui ont permis ensuite, par affinage successif, de créer de l’interactivité proche des interactions humaines grâce à la couche InstructGPT. Aujourd’hui, les grands groupes que sont OpenAI avec Microsoft, Google ou Meta sont les seuls à avoir la puissance du calcul nécessaire pour entraîner des modèles fondamentaux multilingues à base de transformers de plus en plus gigantesques. Voilà pourquoi les futures évolutions des modèles fondamentaux de l’IA générative dépendent en partie des GAFAM.
Il faut se rappeler qu’un modèle incluant une multitude de paramètres mais sans la couche InstructGPT paraîtra inutilisable par rapport à un modèle intégrant un nombre inférieur de paramètres mais utilisant l’apprentissage supervisé. Depuis, les grands groupes n’ont de cesse d’ajouter de plus en plus de paramètres et de plus en plus de données labellisées.
L’IA générative aura bientôt atteint ses limites
En septembre 2022, DeepMind (un article publié par Chinchilla) a mis en avant de nouvelles lois sur l’échelle des données (également appelées lois sur la mise à l’échelle de Chinchilla ou Hoffman) pour des données LLM (Large Language Models) optimales : il faudrait ainsi utiliser des tokens de 1 400 B (1,4 T) pour entraîner de façon optimale un LLM intégrant 70B de paramètres, soit environ 20 jetons de texte par paramètre.
Ainsi, selon Chinchilla, il serait nécessaire d’utiliser 11 fois plus de données pendant l’entraînement de GPT 5 que pour GPT-3 et autres modèles similaires. Ce qui implique de se procurer, nettoyer et filtrer environ 33 To de données de texte pour un modèle de paramètre 1T. Pour information, on estime que GPT 3 a été entraîné sur la base de 175 milliards de paramètres. Par conséquent, nous risquons fort à un moment de manquer de données textuelles pour le nombre de paramètres que l’on souhaitera ajouter dans un modèle.
💡 La loi de Vapnik
Vladimir Vapnik est un mathématicien et informaticien russe, connu pour avoir développé les machines à support vectoriel (SVM), et être à l’origine de la théorie de Vapnik-Chervonenkis et de l’apprentissage statistique. Que dit cette loi ? Qu’il faut un bon équilibre entre la complexité du modèle et la complexité des données d’entraînement. En somme, si l’on vient à manquer de données, alors il ne sera pas possible d’augmenter la complexité du modèle et, in fine, de l’améliorer ou d’étendre ces capacités. Or la quantité de texte disponible sur internet étant limitée, impossible alors d’augmenter l’intelligence des modèles indéfiniment. En ce sens, l’IA générative (sur ses architectures actuelles) atteindra d’ici peu ses limites.
Inutile donc d’aller à la chasse aux paramètres pour améliorer significativement les performances des modèles. Les évolutions de cette intelligence artificielle sont donc à chercher ailleurs, du côté de l’architecture notamment. Pourquoi en effet ne pas envisager demain découvrir une architecture plus efficace que les transformers ? Par exemple des percées dans le domaine des mathématiques fondamentales (notamment sur les espaces vectoriels de grandes dimensions) pourraient peut-être permettre de progresser sur les architectures actuellement utilisées en IA.
Enfin, si les travaux en apprentissage machine n’ont pas vocation à reproduire fidèlement le fonctionnement du cerveau humain, certains mécanismes étudiés par les neurosciences peuvent donner des idées nouvelles pour les futures recherches en IA, à l’instar des premiers modèles de neurones, des modèles hiérarchiques de la vision et des mécanismes d’attention.
👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.