Dwarkesh Patel, célèbre animateur de podcast technologique de la Silicon Valley, a récemment soulevé une question : Quel sera le prochain paradigme d'entraînement de l'IA ?

Dwarkesh Patel est un animateur de podcast et un auteur technologique qui a rapidement gagné en popularité dans la Silicon Valley ces dernières années. Âgé de seulement 25 ans, il est déjà entré dans le cercle central des discussions sur l'IA grâce à son "Dwarkesh Podcast". Ses invités incluent des poids lourds de l'IA et de la technologie comme Ilya Sutskever, Andrej Karpathy, Dario Amodei, Demis Hassabis, Mark Zuckerberg, entre autres. TIME l'a inclus dans la liste TIME100 AI de 2024, affirmant que son podcast est devenu un contenu d'écoute important pour de nombreux professionnels de l'IA.

Dans son dernier podcast, il résume les pistes sur lesquelles misent actuellement les laboratoires d'IA de pointe en un mot-clé : RLVR, c'est-à-dire Reinforcement Learning with Verifiable Rewards, ou Apprentissage par Renforcement avec Récompenses Vérifiables.
En termes simples, il s'agit de faire essuyer au modèle de nombreuses erreurs dans un grand nombre de tâches dont la justesse peut être automatiquement jugée, afin de développer des capacités de planification, de correction d'erreurs, d'itération et d'exécution à long terme. Les progrès rapides actuels dans des domaines comme le code ou les mathématiques sont en grande partie issus de cette approche.
Mais la véritable question que Dwarkesh veut approfondir est : Si la prochaine génération d'IA ne s'appuie que sur ce type de "formation à des tâches vérifiables", est-ce suffisant ?
Sa réponse est : Probablement non.
Parce qu'une tâche ne doit pas seulement être "vérifiable", elle doit aussi être "répétable".
Le concept clé ici est la grindability, ou capacité à être "grindée". Dans le contexte de l'entraînement de l'IA, c'est la "capacité à être répétée de manière intensive" ou la "capacité à être déployée à grande échelle".
Les tâches de code sont typiques des tâches "grindables". Vous pouvez préparer un référentiel logiciel, un bogue à corriger, un cas de test, puis dupliquer le même environnement en milliers d'exemplaires, laissant des milliers d'agents essayer simultanément. Celui qui passe le test marque des points. Ce processus peut être parallélisé, reproduit, réinitialisé, et convient particulièrement bien au RLVR.
Les problèmes de mathématiques sont similaires. La justesse de la réponse est vérifiable, et l'environnement d'entraînement est facile à reproduire.
Mais Dwarkesh pose une question très intéressante : Pourquoi les progrès de l'IA sont-ils plus lents dans le domaine de "l'utilisation de l'ordinateur" que dans le code ou les mathématiques ?
En apparence, l'utilisation d'un ordinateur est aussi vérifiable. Par exemple, on peut vérifier si une commande a été passée avec succès, si une salle a été réservée, si une déclaration d'impôts a été soumise. Mais le problème est qu'il est difficile de la reproduire et de la rejouer à grande échelle. Vous ne pouvez pas faire courir mille agents simultanément sur le même processus de paiement Amazon, car le vrai site identifiera les bots, bloquera les comptes, changera d'état. Bien sûr, vous pourriez cloner des applications comme Slack, Gmail, Amazon pour en faire des simulateurs, mais c'est actuellement encore une ingénierie coûteuse et peu évolutive.
Dwarkesh souligne : Les progrès rapides de l'IA dans un domaine ne sont pas seulement dus au fait que les réponses y sont vérifiables, mais aussi au fait que ce domaine peut être emballé en un environnement d'entraînement reproductible, rejouable et permettant des essais/erreurs parallèles.
Cela explique également pourquoi les tâches de code, de mathématiques, de jeux sont des terrains naturels pour le RLVR, tandis que de nombreuses tâches du monde réel sont difficiles à intégrer directement dans ce paradigme d'entraînement.
Ensuite, il pousse la question vers le monde réel plus complexe.
- Que faire si nous voulons entraîner une IA à créer une entreprise à partir de zéro ?
- Que faire si nous voulons l'entraîner à gagner un procès ?
- Que faire si nous voulons l'entraîner à gagner de l'argent de manière stable sur les marchés, ou à aider un candidat à gagner une élection ?
Ces tâches ont bien sûr aussi un résultat. On peut juger si l'entreprise a réussi, si le procès a été gagné, si les transactions ont été rentables, si l'élection a été remportée.
Mais leur problème est le suivant : le feedback est trop lent, les variables sont trop nombreuses, le monde n'est pas réinitialisable, et on ne peut pas le reproduire mille fois dans un centre de données.
Une création d'entreprise peut durer plusieurs années. Une campagne politique dépend d'une région, d'un candidat, de l'humeur des électeurs, de l'environnement médiatique et d'événements contingents. Un procès ne peut pas non plus être dupliqué à partir du même point de départ en mille univers parallèles pour que différents agents essaient et se trompent séparément.
Ce type d'environnement se rapproche de ce qu'on appelle dans l'apprentissage par renforcement un environnement "reset-free" et "non-stationary" : on ne peut pas le réinitialiser à volonté, et l'environnement lui-même évolue constamment.
Dwarkesh pose donc la question : Un agent entraîné par RLVR dans des environnements vérifiables et "grindables" peut-il vraiment se généraliser à ces tâches du monde réel ?
Ce n'est pas une question à laquelle on peut répondre par un slogan, mais une question empirique.
Les optimistes diraient que si les environnements RLVR sont suffisamment nombreux et complexes, le modèle finira par acquérir des capacités d'agent génériques. Ses capacités de planification et d'essai/erreur développées dans le code, les mathématiques, le web, l'utilisation d'outils, finiront par être transférées à des domaines comme l'entrepreneuriat, la gestion d'organisation, la politique, le droit, la recherche scientifique.
Mais Dwarkesh reste sceptique.
Parce que dans le monde réel, les connaissances les plus précieuses n'apparaissent souvent pas de manière claire, vérifiable et reproductible. Elles peuvent provenir d'un feedback client ambigu, d'une réunion infructueuse, d'un processus implicite au sein d'une organisation, d'un mode d'échec qui ne se révèle que dans une tâche réelle. Pour apprendre ces choses, un modèle ne peut pas se contenter de "bûcher des exercices", il doit avoir une véritable efficacité d'échantillonnage.
Cela nous amène au point le plus important de l'article : learning back to the weights, ou réintégrer l'apprentissage dans les poids.
Les grands modèles d'aujourd'hui sont déjà très doués pour l'apprentissage en contexte (in-context learning). Ils peuvent lire de nombreuses informations dans un long contexte, comprendre le contexte d'un projet, s'adapter temporairement aux besoins d'un utilisateur ou d'une organisation. Mais le problème est que cet apprentissage reste majoritairement dans la fenêtre de contexte. Une fois la session terminée, le modèle ne "retenait" pas nécessairement la leçon.
Dwarkesh estime que c'est un immense gaspillage.
Parce que les signaux d'entraînement réellement précieux pour le modèle apparaissent précisément après son déploiement. Le modèle est utilisé par de vrais utilisateurs, entre dans de vraies organisations, participe à de vraies tâches, expose de vraies erreurs. Il voit comment fonctionne une entreprise en interne, ce que les gens en font réellement, où il échoue souvent, quels conseils ne fonctionnent tout simplement pas en réalité.
Mais si cette expérience ne peut pas sédimenter dans les poids du modèle, alors ce n'est qu'une adaptation temporaire au sein d'une session, et non une croissance à long terme des capacités.
Il fait une analogie avec l'apprentissage humain : l'homme ne devient pas fort en mémorisant mot pour mot tout ce qui se passe chaque jour. Un employé devient utile après six mois de travail, non pas parce qu'il se souvient de chaque e-mail, de chaque mot des procès-verbaux de réunion, mais parce qu'il a compressé ces expériences en jugement, en intuition, en compréhension des processus et en schémas de problèmes.
Il en devrait être de même pour le modèle.
Le véritable apprentissage continu (continual learning) ne consiste pas à agrandir indéfiniment le cache KV, ni à entasser tous les historiques dans le contexte, mais à extraire de l'expérience réelle le peu de connaissances réellement utiles, puis à les compresser dans les poids.
C'est précisément le problème que Dwarkesh estime que le prochain paradigme d'entraînement doit résoudre.
Alors, comment faire concrètement ?
Il mentionne une orientation actuellement débattue : on-policy self-distillation, ou OPSD.
On peut le comprendre approximativement ainsi : faire jouer à un modèle ayant accumulé une riche expérience dans de longues sessions le rôle d'"ancien employé" ou de professeur (teacher) ; puis entraîner le modèle de base pour qu'il puisse, même sans ce contexte complet, porter des jugements similaires à ceux du teacher.
En d'autres termes, distiller ce que le modèle a appris via le contexte lors d'une tâche réelle et le réintégrer dans ses propres poids.
Ce n'est pas la même chose qu'un SFT ordinaire. Le SFT le plus simple peut simplement demander au modèle de prédire les tokens apparus dans la conversation, ce qui équivaut à lui faire réciter l'intégralité du journal de travail. Mais ce n'est pas un apprentissage efficace. Ce qui est vraiment important, ce n'est pas de se souvenir de tous les détails, mais d'extraire les idées clés qui aideront le modèle à mieux faire la prochaine fois.
L'avantage de l'OPSD est qu'il n'a pas nécessairement besoin d'une récompense vérifiable externe. Tant que le modèle peut apprendre quelque chose d'utile dans le contexte, on peut prendre le "modèle après apprentissage" comme teacher et faire approcher le modèle de base de lui.
Parallèlement, comparé au RL ordinaire qui n'a qu'une récompense finale, l'OPSD peut fournir des signaux de supervision plus denses. Il peut comparer au niveau des tokens les différences de distributions de probabilité entre le teacher et le student, compressant ainsi l'expérience rare d'une tâche réelle en des mises à jour de poids plus petites et plus précises.
Outre l'OPSD, Dwarkesh propose une autre orientation : dreaming (rêver).
Ici, "dreaming" signifie que l'IA construit elle-même un environnement simulé à partir d'observations du monde réel, puis y pratique de manière répétée, y teste des stratégies, y renforce les comportements efficaces.
Cela ressemble beaucoup au model-based RL de la tradition de l'apprentissage par renforcement, et aussi à ce que Sutton a toujours souligné : l'agent accumule de l'expérience par interaction avec l'environnement. La différence est que Dwarkesh le place dans le contexte des grands modèles et du déploiement réel.
Par exemple, après qu'une IA a observé un processus métier dans une entreprise réelle, elle ne se contente pas d'écrire un résumé, mais consacre beaucoup de calculs à construire une "version jeu" simulée de ce processus. Ensuite, elle y teste différentes stratégies de communication, chemins d'exécution et modes de conduite de projet, pour voir ce qui a plus de chances de réussir. Enfin, elle réintègre dans le modèle l'expérience acquise lors de ces exercices de simulation.
Si cette voie s'avère viable, elle pourrait devenir un nouvel axe de scaling.
Par le passé, l'extension de l'IA provenait principalement de trois axes : le pré-entraînement (pretraining), le RL et le calcul au moment de l'inférence (inference-time compute). Dwarkesh envisage que l'avenir pourrait voir un quatrième axe : l'entraînement au moment du test (test-time training), ou "dreaming". Le modèle ne fait pas que raisonner, mais, pendant le raisonnement et l'exécution des tâches, il construit des environnements simulés pour un utilisateur, une organisation, un projet spécifiques, et s'y entraîne.
C'est aussi pourquoi un commentaire mentionne l'article de David Silver et Richard Sutton, "Welcome to the Era of Experience" : cet article souligne également que l'IA ne peut pas dépendre éternellement des données humaines, et que la clé de l'étape suivante sera que les agents acquièrent de l'expérience par eux-mêmes à partir de leurs interactions avec l'environnement.

Dwarkesh, quant à lui, concrétise ce jugement macro pour les problèmes d'entraînement des grands modèles actuels : le RLVR est une phase de transition importante, permettant au modèle de développer des capacités d'agent dans des tâches vérifiables ; mais pour entrer dans le monde réel plus complexe, le modèle doit apprendre à apprendre continuellement à partir de déploiements réels, et à réintégrer cette expérience dans ses poids.
Dans l'avenir envisagé par Dwarkesh pour 2027 ou 2028, le flux d'entraînement pourrait ressembler à ceci :
- Premièrement, le RLVR entraîne un agent fondamentalement compétent. Cet agent est lancé sur un problème inconnu, il est au moins capable de comprendre la situation, d'essayer différentes stratégies, et de continuer à itérer après avoir rencontré des obstacles ;
- Ensuite, cet agent est déployé dans le monde réel et commence à effectuer un travail réel. Il peut travailler continuellement avec un utilisateur pendant une semaine, participer à un projet hors de la distribution d'entraînement initiale ;
- À la fin de la semaine, l'utilisateur lui donne un "pouce levé" ou un "pouce baissé", voire écrit une évaluation du travail. Si le résultat est positif, le modèle distille dans le modèle de base ce qu'il a appris lors de cette tâche. Ce processus pourrait utiliser l'OPSD, le "dreaming", ou peut-être une nouvelle technologie qui n'existe pas encore.
Une fois cette voie établie, la limite des capacités de l'IA n'est plus contrainte par les "tâches vérifiables" initiales.
Elle peut d'abord apprendre via le RLVR le code, les mathématiques, les tâches web, l'appel d'outils ; puis apprendre via le déploiement réel la gestion d'organisation, les processus métier, la collaboration complexe ; puis, à partir de cette expérience, continuer à s'étendre à des domaines adjacents.
Cela signifie aussi que la principale source de progrès de l'IA pourrait changer.
Dans le passé, un modèle était entraîné avant sa publication, et les utilisateurs se contentaient de l'utiliser. Les modèles de prochaine génération pourraient être : entraînés pour avoir un agent de base avant publication, puis continuer à apprendre via une multitude de tâches réelles après publication. Chaque interaction avec un utilisateur, chaque exécution de projet réel, chaque échec et correction, pourraient devenir des matériaux pour l'amélioration des capacités lors du cycle suivant.
Ainsi, ce que Dwarkesh appelle le "prochain paradigme d'entraînement" ne se résume pas simplement à dire que les modèles doivent être plus grands, les données plus nombreuses, le RL plus puissant.
Il pointe véritablement vers ceci : L'IA passe d'un entraînement pré-publication à un apprentissage post-publication ; des données humaines à l'expérience environnementale ; d'une adaptation temporaire dans le contexte à des capacités à long terme dans les poids.
À l'avenir, les données d'entraînement d'IA les plus importantes pourraient ne plus être seulement les textes déjà existants sur Internet, ni seulement les tâches vérifiables construites en laboratoire, mais l'expérience que l'IA accumule elle-même en accomplissant des tâches réelles dans le monde réel.
Liens de référence :
https://x.com/dwarkesh_sp/status/2070551894674555081
Cet article provient du compte WeChat public "机器之心" (ID : almosthuman2014), auteur : 关注AI训练






