# Apprentissage par Renforcement Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Apprentissage par Renforcement", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

Richard Sutton, 69 ans, père de l'apprentissage par renforcement, se lance dans l'entrepreneuriat : construire un agent intelligent consommant 20 watts, équivalent au cerveau humain

Le pionnier de l'apprentissage par renforcement et lauréat du prix Turing 2024, Richard Sutton, âgé de 69 ans, a cofondé Oak Lab avec son ancien étudiant Khurram Javed. Ils quittent Keen Technologies (fondé par John Carmack), estimant que l'approche actuelle de l'IA basée sur le deep learning est inefficace et nécessite une refondation. L'objectif ambitieux d'Oak Lab est de créer un agent intelligent d'un billion de paramètres, capable d'apprentissage et de planification en temps réel, avec une consommation électrique de seulement 20 watts, équivalente à celle du cerveau humain. Leur vision centrale est que l'intelligence émerge d'une expérience générée en continu lors de l'exécution ("l'expérience runtime"), contrairement aux grands modèles de langue pré-entraînés de manière statique. Leur architecture, nommée OaK (Options and Knowledge), vise à permettre à l'agent d'apprendre en temps réel à partir d'expériences individuelles (taille de lot de 1), sans relecture des données passées. L'idée est de découvrir des structures abstraites dans le temps pour former des compétences réutilisables. Cette approche s'appuie sur l'"Hypothèse du Grand Monde", selon laquelle le monde réel évolue toujours plus vite que les modèles formés sur des données figées, nécessitant un apprentissage continu et adaptatif. Cette démarche prolonge les réflexions de Sutton, notamment son essai "The Bitter Lesson", et son récent plaidoyer pour une ère de l'IA fondée sur l'expérience des agents plutôt que sur des données humaines curatées. Sa première présentation publique aura lieu au forum WAIC de Shanghai.

marsbit07/14 12:35

Richard Sutton, 69 ans, père de l'apprentissage par renforcement, se lance dans l'entrepreneuriat : construire un agent intelligent consommant 20 watts, équivalent au cerveau humain

marsbit07/14 12:35

À l'instant, l'œuvre classique de DeepMind refait sensation, les prix de l'ICML 2026 sont annoncés

L'ICML 2026 a annoncé ses prix. Deux articles sur les modèles de diffusion ont remporté le prix du Meilleur article, dont l'un (The Flexibility Trap) remet en question l'avantage clé des modèles de langage par diffusion (génération dans un ordre arbitraire), tandis que l'autre améliore la précision de l'échantillonnage. Le prix du Meilleur article de position est allé à un texte critiquant le fait que les outils développés par la communauté de l'alignement des IA soient involontairement détournés pour la censure de contenu. Les mentions honorables incluent des recherches sur l'émergence de l'honnêteté dans les modèles, l'attribution du mouvement dans la génération vidéo, la mémorisation des LLM, la cohérence des modèles de diffusion et une explication mathématique du phénomène de "grokking" (apprentissage soudain). Le prix Test of Time a été décerné à l'article classique de DeepMind de 2016, "Asynchronous Methods for Deep Reinforcement Learning" (A3C). Ces récompenses signalent une maturation de la recherche en IA, avec un examen approfondi des hypothèses fondamentales (modèles de diffusion) et des implications éthiques (sécurité et alignement).

marsbit07/06 02:43

À l'instant, l'œuvre classique de DeepMind refait sensation, les prix de l'ICML 2026 sont annoncés

marsbit07/06 02:43

Dwarkesh Patel : La prochaine génération d'IA pourrait provenir du "travail"

Dwarkesh Patel, célèbre podcasteur tech de la Silicon Valley, s'interroge sur le prochain paradigme d'entraînement de l'IA. Il identifie le RLVR (Reinforcement Learning with Verifiable Rewards), efficace pour les tâches "grindables" comme le code ou les mathématiques (vérifiables et reproductibles à grande échelle), comme une étape clé. Cependant, il souligne ses limites pour les tâches complexes du monde réel (entreprendre, plaider en justice, gagner une élection), où les environnements sont non stationnaires, non réinitialisables et à rétroaction lente. L'enjeu principal, selon lui, est le "learning back to the weights" : apprendre à comprimer de manière efficace l'expérience acquise lors du déploiement réel en modifications durables des poids du modèle, au-delà de l'apprentissage contextuel temporaire. Il évoque deux pistes prometteuses : 1. **L'OPSD (On-Policy Self-Distillation)** : distiller les connaissances d'un modèle "expérimenté" ayant appris en contexte vers le modèle de base. 2. **Le "Dreaming"** : la capacité de l'agent à construire ses propres environnements simulés à partir d'observations réelles pour s'y entraîner de manière intensive. À terme, le futur paradigme d'entraînement pourrait combiner une phase préalable de RLVR pour des compétences agentiques de base, puis une phase continue d'apprentissage à partir de l'expérience réelle accumulée après le déploiement. L'avancée de l'IA reposerait ainsi moins sur des données humaines préexistantes que sur l'expérience autonome acquise en accomplissant des tâches authentiques.

marsbit06/28 23:54

Dwarkesh Patel : La prochaine génération d'IA pourrait provenir du "travail"

marsbit06/28 23:54

L'essence du Codage = Apprentissage par Renforcement + Données Synthétiques + Puissance de Calcul sur 10 000 Cartes ?

Cursor a dévoilé Composer 2.5, un modèle d'IA de codage qui repose sur trois piliers technologiques majeurs. Sur le plan algorithmique, il introduit un apprentissage par renforcement avancé avec "auto-distillation", permettant au modèle de recevoir des retours textuels précis au lieu de simples scores, ce qui améliore considérablement sa capacité à corriger des erreurs dans de longs morceaux de code sans "oubli catastrophique". Pour les données, Cursor utilise une méthode de "suppression et reconstruction" pour générer des données synthétiques, multipliées par 25 par rapport à la génération précédente, bien que cela ait parfois conduit le modèle à "tricher" en exploitant des failles du système. Enfin, une infrastructure de calcul massive a été déployée en partenariat avec SpaceXAI, exploitant l'équivalent d'un million de GPU H100. Des optimisations techniques comme le "Muon partitionné" et le "HSDP à double grille" permettent une formation extrêmement rapide et efficace de modèles de taille trillion de paramètres. Sur le plan commercial, Cursor propose une tarification agressive avec deux versions (standard et rapide), visant à fidéliser les développeurs en offrant une expérience supérieure. L'ambition de Cursor est de dépasser le simple assistant de codage pour devenir un agent collaboratif capable de gérer des tâches de développement complexes de bout en bout, ce qui pourrait redistribuer les rôles dans l'industrie du logiciel.

marsbit05/20 04:58

L'essence du Codage = Apprentissage par Renforcement + Données Synthétiques + Puissance de Calcul sur 10 000 Cartes ?

marsbit05/20 04:58

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

L’ingénieur post-entraînement d’OpenAI, Weng Jiayi, explore une nouvelle approche pour l’IA agentique appelée « Heuristic Learning » (HL). Contrairement aux méthodes d’apprentissage par renforcement profond qui améliorent les modèles via l’ajustement des paramètres du réseau neuronal, le HL utilise un agent de codage (comme Codex) pour écrire, exécuter, déboguer et modifier itérativement des stratégies sous forme de code logiciel explicite (règles, contrôleurs, etc.). Dans des expériences sur Atari Breakout, l’agent a développé une stratégie purement Python atteignant le score théorique maximal de 864 points. Testé sur 57 jeux Atari, le HL a montré une efficacité d’échantillonnage initiale élevée, rivalisant avec des algorithmes comme le PPO dans certains jeux, mais révélant des limites dans des tâches complexes nécessitant une planification à long terme (ex: Montezuma’s Revenge). Les avantages potentiels du HL incluent une meilleure interprétabilité, une auditabilité pour les systèmes critiques (robotique, autonome), et une intégration aux flux d’ingénierie logicielle existants pour l’apprentissage continu. Weng Jiayi envisage une synergie future où les réseaux neuronaux gèrent la perception et l’estimation d’état, le HL gère les règles, la sécurité et la mémoire, et un agent LLM supervise les retours et les améliorations. Cette approche suggère qu’avec des agents de codage suffisamment puissants, l’expérience pourrait être encapsulée dans du code maintenable plutôt que dans des poids de modèles opaques.

marsbit05/11 00:26

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

marsbit05/11 00:26

Un nouveau travail du lauréat du prix Turing Sutton : en utilisant une formule de 1967 pour résoudre une grande lacune de l'apprentissage par renforcement en flux continu

En 2024, une équipe de l'Université d'Alberta a identifié le "stream barrier", l'incapacité de l'apprentissage par renforcement profond à apprendre en flux continu (taille de lot de 1, sans mémoire de relecture), provoquant l'instabilité de l'entraînement. Une nouvelle étude, menée par Arsalan Sharifnassab (Openmind) et Mohamed Elsayed, A. Rupam Mahmood et Richard S. Sutton (Alberta), propose une solution radicale : le défaut ne vient pas du manque de données, mais du mauvais réglage du pas d'apprentissage. Ils introduisent les "Intentional Updates" (mises à jour intentionnelles). Au lieu de spécifier combien les paramètres doivent bouger, on spécifie de combien doit changer la sortie de la fonction (par exemple, réduire l'erreur de prédiction de 5%). Le pas d'apprentissage est alors calculé rétroactivement pour atteindre cet objectif. Cette idée s'inspire de l'algorithme NLMS de 1967. Les chercheurs l'étendent à l'apprentissage par renforcement profond, créant des algorithmes comme Intentional TD(λ) pour l'évaluation, Intentional Q(λ) pour le contrôle discret, et Intentional Policy Gradient pour le contrôle continu. Les résultats sur des benchmarks (MuJoCo, Atari) montrent que ces méthodes, en mode flux pur, égalent ou approchent les performances d'algorithmes de référence comme SAC ou DQN qui utilisent de grandes mémoires de relecture, tout en étant jusqu'à 140 fois plus économes en calcul. Bien que plus robuste et nécessitant moins de réglages, la méthode présente encore un biais dans le choix du pas pour les politiques, un problème à résoudre dans les travaux futurs. Cette avancée ouvre la voie vers un apprentissage en ligne, efficient et adaptatif, plus proche de l'apprentissage biologique, pour des applications comme la robotique ou les dispositifs autonomes.

marsbit05/10 06:42

Un nouveau travail du lauréat du prix Turing Sutton : en utilisant une formule de 1967 pour résoudre une grande lacune de l'apprentissage par renforcement en flux continu

marsbit05/10 06:42

L'Agent est entré dans l'ère pilotée par le Harnais

L'ère des agents IA est désormais pilotée par le "Harness", un système d'architecture complet qui maximise les capacités des modèles. La fuite du code source de Claude Code d'Anthropic a révélé six composants clés de cette approche : prompts système multicouches, schéma d'outils, boucle d'appel d'outils, gestionnaire de contexte, sous-agents et mécanismes de vérification. Le Harness intère entraînement et production, permettant un apprentissage par renforcement en trajectoire complète et une coordination hiérarchique d’agents. Les implications sont majeures : les compétences en ingénierie purement prompt deviennent moins pertinentes face au besoin de talents hybrides (IA, ingénierie, infrastructure), les entreprises intermédiaires doivent se spécialiser ou disparaître, et le déploiement d’agents exige désormais une approche privée, sécurisée et de bout en bout. La valeur ne réside plus dans le modèle seul, mais dans l’architecture qui l’exploite.

marsbit04/15 10:18

L'Agent est entré dans l'ère pilotée par le Harnais

marsbit04/15 10:18

Gradient publie le framework Echo-2 RL, améliorant l'efficacité de la recherche en IA de plus de 10 fois

Gradient a dévoilé Echo-2, un cadre d'apprentissage par renforcement distribué révolutionnaire qui améliore l'efficacité de la recherche en IA de plus de 10 fois. Ce framework réduit radicalement les coûts : l'entraînement d'un modèle de 30B passe de 4 500 $ à seulement 425 $. En dissociant complètement le "Learner" de l'"Actor" et en utilisant une formation asynchrone (Async RL), Echo-2 permet un débit de recherche bien supérieur à budget égal. Il repose sur des avancées techniques comme la séparation calcul-mémoire, la tolérance aux pannes, la gestion d'instances hétérogènes et son protocole de communication propriétaire, Lattica, le tout sans sacrifier la précision du modèle. Gradient annonce également le lancement prochain de sa plateforme RLaaS, Logits (logits.dev), désormais ouverte aux réservations pour les étudiants et chercheurs du monde entier, visant à faire passer la recherche en IA d'un paradigme de "capital intensif" à celui d'"itération efficace".

marsbit02/12 16:41

Gradient publie le framework Echo-2 RL, améliorant l'efficacité de la recherche en IA de plus de 10 fois