# Post-entraînement Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Post-entraînement", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

L’ingénieur post-entraînement d’OpenAI, Weng Jiayi, explore une nouvelle approche pour l’IA agentique appelée « Heuristic Learning » (HL). Contrairement aux méthodes d’apprentissage par renforcement profond qui améliorent les modèles via l’ajustement des paramètres du réseau neuronal, le HL utilise un agent de codage (comme Codex) pour écrire, exécuter, déboguer et modifier itérativement des stratégies sous forme de code logiciel explicite (règles, contrôleurs, etc.). Dans des expériences sur Atari Breakout, l’agent a développé une stratégie purement Python atteignant le score théorique maximal de 864 points. Testé sur 57 jeux Atari, le HL a montré une efficacité d’échantillonnage initiale élevée, rivalisant avec des algorithmes comme le PPO dans certains jeux, mais révélant des limites dans des tâches complexes nécessitant une planification à long terme (ex: Montezuma’s Revenge). Les avantages potentiels du HL incluent une meilleure interprétabilité, une auditabilité pour les systèmes critiques (robotique, autonome), et une intégration aux flux d’ingénierie logicielle existants pour l’apprentissage continu. Weng Jiayi envisage une synergie future où les réseaux neuronaux gèrent la perception et l’estimation d’état, le HL gère les règles, la sécurité et la mémoire, et un agent LLM supervise les retours et les améliorations. Cette approche suggère qu’avec des agents de codage suffisamment puissants, l’expérience pourrait être encapsulée dans du code maintenable plutôt que dans des poids de modèles opaques.

marsbitIl y a 9 h

L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

marsbitIl y a 9 h

活动图片