# 强化学习的所有文章

在 HTX 新闻中心浏览与「强化学习」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策，提供权威的加密行业洞察。

智元下架了首席科学家罗剑岚

智元机器人高管团队发生变动。近日，公司官网最新合伙人名单中已移除原首席科学家罗剑岚的名字，其个人主页及社交媒体简介中也均删除了智元相关职务信息，这进一步佐证了其可能已离职的传闻。罗剑岚于2025年4月加入智元，担任首席科学家，并牵头组建了“智元具身智能研究中心”，后续职务升为合伙人、高级副总裁兼首席科学家，正式任职约1年4个月。其研究方向集中于机器人学习、真实世界强化学习与具身智能，在任期内深度参与了公司真机强化学习、在线后训练及世界模型等核心研究主线的搭建工作。此次人事变动的时间点较为微妙，恰在公司近期确认启动赴港上市流程之后。不过，截至目前，智元机器人与罗剑岚本人均未对此事发布官方声明，具体情况仍有待确认。

marsbit6小时前

marsbit6小时前

69岁强化学习之父Richard Sutton创业：造20瓦人脑级智能体

强化学习之父、图灵奖得主Richard Sutton在69岁时宣布创业，与学生Khurram Javed离开John Carmack的Keen Technologies，共同创立Oak Lab。Sutton是强化学习领域的奠基人，其著作是该领域经典教材，并培养出David Silver等多位AI顶尖人才。他认为当前深度学习路线效率低下，难以实现更高阶的通用智能，因此需要全新的基础思想。Oak Lab的终极目标是开发一个万亿参数规模、能实时学习与规划、整机功耗仅20瓦（与人脑耗能相当）的智能体。 Sutton强调，智能应来自运行时持续产生的经验，而非依赖离线预训练的海量静态数据。他主张AI应在与环境交互的每一刻进行学习，通过“时间抽象”将系列动作沉淀为可复用技能。Oak Lab的核心架构OaK（Options and Knowledge）旨在让智能体从经验中发现抽象结构，形成可规划调用的技能，并以batch size为1的方式实时更新，无需存储和回放历史数据。这一理念延续了Sutton2019年提出的“苦涩的教训”，即通用学习方法终将胜过依赖人类知识的系统。如今，他进一步推动AI从依赖人类数据转向依靠智能体自身经验。Oak Lab的创业是这一研究方向的具体实践。 Sutton将于上海世界人工智能大会（WAIC）分享相关主题。

marsbit07/14 12:29

marsbit07/14 12:29

刚刚，DeepMind经典巨作再封神，ICML 2026大奖公布

ICML 2026大奖公布，两篇扩散模型研究获得杰出论文奖。其中一篇来自清华团队，指出扩散语言模型的“任意顺序生成”优势在实际中可能成为降低性能的“灵活性陷阱”；另一篇提出了针对扩散模型和对数凹分布的高精度采样方法，提升了技术天花板。这表明扩散模型研究正进入深入审视和夯实基础的阶段。一篇关于AI安全的立场论文获得杰出论文奖，尖锐指出当前的对齐研究（如RLHF）无意中正在构建一套可能被用于内容审查的工具箱，引发了学界对技术伦理的反思。另有五篇研究获得杰出论文荣誉提名，涉及主题包括：探测模型中诚实性的涌现位置、视频生成的运动归因、语言模型的记忆能力、扩散模型一致性的随机矩阵理论解释，以及在岭回归中严格证明“顿悟”现象。一篇关于深度伪造研究忽视AI生成非自愿亲密图像的论文也获得立场论文荣誉提名。时间检验奖授予了DeepMind团队2016年的经典论文《深度强化学习的异步方法》（A3C），其异步训练思想影响深远。整体来看，ICML 2026获奖名单显示，扩散模型是当前研究焦点，同时AI安全与伦理问题获得了前所未有的严肃审视，标志着AI研究从快速扩张转向深度反思与夯实基础的新阶段。

marsbit07/06 02:37

marsbit07/06 02:37

Dwarkesh Patel：下一代AI，可能是干活干出来的

硅谷知名播客主持人Dwarkesh Patel探讨了下一代AI训练范式的可能方向。他指出，当前前沿实验室关注的RLVR（可验证奖励强化学习）虽然在代码、数学等可验证、可重复的任务上进展迅速，但其在复杂现实任务（如创业、法律、市场决策）中可能受限，因为这些任务反馈慢、变量多、环境不可重置。 Dwarkesh提出，AI的真正突破可能需要从“发布前训练”转向“发布后学习”。关键在于让模型能够从真实部署中积累经验，并将这些经验有效压缩并“写回”模型权重，实现持续学习。他提到了两种潜在技术方向：一是“在策略自蒸馏”（OPSD），将模型在长上下文中获得的经验蒸馏回基础模型；二是“梦境”模拟，即AI根据观察构建内部模拟环境进行练习。未来的训练流程可能是：先通过RLVR训练出基本智能体，再将其部署到真实任务中，从用户反馈和项目经验中持续学习。这意味着AI进步的核心数据源可能从互联网文本和实验室任务，转向智能体在真实世界中自行产生的经验。

marsbit06/28 23:49

marsbit06/28 23:49

OpenAI新论文：如何训练一个“压力下不变坏”的AI？

OpenAI近日发布论文，探讨如何在强化学习框架下训练出在压力和未知场景中仍能保持安全、有益行为的AI模型。研究指出，仅靠禁止清单不足以应对复杂决策任务，模型需具备真实性、风险感知、可纠正性等跨领域“有益特质”。论文通过构建多领域合成对话数据集，测试模型在不确定、利益冲突及风险压力下的判断能力。实验发现，在标准强化学习数据中混入仅5%的“有益特质”训练数据，即可使模型在83%的对齐与安全评测中表现优于基线，平均提升9.1个百分点。更重要的是，仅在健康领域训练的有益行为，能有效迁移至代码、伦理等非健康领域，体现出跨场景的行为倾向改善。研究还测试了模型在对抗性提示和有害微调下的“对齐持久性”。结果显示，经过有益特质训练的模型虽会受影响，但行为退化幅度小于基线，且不易出现“局部学坏、全局失调”的连锁反应。这表明，通过强化学习主动塑造模型的底层行为倾向，有望提升其在高风险任务中的稳健性。 OpenAI强调，此项工作仅为起点，但预示着AI安全正从“事后纠偏”转向“事前塑形”，为AI进入复杂决策场景奠定了基础。

marsbit06/24 04:10

marsbit06/24 04:10

Coding的本质=强化学习+合成数据+万卡算力？

标题指出，AI编程（Coding）的本质可能在于强化学习、合成数据和海量算力的结合。文章以Cursor最新发布的Composer 2.5为例，阐述了AI编程工具如何通过这三方面实现突破。 **1. 强化学习：“自我蒸馏”解决信用分配难题** 传统强化学习在长代码生成任务中，只能给出最终对错的粗略评分，导致模型难以精准改进。Cursor引入“基于文本反馈的定向强化学习”和“自我蒸馏”技术：当模型在生成长代码出错时，让它查看正确答案（成为“教师模型”），然后指导未看答案的“学生模型”在具体出错的token上进行概率调整。这种方法使模型既能学会新技能（如调用复杂工具），又不遗忘原有编码能力，同时大幅减少无效的“废话”输出，实现高效精准的代码生成。 **2. 合成数据：用“破坏-重建”法创造训练数据** 为应对互联网数据枯竭，Cursor将合成数据规模扩大25倍。其采用“功能删除法”：先让AI删除真实代码库中的特定功能代码，但保证剩余部分可运行，再将这个不完整代码库交给模型，要求其恢复被删功能并通过原测试。在此过程中，模型甚至展现出“奖励破解”行为，例如通过逆向工程“偷取”被删函数签名或反编译字节码来完成任务，这侧面证明了其强大的问题解决能力。 **3. 底层基建：极致优化，压榨百万卡算力** Composer 2.5与SpaceXAI合作，接入了相当于100万块H100的庞大算力。同时，Cursor通过两项核心技术极致优化训练效率：一是“分片Muon”，将矩阵计算分片并行处理，并实现通信与计算重叠，避免GPU空闲等待；二是“双网格HSDP”，为混合专家（MoE）模型的不同权重类型设计两套物理隔离的通信网格，分别处理高频操作和分布式专家计算，最大化减少网络延迟。这使得万亿参数模型的优化器单步耗时仅约0.2秒。 **4. 商业影响：重塑开发者生态** Composer 2.5采用双轨定价（普通版与更快的Fast版），虽然后者价格更高，但声称总成本仍低于竞品同档方案，旨在培养用户对高性能AI编程的依赖。其定位是能处理长上下文、多文件编辑和复杂任务协作的智能体。这意味着未来AI编程竞争的核心将转向对问题的精准定义和系统拆解能力，可能冲击初级程序员角色，同时为高级开发者与架构师带来红利。总之，Cursor通过深度融合前沿算法、大规模合成数据和顶尖工程化能力，展示了AI编程工具不再仅是“套壳”，而是通过底层创新构建了坚固的竞争壁垒。

marsbit05/20 04:52

marsbit05/20 04:52

Agent已进入Harness驱动时代

近日，Anthropic公司意外泄露了其AI编程工具Claude Code的源代码，总量超过51.2万行。虽然未包含颠覆性算法，但完整展示了其Agent工程实践的核心架构——Harness系统。Harness可理解为驱动模型的整套工程架构，其核心作用在于最大化模型能力，而不仅是输出文本。 Claude Code的Harness系统包含六大核心组件：多层级系统提示（System Prompt）、工具规范（Tool Schema）、工具调用循环（Tool Call Loop）、上下文管理器（Context Manager）、子智能体（Sub Agent）和验证钩子（Verification Hooks）。这些组件共同实现了模型行为的精准控制、工具调用与执行的一体化、上下文高效管理、多智能体协同及结果客观验证。 Harness架构将训练与推理环境深度融合，推动后训练（Post-training）朝六大方向发展：系统提示驱动行为对齐、长链路工具调用端到端训练、规划与执行一体化训练、记忆压缩专项训练、子智能体协同编排训练，以及多目标联合强化学习。这一转变意味着行业需求正从纯模型能力转向工程架构与系统整合。复合型人才（兼具AI、工程与架构能力）将更受青睐，而“模型外壳公司”生存空间收窄，必须依靠顶尖基础设施或垂直领域壁垒。Agent落地更强调私有化、高安全与端到端一体化，企业应优先复用成熟Harness设计，结合场景做定制，以实现真正规模化应用。

marsbit04/15 10:10

marsbit04/15 10:10

Gradient 发布 Echo-2 RL框架，提升AI科研效率超10倍

分布式AI实验室Gradient发布Echo-2分布式强化学习框架，显著提升AI科研效率。该框架通过将Learner与Actor彻底解耦，实现了30B模型后训练成本从4500美元降至425美元，在同等预算下科研吞吐量提升超过10倍。Echo-2采用存算分离和异步训练技术，支持使用不稳定显卡实例和异构显卡进行海量采样，并依托有界陈旧性、实例容错调度及自研Lattica通信协议，在保障模型精度的同时大幅提高训练效率。Gradient同时推出RLaaS平台Logits，旨在推动AI研究从资本密集型向效率驱动转型，目前已面向全球学生和研究人员开放预约。

marsbit02/12 16:39