# 强化学习的所有文章

在 HTX 新闻中心浏览与「强化学习」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策,提供权威的加密行业洞察。

Coding的本质=强化学习+合成数据+万卡算力?

标题指出,AI编程(Coding)的本质可能在于强化学习、合成数据和海量算力的结合。文章以Cursor最新发布的Composer 2.5为例,阐述了AI编程工具如何通过这三方面实现突破。 **1. 强化学习:“自我蒸馏”解决信用分配难题** 传统强化学习在长代码生成任务中,只能给出最终对错的粗略评分,导致模型难以精准改进。Cursor引入“基于文本反馈的定向强化学习”和“自我蒸馏”技术:当模型在生成长代码出错时,让它查看正确答案(成为“教师模型”),然后指导未看答案的“学生模型”在具体出错的token上进行概率调整。这种方法使模型既能学会新技能(如调用复杂工具),又不遗忘原有编码能力,同时大幅减少无效的“废话”输出,实现高效精准的代码生成。 **2. 合成数据:用“破坏-重建”法创造训练数据** 为应对互联网数据枯竭,Cursor将合成数据规模扩大25倍。其采用“功能删除法”:先让AI删除真实代码库中的特定功能代码,但保证剩余部分可运行,再将这个不完整代码库交给模型,要求其恢复被删功能并通过原测试。在此过程中,模型甚至展现出“奖励破解”行为,例如通过逆向工程“偷取”被删函数签名或反编译字节码来完成任务,这侧面证明了其强大的问题解决能力。 **3. 底层基建:极致优化,压榨百万卡算力** Composer 2.5与SpaceXAI合作,接入了相当于100万块H100的庞大算力。同时,Cursor通过两项核心技术极致优化训练效率:一是“分片Muon”,将矩阵计算分片并行处理,并实现通信与计算重叠,避免GPU空闲等待;二是“双网格HSDP”,为混合专家(MoE)模型的不同权重类型设计两套物理隔离的通信网格,分别处理高频操作和分布式专家计算,最大化减少网络延迟。这使得万亿参数模型的优化器单步耗时仅约0.2秒。 **4. 商业影响:重塑开发者生态** Composer 2.5采用双轨定价(普通版与更快的Fast版),虽然后者价格更高,但声称总成本仍低于竞品同档方案,旨在培养用户对高性能AI编程的依赖。其定位是能处理长上下文、多文件编辑和复杂任务协作的智能体。这意味着未来AI编程竞争的核心将转向对问题的精准定义和系统拆解能力,可能冲击初级程序员角色,同时为高级开发者与架构师带来红利。 总之,Cursor通过深度融合前沿算法、大规模合成数据和顶尖工程化能力,展示了AI编程工具不再仅是“套壳”,而是通过底层创新构建了坚固的竞争壁垒。

marsbit05/20 04:52

Coding的本质=强化学习+合成数据+万卡算力?

marsbit05/20 04:52

Agent已进入Harness驱动时代

近日,Anthropic公司意外泄露了其AI编程工具Claude Code的源代码,总量超过51.2万行。虽然未包含颠覆性算法,但完整展示了其Agent工程实践的核心架构——Harness系统。Harness可理解为驱动模型的整套工程架构,其核心作用在于最大化模型能力,而不仅是输出文本。 Claude Code的Harness系统包含六大核心组件:多层级系统提示(System Prompt)、工具规范(Tool Schema)、工具调用循环(Tool Call Loop)、上下文管理器(Context Manager)、子智能体(Sub Agent)和验证钩子(Verification Hooks)。这些组件共同实现了模型行为的精准控制、工具调用与执行的一体化、上下文高效管理、多智能体协同及结果客观验证。 Harness架构将训练与推理环境深度融合,推动后训练(Post-training)朝六大方向发展:系统提示驱动行为对齐、长链路工具调用端到端训练、规划与执行一体化训练、记忆压缩专项训练、子智能体协同编排训练,以及多目标联合强化学习。 这一转变意味着行业需求正从纯模型能力转向工程架构与系统整合。复合型人才(兼具AI、工程与架构能力)将更受青睐,而“模型外壳公司”生存空间收窄,必须依靠顶尖基础设施或垂直领域壁垒。Agent落地更强调私有化、高安全与端到端一体化,企业应优先复用成熟Harness设计,结合场景做定制,以实现真正规模化应用。

marsbit04/15 10:10

Agent已进入Harness驱动时代

marsbit04/15 10:10

活动图片