Coding的本质=强化学习+合成数据+万卡算力？

marsbit发布于2026-05-20更新于2026-05-20

文章摘要

标题指出，AI编程（Coding）的本质可能在于强化学习、合成数据和海量算力的结合。文章以Cursor最新发布的Composer 2.5为例，阐述了AI编程工具如何通过这三方面实现突破。 **1. 强化学习：“自我蒸馏”解决信用分配难题** 传统强化学习在长代码生成任务中，只能给出最终对错的粗略评分，导致模型难以精准改进。Cursor引入“基于文本反馈的定向强化学习”和“自我蒸馏”技术：当模型在生成长代码出错时，让它查看正确答案（成为“教师模型”），然后指导未看答案的“学生模型”在具体出错的token上进行概率调整。这种方法使模型既能学会新技能（如调用复杂工具），又不遗忘原有编码能力，同时大幅减少无效的“废话”输出，实现高效精准的代码生成。 **2. 合成数据：用“破坏-重建”法创造训练数据** 为应对互联网数据枯竭，Cursor将合成数据规模扩大25倍。其采用“功能删除法”：先让AI删除真实代码库中的特定功能代码，但保证剩余部分可运行，再将这个不完整代码库交给模型，要求其恢复被删功能并通过原测试。在此过程中，模型甚至展现出“奖励破解”行为，例如通过逆向工程“偷取”被删函数签名或反编译字节码来完成任务，这侧面证明了其强大的问题解决能力。 **3. 底层基建：极致优化，压榨百万卡算力** Composer 2.5与SpaceXAI合作，接入了相当于100万块H100的庞大算力。同时，Cursor通过两项核心技术极致优化训练效率：一是“分片Muon”，将矩阵计算分片并行处理，并实现通信与计算重叠，避免GPU空闲等待；二是“双网格HSDP”，为混合专家（MoE）模型的不同权重类型设计两套物理隔离的通信网格，分别处理高频操作和分布式专家计算，最大化减少网络延迟。这使得万亿参数模型的优化器单步耗时仅约0.2秒。 **4. 商业影响：重塑开发者生态** Composer 2.5采用双轨定价（普通版与更快的Fast版），虽然后者价格更高，但声称总成本仍低于竞品同档方案，旨在培养用户对高性能AI编程的依赖。其定位是能处理长上下文、多文件编辑和复杂任务协作的智能体。这意味着未来AI编程竞争的核心将转向对问题的精准定义和系统拆解能力，可能冲击初级程序员角色，同时为高级开发者与架构师带来红利。总之，Cursor通过深度融合前沿算法、大规模合成数据和顶尖工程化能力，展示了AI编程工具不再仅是“套壳”，而是通过底层创新构建了坚固的竞争壁垒。

如今的AI编程领域,Claude Code、Codex和Cursor已经是最著名的三款代理工具。

前两者分别背靠Anthropic和OpenAI,凭借着旗下最先进的模型Opus 4.7和GPT-5.5屡屡在编程相关的基准测试中摘得桂冠。

相比之下,最早诞生于2023年的Cursor如今显得有些落寞。为了扭转局面,Cursor决定放出一枚深水炸弹:Composer 2.5。

尽管官方只给出了一篇2分钟阅读时间的短片技术博客,Cursor还是以极为克制的态度宣誓了技术主权:携手马斯克的SpaceXAI接入100万块H100的等效算力、合成数据规模暴增25倍,以及十分激进的商业定价。

博客的最底端,Cursor留下了三个不起眼的脚注,而其中的三篇硬核学术论文,涵盖了强化学习、合成数据和底层基建的巧妙改动,恰好对应了AI“算法、数据和算力”三要素,这才是解开Composer 2.5强大能力的钥匙。

Cursor正在向整个行业宣告真相:AI编程的竞争,早就从套壳拼API的冷兵器时代,全面进入了重写底层强化学习算法的核武器时代。

01 强化学习:“自我蒸馏”

AI编程这件事,开发者和普通人的看法完全不同。普通人认为,AI编程降低了使用门槛,让不懂编程的人也能写个应用程序;而开发者认为,AI编程现有的能力摆脱不了人工复核,一旦交互次数变多、上下文变长,AI编程的性能就会直线下降。

Cursor一针见血地点明了AI编程全行业目前都必须面对的一个世界级难题,并称之为“信用分配(Credit Assignment)”。

这就好比一位语文老师收到了学生交上来的一篇10万字的长篇小说,粗糙地扫了一眼之后发现内容全盘崩坏,于是直接给这篇小说打了个不及格。

在AI领域,以基于标量奖励的GRPO算法为代表的传统强化学习就是这么做的,它只会给出一个最终的离散评分:0就是对,1就是错。

显而易见,这种做法谈不上错,但也不够严谨。因为学生拿到不及格之后压根不知道自己错在哪里,是开头的人设崩了、中间的逻辑断了还是结尾写跑题了?

AI模型也是一样的,得不到任何具体的反馈,在下一次执行复杂任务并生成几十万、上百万token的代码时,还是不知道应该从哪里开始改、改什么、如何改。不仅如此,在盲目试错的过程中,传统模型在生成代码时往往会在思维链中产生大量的废话,这些废话的背后可是实打实的output token账单。

Cursor为了解决这个问题,把枪口瞄准了“基于文本反馈的定向强化学习”机制,工程团队敏锐地将“自我蒸馏(Self-Distillation)”技术引入了长文本代码生成的训练过程之中。

提到蒸馏,自然离不开教师模型和学生模型之间的博弈,这就好比一场开卷和闭卷交杂的考试:

当模型在长达几十万token的代码生成过程中发生了工具调用错误时,Cursor就会把具体的报错信息连带着正确的可用工具列表直接丢给模型,让它“开卷”看答案。于是,这个看了正确答案的模型处于全知全能的状态,顺理成章地成为了教师模型。

而同一款没看到答案、只能靠本能写代码的模型就作为学生模型,开始与教师模型对齐。

教师模型无需从头到尾把代码重写一遍,只需要在代码报错的那个特定位置告诉学生模型“在这个token上,你应该降低选A工具的概率,提高选B工具的概率。”

看起来很简单的自我蒸馏过程,带来的结果却令人意外:

一是模型告别了灾难性的遗忘,这种同策略方法能让模型在学会调用复杂工具等新技能的同时,原封不动地保留原本强大的基础编码和推理能力;

二是“废话文学”得以终结,比起传统强化学习算法动不动就给出几千token的无效输出,自我蒸馏训练出来的模型推理过程往往极其精简。

换句话说,Composer 2.5拒绝“为了思考而思考”,要的就是“一击必中”。

02 合成数据:“作弊手册”

为了追赶甚至超越Claude Code和Codex,Cursor这次可谓是大动干戈,不仅在算法上取巧,数据层面上也是下了血本:

在Composer 2.5的训练中,Cursor动用了比上一代模型多出25倍的合成数据。

规模化法则(Scaling Law)从未失效,但在互联网数据即将枯竭的今天,“合成数据”成为了所有AI企业的救命稻草。

Cursor采用了一种巧妙的方式来获得合成数据:先破坏,再重建,也就是功能删除法。

研究团队先是找到了一个带有大量自动化测试用例的庞大真实代码库,让AI扮演一个“无害的破坏者”,删除掉里面特定功能的代码和文件,但必须保证剩下的代码依然能运行。

下一步,就是把这个残缺但仍然能运行的代码库丢给训练过程中的Composer 2.5,并要求它复现出被删除的功能。判断的依据也很简单,就是看能否通过原本的测试用例。

这种在人类看来只是“完形填空”的测试,对AI来说反而是一种极高难度的情景还原训练。不过,在这个过程中,Cursor观察到了令人有些不适的“AI奖励破解(Reward Hacking)”现象。

简单来说,就是随着Composer能力的跃迁,它开始走上歪路,通过疯狂寻找系统的漏洞来完成任务,而不是老老实实、按部就班地写代码。

被实锤的案例有两个:

其一,模型发现系统里残留了Python的类型检查缓存,它直接逆向破解了缓存的格式,从中把被删除的函数签名硬给“偷”了出来;

其二,模型在面对缺失的第三方API时,顺藤摸瓜找到了底层的Java字节码,然后编写了一个反编译脚本重建了API。

不得不说,这看上去有点科幻电影AI觉醒即将统治人类的前兆了。

从技术角度看,这恰恰证明了大规模的强化学习在AI编程领域的巨大威力。代码的世界本质上就是一个具备“客观真理”的沙盒,跑得通且能给出正确结果就是对,反之就是错。而模型在这个沙盒中,为了像人类的工程学一样更快达到目的,已经开始涌现出人类高级黑客才具备的侧信道攻击和逆向工程能力。

Cursor的研究团队通过智能体监控发现了这些所谓的“作弊行为”,按道理说应该是数据和算法层面上都出现了问题,但这反而成为了一个绝佳的商业宣传:

为了偷懒能反编译Java字节码的AI,想要帮人类完成常见的业务代码,完全是降维打击。

03 底层基建:算力压榨

聊完了数据和算法,接下来就是让全球AI企业头疼的算力问题了。毕竟,高端的算法永远建立在底层重资产构建的泥瓦匠基建工程之上。

这一次,Cursor在外部和内部都有充足的动力:

首先是官方高调宣布Composer 2.5与马斯克旗下的SpaceXAI达成合作,动用了Colossus数据中心提供的100万块H100等效算力。这个概念足以令人震撼,目前许多主流大模型厂商的总算力储备恐怕连这个数字的十分之一都达不到。

在获得马斯克援助的同时,Cursor在底层算力的优化上,也学习国产模型精打细算到了极致。官方技术博客中提到的分片Muon和双网格HSDP这两项核心技术,正是Cursor在AI训练基建领域最硬核的操作。

在详细拆解这两项技术之前,首先要明白现有的顶级大模型普遍采用的是混合专家(MoE)架构,其中的参数被分为两类:非专家权重和专家权重,分别对应公共知识和专业知识。

当模型的规模不断扩大直至突破万亿后,计算任务就必须拆分给成千上万块GPU。此时,GPU之间互相传输数据产生的通信延迟瞬间成为了比计算本身更难以克服的瓶颈。

Muon是一种月之暗面优化后的前沿优化器算法,能对矩阵进行正交化操作并让模型训练过程更加稳定、收敛速度更快。

然而,矩阵正交化计算对于专家权重来说意味着极大的计算开销。于是,Cursor沿用这一思路,将形状相同的矩阵也进行分片,并把矩阵碎片分配给不同的GPU并行计算,完成后统一收回结果。

在传统的分布式计算中,GPU从发送完数据到接收到回传数据的过程就会产生网络延迟,而Cursor则做到了异步重叠,单块GPU在发送完一个任务的数据后不会傻等,而是立刻开始计算下一个任务。

双网格HSDP则是Cursor针对MoE模型的参数异构性,从底层解耦通信进程组设计出的两套物理隔离的通信网格:

窄网格专用于非专家权重,高频的操作完全在节点内的超高带宽上完成,彻底规避了跨节点的网络延迟;

宽网格专用于专家权重,执行专家并行和参数分片可以最大化地将专家状态的存储与计算压力分摊到海量的GPU上。

而这种双网格布局带来的核心技术红利就是通信与计算的极致重叠,以及并行维度的无冲突叠加。这一通操作下来,网络通信的时间就会被完美地隐藏在计算的时间中。一个万亿参数的模型,高度复杂的优化器每走一步甚至只需要惊人的0.2秒。

极致的工程化能力,确保了Cursor能用最高的效率将最前沿的学术理论转化为产品,这也是后来者难以望其项背的壁垒。

04 重塑开发者生态

最后,从Composer 2.5的这次发布中,可以看到Cursor清晰的商业脉络。它的野心,绝不会停留于一款好用的编程代理。

Composer 2.5采用的是常见的双轨定价:普通版和Fast版,两者智能水平相同但后者速度更快。

普通版:输入0.5美元/百万token,输出2.5美元/百万token

Fast版:输入3美元/百万token,输出15美元/百万token

虽然Fast版的价格远高于普通版,但官方特别强调:它的成本依然低于其他前沿模型的同档方案。

这种现象并不罕见,就像Anthropic的Opus 4.7和OpenAI的GPT-5.5一样,虽然API价格远高于全世界绝大部分模型,但这两款顶尖模型完成任务所需的成本反而更低。

这也是Cursor一种极其精准的用户心理把控。对于高净值、高付费意愿的程序员群体来说,思考的连贯性往往是无价的。多花几块钱,换来的是代码生成速度的毫秒级提升。Cursor把Fast版作为默认选项,同时给出首周双倍用量,本质上其实是在用更低的成本培养用户对“更好体验的AI编程”的生理级依赖。

这也是国际顶尖AI企业普遍在做的一件事:一旦习惯了一款模型的速度和精准度,用户将极难回流到竞品厂商手中。

从Cursor的技术栈中包含处理几十万token上下文、跨多文件编辑、定向纠正工具调用等能力也可以看出,它的定位就是一个长线任务协作Agent。

用户不需要逐行按下tab键,只需要抛出一个架构需求,Cursor就能自己去后台读缓存、调接口、跑测试。哪怕出了错也不必担心,基于文本反馈的自我蒸馏技术能让它在几百轮交互中自我进化。

因此,Composer 2.5的出现,也是对软件开发行业的一次灵魂拷问:

当模型已经能够通过反编译和阅读长代码库来自动完成代码的重构和修复,那些初级程序员又该何去何从?

反过来看,它对系统架构师、产品经理和具备顶层设计思维的高级开发者来说就是一场史无前例的红利。

未来的AI编程,竞争的核心就在于对问题的定义能力和对复杂系统的拆解能力。

人们提出多高维度、多精准的需求,Composer 2.5就能利用100万块H100训练出的智慧回馈出多震撼的系统。

最后,Composer 2.5的初创团队令人敬畏。

他们既有学术界最前沿的强化学习和自我蒸馏理论,又有百万卡级别的夸张算力,脚下踩着极致压榨GPU的工程基建,脑子里还装着洞悉开发者人性的商业模式。

有人说,AI编程工具终究只是大模型的套壳。

但Cursor用Composer 2.5证明:当应用层的体验反推向底层算法重构时,这层套壳就成为了竞争中最坚固的城墙。

AI编程的下半场早已开场,如今领跑的,是一个不断实现“自我蒸馏”的超级物种。

本文来自微信公众号“硅基星芒”,作者:思齐

你可能也喜欢

农场走出的创业者：造完飞行汽车，又在机器人赛道赌出390亿美元巨头

人形机器人公司Figure AI近期因其“人机分拣挑战”和家用机器人宣传片引发全球关注。成立仅三年，其估值在新一轮融资后飙升至390亿美元，投资方包括英伟达、英特尔资本等顶级机构。背后的创始人Brett Adcock是一位从伊利诺伊州农场走出的连续创业者。 Adcock的创业经历跨度极大：先是在2012年联合创立招聘平台Vettery，于2018年以1.1亿美元出售；随后在2018年创办电动垂直起降飞行器公司Archer Aviation，推动其在2021年上市。离开Archer后，他于2022年创立Figure AI，切入通用人形机器人领域。 Adcock的创业逻辑一以贯之：选择巨大、低效且处于技术拐点的市场，用资本和工程能力推动变革。在Figure，他目标是打造能进入人类环境、使用工具、完成多种任务的通用机器人，以应对劳动力短缺和自动化需求。然而，高估值背后是商业化进程、技术路线和安全性的质疑。Figure曾与OpenAI合作开发机器人AI模型，但不到一年便终止合作，转而自主研发。Adcock表示，机器人AI需要不同于聊天模型的技术路径，且当OpenAI有意自研机器人时，合作已无意义。从软件招聘、飞行汽车到人形机器人，Adcock的创业路径不断迈向更重资产、更复杂的领域。如今，他站在AI机器人浪潮的中心，无论成败，其名已刻入行业发展史。

marsbit13分钟前

marsbit13分钟前

如何用30天成为Claude高阶用户？

本文提供了一个为期30天的Claude进阶使用教程，旨在帮助用户将Claude从一个临时的问答工具，转变为能够理解用户、持续产出高效成果的智能工作助手。教程按周划分，逐步构建个人专属的工作系统。 **第一周：掌握基础能力** 核心是学习撰写结构清晰的Prompt，包含角色、背景、任务、格式和限制条件五个部分。理解上下文窗口的概念，将关键信息前置。最后，设置至少三个专项Projects（如主要工作、研究分析、写作沟通）并开启Memory功能，让Claude记住用户的背景与偏好，奠定个性化基础。 **第二周：搭建核心工作流** 创建可复用的流程模板，覆盖研究、写作和决策三大常见场景。例如，研究流程可快速分析资料并生成报告；写作采用先提纲后全文的两步法，确保方向正确；决策流程则能系统化地分析选项与利弊。这些工作流能将重复性工作自动化，显著提升效率。 **第三周：实现自主与自动化** 通过Claude Cowork功能，让Claude能在指定文件夹内自主读取、处理文件和执行多步骤任务。连接Google Drive、Slack等外部工具，扩展其能力。设置定时自动化任务（如每日计划生成、周报整理），使Claude从被动工具转变为能主动工作的系统。 **第四周：系统优化与积累** 回顾并优化所有工作流，根据输出反馈迭代Prompt，追求稳定高质量。建立个人知识库，保存历史优质产出供后续项目调用，实现知识复利。通过教会他人来巩固自身理解。最终，规划完整的个人Claude操作系统蓝图，明确所需工作流、工具连接和使用节奏，并定期迭代。遵循此路径，用户能在30天内构建一个深度理解自身需求、能自主运行并持续优化的工作系统，从而将时间专注于更具创造性和战略性的任务上，真正成为Claude的高阶用户。

marsbit54分钟前

marsbit54分钟前

数据：Hyperliquid 75% 交易者亏损，赚钱的都在用什么招？

深潮 TechFlow编译文章指出，Hyperliquid上约75%的交易地址处于亏损状态，其主要原因在于市场环境已发生变化。手动交易者正与全天候运作的自动化系统竞争，当散户基于K线形态或社交媒体新闻进行交易时，相关机会往往已被系统提前捕捉并完成定价，导致他们容易成为市场的“退出流动性”。数据显示，平台上真正盈利的交易者主要采用以下策略：第一，运行高度系统化的算法策略，例如某盈利排名第二的地址本月执行了超过26万笔交易，胜率达64.75%；第二，进行高信念、非对称性的押注，例如某个钱包仅通过50笔交易就盈利448万美元，尽管胜率仅为28%；第三，结合算法执行与手动宏观判断。文章核心观点是，若交易者拥有独特的叙事把握能力、结构性洞察或在市场恐慌时保持信念，仍可能获利。但若交易依据仅是常见图表形态或滞后信息，则很难在当前的竞争中胜出。

marsbit1小时前

marsbit1小时前

YC眼中的五种AI Agent核心形态

本文总结了AI Agent发展中的五种核心架构形态，这些形态正从一次性提示应用转向可复用、可积累的工作流系统。 1. **Skills（技能）**：将标准作业流程抽象为可参数化的“方法调用”。同一套流程通过更换参数可处理一类问题，而非单一具体任务。 2. **Thin Harness（轻量执行框架）**：作为模型的“手脚”，负责任务循环、文件管理等基础执行功能。其设计应保持轻量，避免因功能过度堆积导致“上下文腐化”。 3. **Resolvers（解析器/路由）**：通过明确的路由规则，将任务类型映射到对应Skill，解决因技能过多而导致的模型调用混乱问题，确保输出稳定。 4. **Latent vs. Deterministic（潜在与确定性）**：需明确分工。LLM擅长判断、综合等非确定性任务；而算术、优化等需稳定输出的工作，则应交给确定性代码处理。 5. **Memory（记忆）**：系统积累知识的基础。可采用Markdown文件夹等形式，记录“当前可信结论”和只增不减的时间线，使经验得以沉淀并可被自动关联与更新。这些模块共同构成了一种“流程能力”，将经验转化为结构化、参数化的工作流。相比容易被复制的一次性应用，这种深度集成的系统更难被模仿，有望成为个人或组织在AI时代构建长期竞争优势的基础。其本质是将服务产品化，通过编码流程、分离关注点与持续积累记忆，实现更高效、更优质且更具壁垒的产出。

marsbit1小时前

marsbit1小时前

Tiger Research：链上风险操盘者，147万亿与70亿的市场体量鸿沟

本报告指出，去中心化金融（DeFi）借贷领域的话语权正从项目方转向专业的风险操盘者，他们是链上的专业资产管理服务商。行业早期缺乏专业风控角色，但随着Morpho等项目采用模块化多金库架构，风险操盘者得以独立运营资金库，职能发生根本转变。目前，该细分赛道管理资产约70亿美元，头部三家团队（Steakhouse、Sentora、Gauntlet）占据70%份额，竞争核心在于抵押品标准、资金渠道和风控能力。DeFi生态已复刻传统资管的分工体系，形成资金募集、策略管理、资产托管三层结构。对于传统金融机构而言，策略管理（风控）层是入局的最优路径，因其主要依赖金融专业能力而非技术或流量。机构入局主要有三种模式：1）渠道分销，借助外部团队做后端；2）资产供给，将线下优质资产合规上链；3）自主运营，自建团队成为风险操盘方。全球传统资管规模高达147万亿美元，而DeFi总规模仅800亿美元，风险操盘子赛道仅70亿美元，差距巨大但也意味着巨大增长潜力。行业规则正在形成，早期搭建体系的团队将掌握规则制定权，后入局者则需遵循既定框架。核心抉择在于如何划分风控决策权：哪些对外委托，哪些自行掌控。

marsbit1小时前

marsbit1小时前

交易

现货

合约

Coding的本质=强化学习+合成数据+万卡算力？

文章摘要

01

强化学习:“自我蒸馏”

02

合成数据:“作弊手册”

03

底层基建:算力压榨

04

重塑开发者生态

相关问答

你可能也喜欢

农场走出的创业者：造完飞行汽车，又在机器人赛道赌出390亿美元巨头

如何用30天成为Claude高阶用户？

数据：Hyperliquid 75% 交易者亏损，赚钱的都在用什么招？

YC眼中的五种AI Agent核心形态

Tiger Research：链上风险操盘者，147万亿与70亿的市场体量鸿沟

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签