Anthropic警告的递归AI，田渊栋新公司刚刚走出了「第一步」

marsbit发布于2026-06-12更新于2026-06-12

文章摘要

近日，Anthropic发布文章披露，其代码库超过80%由AI撰写，并警告AI“递归自我改进”（即AI自主设计、训练后续版本）可能带来风险，呼吁行业建立暂停机制。与此同时，由田渊栋等人联合创立的新公司Recursive Superintelligence结束了隐身状态，发布了其首项公开技术成果——“迈向自动化AI研究的第一步”。该系统旨在将传统AI研究中“提出想法-编写代码-运行实验-分析结果”的人工闭环自动化。它能够针对给定目标自动生成实验思路、实现代码、运行验证并从中学习，从而自主推进研究进程，并内置了防止“奖励作弊”的机制。 Recursive在三个差异显著的基准测试中取得了领先结果： 1. **小模型训练优化**：在固定计算预算下，将模型验证损失进一步降低，相当于以更少时间达到同等效果。 2. **训练速度竞速**：在社区持续优化两年的基准上，将训练时间从79.7秒缩短至77.5秒，核心改进包括在注意力层使用FP8计算、为优化器添加退火噪声等。 3. **GPU内核优化**：在英伟达的底层计算内核基准测试中，将整体得分提升至0.754，缩小了与硬件理论极限的差距，而这些优化策略并非来自团队的专业知识，而是由系统自主发现。 Recursive团队阵容强大，已获得巨额融资，其目标是构建能够递归提升自身研发能力的AI系统。这与Anthropic的警告形成了微妙对比：一方正在实践AI加速AI研发的路径，另一方则呼吁为可能到来的“递归自我改进”时刻做好风险管控准备。当前成果虽仅是迈向自动化研究的初步尝试，但标志着一个能够自我增强的AI研发新范式已开始运转。

前些天,Anthropic 发布了一篇题为「When AI Builds Itself」(当 AI 构建自身)的文章,迅速引发广泛讨论。文章揭示了一组令人侧目的内部数据:截至 2026 年 5 月,Anthropic 代码库中超过 80%的代码已由 Claude 撰写,工程师每日合并的代码量是 2024 年的 8 倍;在一项内部测试中,Claude 将一段训练代码的运行速度从基准提升了约 52 倍,而一名有经验的人类研究员通常需要 4 到 8 小时才能达到 4 倍加速。

Anthropic 将这条轨迹指向一个更深的目的地:「递归自我改进」——AI 系统自主设计、构建和训练自身后继版本,人类不再驱动每一步。值得关注的是,该公司还呼吁行业协调,在递归自我改进时刻到来时拥有暂缓乃至临时叫停前沿 AI 开发的选项。并且 Anthropic 已经在这么做了:限制最新的 Claude Fable 5 被用于研发前沿 AI。

而现在,Recursive Superintelligence 宣布向自动化 AI 研究走出了第一步。

这家由田渊栋联合创立的新公司刚刚结束隐身状态仅一个月,如今就发布了第一项公开技术成果。他们打造了一个开放式的自动化知识发现系统,并在三个基准测试上取得了 SOTA 结果。简单来说,他们成功做到了让 AI 替你跑实验。

https://x.com/tydsh/status/2065062838255649082

第一步成果:让 AI 替你跑实验

Recursive 这第一项公开技术成果名为「First Steps Toward Automated AI Research」(迈向自动化 AI 研究的第一步)。

推文:https://x.com/Recursive_SI/status/2064980090702962699

仓库地址:https://github.com/recursive-org/first-steps-toward-automated-ai-research

博客地址:https://www.recursive.com/articles/first-steps-toward-automated-ai-research

如果用一句话概括,这项工作的核心是:构建了一套能自主推进 AI 研究循环的系统,并在三个基准测试上刷新了最好成绩。

在正式拆解成果之前,有必要先理解这套系统的设计逻辑。

传统的 AI 研究流程是一个高度依赖人的「提想法—写代码—跑实验—分析结果—再提想法」的闭环。它的效率瓶颈不在算力,而在人。全世界能设计前沿训练流程的研究员屈指可数,而每一轮实验迭代都需要他们高度介入。

Recursive 的系统试图把这个闭环自动化。

它的工作方式是:针对一个明确的优化目标,系统自动提出实验想法、实现代码、运行验证、从中学习,然后决定下一步怎么搜索。多条研究线路可以并行推进,有效的发现可以被跨任务复用,奖励作弊(reward hacking)的检测机制也被内嵌进整个循环,防止系统「走捷径」把测评指标刷上去却没有真正改进任何东西。

这并非一个针对单一问题微调的专用工具,乃是一套跨领域的通用研究自动化框架。 Recursive 用三个差异显著的测试场景来证明这一点。

三个战场,三个新纪录

场景一:固定计算预算下的小模型训练(NanoChat Autoresearch)

这项基准测试的规则来自 Andrej Karpathy(GPT-2 作者、前 OpenAI 联创)发起的 autoresearch 项目:在一块 GPU 上,给定五分钟的固定训练预算,尽可能把一个小型语言模型训到最低的验证损失(以 BPB 衡量,越低越好)。

这个场景天然适合自动化研究:实验周期短、指标方差低、作弊行为相对容易检测。正因如此,一个名为「autoresearch@home」的社区项目已经在这个基准上运行了很长时间——数十名人类研究员加上数百个 AI 智能体协作,持续把指标往下压。

Recursive 的系统以相同的初始代码出发,最终把验证 BPB 从社区最佳的 0.9372 推进到了 0.9109,改善了 0.0263 个 BPB。换算成另一种说法:同样的训练质量,Recursive 的方案只需要对手 1.3 倍少的训练时间就能达到。

系统发现的改进并非一招制胜。它组合了架构调整、辅助损失、注意力机制改动、优化器行为、权重衰减调度、编译器设置等多处变化。其中最关键的一个发现,是一种更丰富的短上下文记忆机制:在注意力的 value 路径中,通过哈希表同时嵌入 bigram(相邻词对)和 trigram(三元组)信息,并用可学习的门控加权混合。不同的 Transformer 层使用不同的哈希函数,从而降低跨层重复碰撞的概率。

这个技巧在概念上与 DeepSeek Engram 等工作有所关联,但系统将其以一种尚未见于公开文献的特定变体形式部署到了固定预算场景中。

场景二:训练速度极限竞速(NanoGPT Speedrun)

如果说前一个场景是在一个活跃社区的成果上「再进一步」,这个场景则难得多。

NanoGPT Speedrun 是另一个由 Karpathy 发起、社区持续优化两年以上的基准:在 8 块 H100 GPU 上,把一个 GPT 模型训练到验证损失 3.28 所需的最短时间。自 2024 年中以来,社区已通过 83 次有记录的贡献把时间从约 45 分钟压缩到了 79.7 秒。每一个新方案都需要在极度优化的代码基础上再挤出时间,难度可想而知。

Recursive 的系统从现有最优解出发,再次把训练时间压缩到了 77.5 秒,节省了 2.2 秒。这与近期人类贡献者能做到的改进幅度相当甚至更好。

系统这次找到的核心技巧包括:

FP8 精度的注意力计算。社区方案只在模型的最后一层(语言模型头)使用 FP8(8 位浮点)计算,而系统将 FP8 延伸进了注意力层的矩阵运算,前向传播用 FP8 以获得两倍的 Tensor Core 吞吐量,反向传播保留 BF16 以维持稳定性。

优化器中的退火探索噪声。系统在 NorMuon 优化器的更新步骤中注入了零均值高斯噪声,噪声幅度随训练进度线性退火至零。这有点像给优化器一个「先大胆探索、再稳健收敛」的行为模式,帮助最终解落在一个更平坦的损失盆地中。

更精简的融合 MLP 内核。系统重写了一个 Triton GPU 内核,让前向传播只存储 ReLU 平方后的激活值,反向传播时在内核内部重算未平方的中间结果,省去了一次完整的激活张量在高带宽显存中的读写往返——这是硬件层面的直接提速。

三个改进,分属精度策略、优化器设计、GPU 内核编程三个不同的专业领域。系统在两年社区优化的结果上又找到了空间,本身就说明了问题。

场景三:GPU 内核优化(SOL-ExecBench)

前两个场景都在模型训练层面上工作,第三个场景则深入到更底层:GPU 计算内核的优化。

SOL-ExecBench 是英伟达推出的基准测试,包含 235 个内核编写任务,覆盖矩阵乘法、归约、归一化层、注意力组件、量化例程、融合块等多类真实工作负载。评分标准是 SOL 分数:0.5 对应基准 PyTorch 实现,1.0 对应硬件理论极限。此前的最佳公开成绩是 0.699。

Recursive 的系统在 235 个内核上整体运行,允许跨任务复用发现的优化模式(例如内存搬运策略、分块方式、规约技巧),最终得分提升到了 0.754,将距离硬件极限的差距缩小了 18%。

这个场景意义特殊,因为内核工程是极高度专业化的领域——能写出高效 Triton/CUDA 内核的工程师在全球也是凤毛麟角。而 Recursive 团队在博客中坦承,他们自己也不是内核领域的专家,「这些想法来自系统本身,而不是来自我们的专业背景。」

Recursive:用 AI 研究递归改进 AI

发布这项成果的公司 Recursive Superintelligence 成立于 2025 年底至 2026 年初,上个月刚刚结束隐身状态,创始成员除了前 Meta FAIR 研究科学家总监田渊栋之外,还包括:

Richard Socher,Recursive CEO,前 Salesforce 首席科学家

Alexey Dosovitskiy,前 Google DeepMind 研究科学家和 Vision Transformer 第一作者,谷歌学术引用量超过 16 万

Tim Rocktäschel,前 DeepMind Principal 科学家和 UCL 人工智能教授

Peter Norvig,谷歌前研究总监,与 Stuart Russell 合著了 AI 领域著名教科书《人工智能:一种现代方法》

Caiming Xiong,前 Salesforce AI 副总裁

Tim Shi,前 OpenAI 研究员,企业 AI 公司 Cresta 联合创始人兼 CTO

Josh Tobin,Recursive CTO,前 OpenAI 与 Uber ATG 研究负责人

Jeff Clune,前 Google DeepMind 研究副总裁,加拿大不列颠哥伦比亚大学计算机科学教授

并且该创业公司一亮相,甚至还没有一个公开产品,就已手握 6.5 亿美元融资,估值高达 46.5 亿美元,由 GV(谷歌风投)和 Greycroft 领投,英伟达和 AMD Ventures 跟投。

公司的核心主张与名字直接对应:构建能够递归地提升自身研究能力的 AI 系统,让 AI 参与并加速 AI 本身的研发过程,最终形成持续自我增强的闭环。

更多详情,参阅报道《离开 Meta 后,田渊栋刚刚官宣创业了》。

当然,在赛道层面,Recursive 并不孤单。Yann LeCun 的 AMI Labs 在今年 3 月完成 10 亿美元融资,David Silver 的 Ineffable Intelligence 在 4 月拿下 11 亿美元种子轮,都指向相似的方向:让 AI 系统自主生成知识,减少人类在研究流程中的介入。但在公开成果的节奏上,Recursive 的这份「第一步」应该是目前同类公司中最具体、最可复现的技术展示之一。

递归范式的黎明

Recursive 发布的这份成果,放在更宏观的行业背景下,代表着一种新型 AI 研发范式的初步落地:让 AI 系统本身承担研究的主体角色。

这种「递归式 AI」的核心逻辑并不复杂:AI 提升 AI 研究能力,改进后的 AI 又能更有效地提升自身,周而复始。它不依赖某个单一突破,而是依赖一个持续生成突破的系统。

这种思路对 AI 研究本身的经济学具有重要意义。前沿模型的训练流程仍然高度依赖少数具备特定技能的研究员,而能胜任这项工作的人全球不超过几千个。如果自动化研究系统能接管其中哪怕一部分工作,AI 进步的速度与成本曲线都会发生变化。

这一判断也与行业最近发出的其他声音形成了呼应。比如本文开头提到的 Anthropic 的《When AI Builds Itself》,语气并不轻松——它呼吁行业协调,在递归自我改进时刻到来时拥有暂缓乃至临时叫停前沿 AI 开发的选项,以留出时间让社会结构和对齐研究跟上节奏。更多详情请参阅《AI 自进化过快,Anthropic 呼吁全球中止研发》。

https://www.anthropic.com/institute/recursive-self-improvement

两件事同时发生,耐人寻味。一边是 Anthropic 在记录和警示这条轨迹的走向,另一边是 Recursive 这样的团队,正在一步一步地让这条轨迹变成现实。

当然,Recursive 自己也承认,这仍是「第一步」:当前系统在指标明确、反馈快速、作弊可检测的场景下效果最好,距离自主推进开放性科学问题还有相当距离。奖励作弊的防控将是规模化路上持续面对的核心挑战。

但一个闭环已经开始运转。接下来的问题,只是它会转得多快。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:递归进化中的机器之心,编辑:Panda

你可能也喜欢

速汇金：我们为何推出自有稳定币？

全球跨境汇款巨头速汇金推出自有稳定币MGUSD，旨在服务其庞大的现有用户网络，解决无银行账户或银行服务不足人群的真实痛点。MGUSD并非意在争夺主流稳定币的市场份额，而是作为速汇金战略升级的一部分，为用户提供一个稳定持有美元余额的渠道，并与其全球汇款、现金支取、消费支付等成熟服务网络无缝对接。文章指出，速汇金拥有超过八十年的历史和海量跨境汇款用户，无需从零教育市场。MGUSD基于Stellar区块链和自托管钱包架构，让用户能自主掌控资产，进行安全的价值储存和便捷流转，同时享受速汇金线上线下结合的网络优势，实现数字余额与现金、本地货币的灵活转换。该产品在设计之初即深度融合了KYC、反洗钱等全球合规要求。此外，MGUSD的推出也推动了速汇金内部基础设施的现代化与运营模式革新。公司通过组织架构扁平化、组建跨职能团队，以初创企业的速度在约一年内完成了产品落地。稳定币技术已整合进公司财资管理体系，用于提升全球资金结算与流动性管理效率，年化外汇交易规模已达20亿美元。速汇金强调，其商业模式坚持开放合作，在优化直接用户体验的同时，致力于成为合作伙伴更优质的结算与服务通道。MGUSD的核心目标是通过可信赖的成熟网络，为用户提供更完善、可控的金融资产存储与使用方案。

Foresight News21分钟前

Foresight News21分钟前

Michael Saylor在BTC布拉格大会上澄清MicroStrategy的比特币出售政策

微策略（Strategy）联合创始人兼CEO Michael Saylor在BTC Prague会议上澄清了公司的比特币出售政策。针对近期公司出售32枚比特币引发的讨论，Saylor强调，他个人从未说过公司不会出售比特币，其个人建议“永不卖出你的比特币”是针对个人投资者，而非公司财务策略。他表示，微策略在过去五年的财报电话会议和公开披露中一直明确，公司必要时绝对会出售比特币。 Saylor指出，上市公司管理企业资产时需要保持流动性，这与个人长期投资建议不同。他回应了社交媒体上的批评，称不能依据网络言论来运营公司，并反问是否应为了让“永不售出”的叙事成立而让一家千亿美元公司破产。分析师认为，此次澄清符合微策略一贯披露的信息，并凸显了企业财务决策需基于商业考量。微策略作为持有比特币最多的上市公司之一，其比特币策略和Saylor的言论持续受到市场和加密社区的高度关注。

TheNewsCrypto52分钟前

Michael Saylor在BTC布拉格大会上澄清MicroStrategy的比特币出售政策

TheNewsCrypto52分钟前

BIP-110 争议升温：比特币或将迎来多年来最具分歧硬分叉之战

比特币网络正面临一场关键治理冲突，核心是BIP-110提案。该提案计划在区块高度达到961632时，限制交易中可承载的非金融数据（如铭文、符文等应用数据），旨在让比特币回归结算核心职能，缓解网络负担。支持者认为此举是维护比特币作为稳健货币的关键，反对者则警告其激进执行机制（仅需55%矿工支持并可强制节点执行）极易导致主链分裂，破坏协议中立性，并可能开创危险先例。尽管市场分析普遍认为提案因缺乏广泛共识而大概率激活失败，最坏情况也仅产生小众分叉链，但围绕该提案的路线之争已升级为高风险对峙。若冲突持续，可能导致交易所暂停充提等防御措施，引发市场短期波动，并对行业基础设施形成压力测试。

Foresight News58分钟前

Foresight News58分钟前

NEAR 要发 33 万枚代币空投，赌 TVL 上 7000 万美元

NEAR Protocol于6月11日推出“Near@3.33”里程碑激励计划，针对其Confidential Intents（保密意图）隐私跨链功能的用户。该计划规定，当Confidential Intents的总锁仓价值（TVL）达到7000万美元时，将进行快照并分发首轮333,333枚里程碑代币。要获得空投资格，用户需在平台上使用过Confidential交易，且Confidential余额需保持高于100美元。用户的持仓与交易活动将影响最终分配比例，单个钱包最高可获得空投池的2%。目前该功能TVL已超2000万美元，距离触发目标还需增长约3倍。获得的里程碑代币将被锁定，无法出售或转移。只有当NEAR代币的成交量加权平均价格连续三个交易日维持在3.33美元或以上时，这些里程碑代币才能按1:1兑换为NEAR代币。官方表示后续还将推出多轮激励计划。 Confidential Intents是NEAR的隐私执行层，旨在通过可信执行环境等技术，为用户提供跨链交易时的隐私保护，避免MEV、前置交易等风险。自2月上线以来，其TVL已增长至约1500万美元。分析认为，在AI与隐私叙事推动下，其TVL有望在下半年达到空投触发门槛。

Foresight News2小时前

Foresight News2小时前

加密做市商集体求变，钱越来越不好赚了

今年以来，老牌加密做市商GSR动作频繁，先后收购美国SEC注册券商、收购代币咨询公司、联合推出加密ETF、引入渣打银行战略投资，并投资代币化平台。其CEO早在2025年就将公司定位为“加密资本市场平台”，并致力于向“Web3投资银行”转型。GSR通过获取牌照、收购和投资，试图整合代币从设计、融资、上市到流动性管理的全链条服务，并拓展至资产管理和ETF等新领域。 GSR的转型是加密做市商集体求变的缩影。过去一年，Keyrock、B2C2、Wintermute、DWF Labs等头部做市商也在强化合规牌照，并向OTC、资产管理、代币化资产等业务延伸。背后的驱动力是行业竞争加剧、利润变薄：市场走熊导致项目做市预算减少，优质项目有限而做市商增多，合规要求趋严，风险事件频发。加密做市正从依赖信息差和波动的交易业务，转向一个被合规、客户结构和资产形态重塑的机构化行业。

链捕手2小时前

链捕手2小时前

交易

现货

合约

Anthropic警告的递归AI，田渊栋新公司刚刚走出了「第一步」

文章摘要

第一步成果:让 AI 替你跑实验

三个战场,三个新纪录

Recursive:用 AI 研究递归改进 AI

递归范式的黎明

相关问答

你可能也喜欢

速汇金：我们为何推出自有稳定币？

Michael Saylor在BTC布拉格大会上澄清MicroStrategy的比特币出售政策

BIP-110 争议升温：比特币或将迎来多年来最具分歧硬分叉之战

NEAR 要发 33 万枚代币空投，赌 TVL 上 7000 万美元

加密做市商集体求变，钱越来越不好赚了

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签

Anthropic警告的递归AI，田渊栋新公司刚刚走出了「第一步」

文章摘要

第一步成果:让 AI 替你跑实验

三个战场,三个新纪录

Recursive:用 AI 研究递归改进 AI

递归范式的黎明

相关问答

你可能也喜欢

速汇金：我们为何推出自有稳定币？

Michael Saylor在BTC布拉格大会上澄清MicroStrategy的比特币出售政策

BIP-110 争议升温：比特币或将迎来多年来最具分歧硬分叉之战

NEAR 要发 33 万枚代币空投， 赌 TVL 上 7000 万美元

加密做市商集体求变，钱越来越不好赚了

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签

NEAR 要发 33 万枚代币空投，赌 TVL 上 7000 万美元