突发！Anthropic呼吁全员停止AI研究

marsbit发布于2026-06-05更新于2026-06-05

文章摘要

人工智能公司Anthropic在其官方博客中发布重要观点，指出其AI模型Claude已展现出显著的“自进化”能力，即递归自我提升（RSI）的早期迹象。核心数据显示，截至2026年5月，Anthropic代码库中超过80%的代码由Claude编写，而在其代码工具发布前，这一比例仅为个位数。工程师的代码交付量达到2024年的8倍。在编程质量上，Claude处理最复杂模糊任务的成功率在半年内从26%跃升至76%，其代码质量被认为年内有望超越人类。 Anthropic提出了“AI能独立完成的任务时长”这一新衡量维度：从2024年3月的4分钟，增至2025年的1.5小时，再到2026年的至少16小时，翻倍速度已加快至每4个月一次。若趋势持续，2027年可能达到数周。在研究层面，Claude展现强大能力：将训练小模型的代码运行速度优化了52倍，远超人类水平；在一项AI安全研究中，其将效果差距缩小了97%，而人类研究员仅缩小23%。 Anthropic认为，人类在AI开发中的角色正不断收窄，最后优势可能仅剩研究品味与方向判断。公司描绘了三种未来：能力增长停滞；AI加速但人类主导；或AI实现完全递归自我提升，自主设计下一代AI，这可能带来巨大福祉，但也存在对齐失败、最终失控的风险。为此，Anthropic呼吁，如果存在可验证的机制确保全球AI实验室能同步暂停竞争，其愿意减速甚至暂停研发。OpenAI近期也发表了类似观点，认为自进化迹象将加剧竞争与治理挑战。这表明AI发展的“奇点”可能正在加速逼近。

Jay 发自凹非寺量子位 | 公众号 QbitAI

重要发现:AI的自进化,开始了。

这是Anthropic刚刚在长文博客中,发表的暴论。

我们的内部数据显示,Claude正在加速AI发展,这可能是一条递归自我提升(RSI)的路径。

并非「危言耸听」,看了下文章,Anthropic是真的实打实地用数据在说话——

截止今年5月,80%以上的Anthropic代码,都是Claude写的。

而在Claude Code发布之前,这个数字还仅是个位数。

与此同时,Anthropic工程师平均每季度交付的代码量,是2021-2025年的8倍。

更重要的是质量——

在最开放、最模糊、连答案长什么样都不确定的编程任务上,Claude的成功率现在是76%,六个月前才26%。

50个百分点的跳升。半年。

Anthropic内部已经有不少工程师觉得,Claude写的代码质量和人类打平了。

预计年内会超过。

Anthropic还强调,如果这个趋势持续下去,AI自己设计和构建下一代AI,是完全可能的。

这可能彻底改变社会,在医疗、科技、经济领域带来巨大的好处。但也可能让对齐问题叠加恶化,最终导致失控。

因此,Anthropic带头呼吁:

如果存在一个可验证的机制,能保证AI实验室确实都没偷偷卷,我们愿意减速、甚至暂停。

除此之外,Anthropic的这篇博客里,还放出了蛮多有意思的观点和事实。

以下是经过整理,更方便大家阅读的版本。

Enjoy。

Anthropic长文定调

AI圈的摩尔定律来了

Anthropic创建了个全新的衡量维度,叫「AI能独立完成的任务时长」。

2024年3月,Claude Opus 3能搞定人类大概需要4分钟的软件任务。

一年后,Claude Sonnet 3.7,1.5小时。

又一年,Claude Opus 4.6,12小时。

而最新的Mythos,在内测中的表现是:

能连续工作「至少」16小时,已经到了METR测试框架能衡量的上限了。

这个翻倍速度,从原来的每7个月翻一倍,加速到了每4个月翻一倍。

如果趋势不变,2027年,可能是好几周。

Claude编写了大部分Anthropic代码

截至2026年5月,我Anthropic代码库的代码,超过80%由Claude编写。

在Claude Code发布前,这个数字一直只有个位数。

这种变化,也体现在工程师的工作方式上。

在 Anthropic 的最初四年,工程师每天Merge的代码行数基本保持不变。

2025年, Claude开始自己写代码,merge数突然开始飙升。

如今,2026年第二季度,工程师每天merge的代码量是2024年的8倍。

不过,代码量上去了,代码质量是不是注水了?

Anthropic说,这一年来,工程师纠正Claude的次数,越来越少了。

这一点,在benchmark中可见一斑,如下图所示。

所有难度类型的任务中,Claude的成功率,无一例外的一路暴增。

所以,Anthropic现在干脆用Claude来review代码。

是的,所有提交到代码库的改动,都会先过一遍Claude自动审查,检查bug、安全漏洞和其他缺陷。

他们回溯分析发现,如果之前每次改动都有这道自动审查,大约三分之一导致claude.ai线上事故的bug,上线之前就会被拦下来。

要知道,写那些代码的工程师,已经是全世界造AI系统最顶尖的一批人了。

Claude在抓他们的错误。

创造力的放大镜

接下来是Claude在研究层面的参与程度。

Anthropic有个惯例,每次发新模型,都会给Claude一段训练小型AI模型的代码,让它在保证正确性的前提下,把运行速度优化到最快。

2025年5月,Claude Opus 4交出的答案是:加速3倍。

2026年4月,Claude Mythos Preview做到了52倍。

作为参考,一个熟练的人类研究员,需要4到8个小时才能勉强达到4倍。

不到一年的时间,Claude超过了人类。

2026年4月,Anthropic丢给Claude一个AI安全研究,大意是「一个弱模型能不能可靠地监督一个强模型」,然后让Claude自己提假设、跑实验......

这次先说人类的表现吧,两个人类研究员花了大约一周时间,把gap缩小了23%。

而Claude,在大约800小时、花了大约18000美元的算力之后——

缩小了97%。

我们何去何从?

到这里为止,结论已经很清楚了。

人类在AI开发流程里的角色,每一个环节都在收窄。

代码,Claude写了。代码review,Claude做了。实验执行,Claude快了人类一个数量级。实验设计,Claude开始自己来了......

人类现在最后的比较优势,是研究品味和判断力。

但这个优势能守多久?

Anthropic在博客里说,他们也不确定。

一种可能是,「研究品味」就像之前AI不会的其他东西一样,先是做不到,然后突然就做到了。

就像AI理解幽默、展示心智理论、解语言谜题,都经历了同样的曲线。

另一种可能是,即便Claude永远学不会真正的研究品味,仅靠现在的加速趋势,每个人类研究员能同时指挥的工作量已经大了好几倍。

你不需要AI完全替代你思考,它只要把所有「执行」的活全干了,你就只需要做那5%的方向选择。

RSI的三种未来

博客结尾,Anthropic描绘了关于这次「自进化」趋势三个可能演化方向。

1、停滞。

那些指数曲线其实是S曲线。

也许研究判断力这个东西就是没法靠scale解决,需要一种全新的架构突破。

或者,瓶颈在能源、在芯片、在算力的物理供应链上。

不过,即便AI的能力就停滞在今天的水平,也会发生对世界带来重大变化。

前段时间的Project Glasswing,Mythos Preview在上线头几周就发现了超过一万个高危和严重级别的软件漏洞,遍布全球最关键的系统。

2、AI持续加速,但人类仍然把着方向盘。

组织效率会指数级提升,100人的公司做1万甚至10万人的活。知

Anthropic觉得我们大概率正在走进这个场景。

但他们也发现了一个有意思的现象,就是阿姆达尔定律在组织里的体现_

Claude把代码写得飞快了,结果代码review变成了新瓶颈。各种新想法、新工具、新实验爆炸式涌现,远超组织的消化能力。

瓶颈不会消失,只是转移到下一个环节。

3、AI实现完全的递归自我提升,开始自己造下一代自己。

这个场景下,AI的发展速度完全取决于算力了。人类退到监督、验证、审核的位置。

如果真的发生,这种能力大概率会迁移到其他科学领域,医学、材料、能源,全线起飞。

当然,另一种未来,是对齐失败。

这种情况下,偏差会在AI自我迭代的过程中逐步累积,最终——完全失控。

OMT

以上,便是Anthropic此次关于自进化,最关键的几个观点。

说实话,最开始我其实没太当回事,毕竟Anthropic马上就要IPO了,这一波不是典型的「Anthropic式」公关?

你别说,这次,可能真的有点不一样。

因为就在几天前,OpenAI也发布了类似的博客:

我们也在当今系统中看到自进化的早期迹象: AI的发展本身也被AI加速。我们预计这将加剧开发商和国家之间的竞争压力,并带来现有机构无法应对的治理挑战。随着RSI的出现,社会需要方法塑造AI的发展轨迹 ,确保其服务于人类利益。

奇点,似乎来得比所有人预想的都要快。

博客:https://www.anthropic.com/institute/recursive-self-improvement

参考链接:[1]https://x.com/kimmonismus/status/2062517474277675102[2]https://x.com/anthropicai/status/2062568873321513443

本文来自微信公众号“量子位”,作者:关注前沿科技

你可能也喜欢

被误伤的A股：韧性、预期与底气

本文探讨了近期A股市场，尤其是科技板块的调整。文章指出，7月以来全球科技股转弱，韩国存储龙头遭遇抛售波及A股，但这主要是外部风险传导所致，而非A股自身基本面恶化。与韩国市场过度依赖存储芯片单一赛道不同，A股科技板块结构多元，涵盖计算机、通信、电子等多个领域，并拥有“全球AI供应链”和“国产替代”双线叙事逻辑，抗风险能力更强。同时，光模块、光纤光缆等核心科技领域业绩依然强劲。面对市场波动，“国家队”（如国新投资、央企、险资等）果断出手，通过增持、回购等方式注入流动性并稳定市场预期，传递了积极的政策信号，有助于引导长期资金形成合力。除科技外，A股其他板块也展现出内生修复动能。消费板块方面，CPI持续站稳、白酒龙头提价显示消费复苏迹象；周期板块（以铝为例）受益于业绩高增长、全球供需紧平衡及可能的涨价预期；金融板块则具备基本面稳定、高股息或低估值优势。综上所述，文章认为本轮科技调整是外部冲击下的风险释放，A股市场凭借多元的产业结构、坚实的业绩基础、有力的政策呵护以及多板块的修复潜力，具备强大的韧性，市场重回稳态可期。

marsbit22分钟前

marsbit22分钟前

量子计算机还没来，中本聪的 110 万枚比特币先成了问题

量子计算机尚未成熟，但比特币社区已因潜在的量子攻击威胁而陷入治理危机。零知识证明工具如 Project Eleven 可帮助现代 HD 钱包用户在量子攻击前安全迁移资产，但其仅适用于 2012 年后的钱包。早期约 110 万枚比特币（包括中本聪挖出的部分）存储在旧的 P2PK 地址中，缺乏密钥派生路径，无法使用该方案自救，面临被量子计算机破解的风险。社区提出了四种应对方案，但均存在严重问题：放任资产被盗会冲击市场；强制冻结早期资产违背产权原则；限制脆弱地址支出速度只是延缓危机；强制重新分配资产则会破坏账本不可篡改性。这些方案在试图保护比特币价值的同时，都可能损害其核心原则。市场已开始反应，有机构因治理不确定性减持比特币。攻击者可能已保存账本数据，待量子计算机成熟后离线破解密钥。据统计，约 25% 至 34% 的比特币供应面临长期量子威胁，而现有迁移工具仍不成熟且需共识修改。根本问题在于：比特币如何在维护其产权与不可篡改性的前提下，解决这一历史遗留的技术断层？目前尚无共识，量子威胁未至，信仰危机已现。

marsbit30分钟前

marsbit30分钟前

下一轮牛市的主战场在哪？答案就藏在这两类资产里

加密市场显现触底迹象，比特币近期上涨而纳斯达克指数下跌，资金流入转正。市场关注下一轮牛市的主导方向，本文认为核心在于链上金融与传统金融的融合，包括稳定币、资产代币化、全天候交易等趋势，这轮行情将依托真实应用价值，面向全球金融市场，规模可能空前。投资布局可关注两类代表：一是从加密行业向外扩张的Hyperliquid（HYPE），作为永续衍生品交易公链，其业务已拓展至石油、白银等传统资产，凭借便捷操作和即时结算优势快速增长，代币经济模型将大部分收入用于回购销毁；二是从传统金融切入加密的Robinhood（HOOD），其推出的Robinhood Chain在多地开放代币化股票交易，并集成DeFi协议，短期内已吸引大量用户和资产。这两类资产分别代表了原生加密金融应用和依托加密基础设施的传统企业，在新趋势中具备突出潜力。行业融合将促使区块链技术深度嵌入金融体系，投资者应提前把握这一变革机遇。

Foresight News34分钟前

Foresight News34分钟前

加密法案 Clarity 闯关记：美国两党妥协之路布满荆棘

美国两党正推进加密市场结构立法Clarity法案，但妥协之路充满挑战。今年1月，Coinbase CEO的介入导致参议院银行委员会已达成的两党协议被推翻。四个月后，尽管在“收益”问题上达成妥协，但伦理条款成为民主党的关键条件。5月委员会投票时，仅两位民主党参议员支持，且强调下一步支持取决于伦理问题的解决。最终，参议院农业委员会的版本未获任何民主党支持。 7月，共和党人急于推动全体投票，但伦理争议扩大，部分共和党人也加入反对行列，执法机构则对开发者保护条款表示担忧。非法金融与消费者风险仍是焦点，两位资深参议员分别强调了消费者保护与立法谨慎的重要性。目前，两党虽认同需要立法，但达成妥协阻力巨大。众议院已举行听证会，参议院版本的和解文本即将发布，但有议员质疑其能否获得足够两党支持。民主党人坚持必须包含强有力的伦理条款。加密社区短期目标可能包括：在8月休会前进行参议院象征性投票、推动法案在2026年成为法律，或就伦理等争议达成妥协框架。尽管进程艰难，但行业仍在持续努力争取支持。

marsbit41分钟前

marsbit41分钟前

Kalshi 与 Polymarket 创始人水火不容？这场商战远比想象惨烈

本文报道了预测市场平台Kalshi与Polymarket之间激烈的商业竞争和创始人之间的个人恩怨。Polymarket创始人Shayne Coplan在2024年11月遭遇FBI突击搜查，私下怀疑是竞争对手Kalshi及其CEO Tarek Mansour举报所致。Kalshi方面则指责Polymarket运营模式违法且不道德。两家公司的竞争早已超出商业范畴，涉及商标争夺、人才挖角、媒体攻讦乃至向监管机构相互举报。核心分歧在于合规底线：Kalshi坚持先获美国牌照再运营，严格执行实名制；Polymarket则长期通过离岸平台向美国用户提供服务，注册门槛低。竞争蔓延至多个领域：双方争夺与洲际交易所（ICE）等重要投资者的合作，Kalshi疑似试图阻挠ICE投资Polymarket；在市场营销上，Kalshi签下Polymarket创始人喜爱的尼克斯队主场赞助，被视为刻意挑衅。目前，Kalshi在估值和交易额上暂时领先，但Polymarket通过收购持牌企业重返美国市场。随着业务规模激增，两家公司都面临日益严格的监管审查，尤其是Polymarket因匿名性和VPN访问问题更受关注。这场掺杂私人恩怨的争斗深刻影响着预测市场行业的格局与监管走向。

marsbit50分钟前

marsbit50分钟前

交易

现货

突发！Anthropic呼吁全员停止AI研究

文章摘要

Anthropic长文定调

AI圈的摩尔定律来了

Claude编写了大部分Anthropic代码

创造力的放大镜

我们何去何从?

RSI的三种未来

OMT

热门币种推荐

相关问答

你可能也喜欢

被误伤的A股：韧性、预期与底气

量子计算机还没来，中本聪的 110 万枚比特币先成了问题

下一轮牛市的主战场在哪？答案就藏在这两类资产里

加密法案 Clarity 闯关记：美国两党妥协之路布满荆棘

Kalshi 与 Polymarket 创始人水火不容？这场商战远比想象惨烈

交易

热门文章

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

从H2A到A2A：AI Agent经济体与Crypto新机遇

美股TradFi：传统金融在AI IPO浪潮下的稳健锚点

相关讨论

热门问答

热门分类

热门标签