Claude降智，是自杀还是装死？

marsbit发布于2026-04-13更新于2026-04-13

文章摘要

Anthropic的Claude Opus 4.6模型近期被曝性能大幅下降，在BridgeBench评测中排名从全球第2跌至第10，准确率从83.3%降至68.3%，幻觉率增长98%，引发用户强烈不满。然而，疑似流出的内部工具截图显示，Anthropic正在测试名为“Claude Projects”的全栈应用构建系统，支持一键生成身份验证、数据库、前端界面及部署上线，旨在实现“AI替代编程”，而不仅是辅助编程。分析认为，Anthropic可能已战略性放弃模型排行榜竞争，转而聚焦平台生态构建，通过提供端到端开发解决方案增强用户粘性。其年收入虽达300亿美元，但主要依赖API业务，存在模型商品化风险。此举被视为Anthropic向“基础设施化”转型的关键布局，意图在AI底层能力趋同的背景下，通过生态锁定构建护城河。

【导读】全球第2掉到第10,Claude最强模型被曝「降智」,BridgeBench实锤了!但Anthropic不在意呢?

Anthropic完蛋了?

最近,AMD的AI总监实锤Claude Code降智,直言「对复杂任务已不可用」。

现在,BridgeBench评测最新报告,又给了Anthropic一记重拳!

数据触目惊心:Claude Opus 4.6的全球排名从第2名垂直坠落至第10名:

准确率从83.3%断崖式跌至68.3%,幻觉率几乎翻倍,增加了98%。

那一刻,Claude降智变蠢、用户体验变差,冰冷的数字终结了所有用户的疑问——

不是自己的问题,Claude Opus 4.6确实变差了!

Claude用户感觉上当受骗了!

想象一下,如果你依赖这个模型处理任何关键任务,而他们却可以在不告知你的情况下,直接换成一个差得多的模型。

但用户质疑:「这怎么可能合法?」,信任开始破灭,对Anthropic的嘲讽铺天盖地,连最忠实的拥趸都开始动摇。

但就在全网群嘲的另一边,Anthropic王炸出来了——疑似内部工具界面截图流出。

画面显示的东西,让所有关于「Claude变笨了」的讨论瞬间变得无关紧要——Claude Projects正在测试一套完整的全栈应用构建系统。

不是帮你写代码,是帮你造产品。

所有人盯着模型分数吵架的时候,Anthropic已经换了牌桌。

泄露图里藏着什么?

先说那张截图到底拍到了什么。

根据多方爆料交叉验证,泄露画面展示的是Claude Projects内部正在测试的一套「一键式开发套件」。

界面上赫然列着一排预置模板:AI聊天机器人、互动小游戏、商业落地页、SaaS数据仪表盘......几乎覆盖了独立开发者最高频的需求场景。

但模板只是表面。

真正让人倒吸一口冷气的是模板背后的全栈能力链——

身份验证?勾选即配。

数据库?选型即建。

前端界面?描述即生成。

部署上线?一键搞定。

这不是「AI辅助编程」。这是「AI替代编程」,连蒸馏你的Skill都不用了。

理解这句话的分量,需要看清当下AI编程工具的格局分层。

Cursor的逻辑是「让你在IDE里写得更快」——它优化的是编码速度,程序员仍然是主角。
Replit的逻辑是「让不会写代码的人也能写」——它降低的是入门门槛,但你仍然需要理解代码逻辑。
Vercel的逻辑是「让部署变得无感」——它解决的是最后一公里,但前面的路你得自己走。

它们各自切了软件开发链条上的一个环节,各自做到了极致。

但Claude想做的事,跟它们完全不在一个维度上。

Cursor让程序员快了10倍,Replit让非程序员也能写代码——但Claude想让「写代码」这件事本身变得多余。

前者是效率革命,后者是品类消灭。

据泄露信息,支撑这套系统运转的底层引擎正是Opus 4.6——那个被全网嘲笑「降智」的模型。

Mythos「不够强」可能是故意的?

最核心、也最具争议性的判断可能是——

Anthropic可能根本不在乎Mythos在排行榜上排第几。

听起来像是替失败者找借口?让我们算一笔账。

当你的战略终局是成为「全栈应用平台」,模型层扮演的角色就发生了根本性的变化。

它不再需要是「最聪明的」,它只需要是「够用的」。

平台竞争的胜负手从来不在于底层引擎的马力有多大,而在于上层生态的粘性有多深。

Windows打赢Mac靠的不是操作系统更优雅,是软件生态更丰富。Android碾压Windows Phone靠的不是内核更先进,是开发者更多。

在平台战争中,「最好」从来不是赢的原因,「最多人用」才是。

在公开场合,Dario Amodei反复说过一句话:「编码将死。」

但全栈构建器的泄露,让这句话第一次有了产品级的实体证据。

Dario说的不是预言。他说的是正在执行的路线图。

如果这个推理成立,那么Mythos在HLE上领先GPT-5.4 Pro(无工具56.8 vs 42.7),但在GPQA上被追平(94.4 vs 94.5)、在BrowseComp上被反超(89.3 vs 86.9)——这些数据的含义就完全不同了。

它不是「Anthropic输了」,而是「Anthropic选择性地不在这里发力了」。

把有限的算力资源投入到排行榜军备竞赛中去维护一个虚幻的「第一名」标签,还是把算力倾斜给全栈构建器这种能直接创造商业价值的产品?

对一家年收入300亿美金、需要向投资人证明商业化能力的公司来说,这个选择并不难。

模型够用就行,平台锁定才是护城河。

商业竞争的残酷真相就是:用户不关心你的GPQA分数是94.4还是94.5,用户关心的是「我说一句话,App能不能跑起来」。

年收300亿之后的恐惧

Anthropic的年化收入刚刚突破300亿美金,超过了OpenAI。

15个月内,Anthropic年化收入从10亿美元涨到300亿美元

这是一个足以让任何创业公司开香槟的数字。

但如果你是Dario Amodei,你此刻最大的情绪不是庆祝,而是恐惧。

因为这300亿里的绝大部分,来自API调用。而API,本质上是一种极度危险的商业模式。

为什么?因为API意味着你的客户正在用你的能力,建造他们自己的产品。

今天他们调用Claude的接口做了一个AI客服平台,明天做了一个AI写作工具,后天做了一个AI编程助手。

每一个成功的客户,都在你的地基上盖起自己的大楼。听起来很美——直到有一天,另一家模型公司提供了更便宜、差不多好用的API,你的客户会在一夜之间集体迁移。

这就是「模型商品化」的噩梦:当模型层的差异越来越小,API定价就变成了一场没有赢家的价格战。

OpenAI感受到了这种恐惧,所以它疯狂做C端产品——ChatGPT、GPTs、自定义助手。谷歌感受到了这种恐惧,所以它把Gemini塞进了搜索、邮箱、文档等每一个自家产品。

它们都在做同一件事:在模型变成白菜价之前,把自己变成一个用户离不开的平台。

Anthropic的全栈构建器,是同一逻辑的最激进版本。

它的潜台词是:

与其等别人用我的API在上面建一个平台,然后等模型降价的那天把我一脚踢开——不如我自己先把平台建了。

你不用调我的API了,你直接在我的平台上造App吧。你的用户数据在我这里,你的工作流在我这里,你的部署环境在我这里。到那时候,你想换模型?可以,但你的整个业务都得重来。

这不是产品创新,这是生存本能。

300亿的营收证明了Anthropic有能力赚钱,但泄露图暴露了Anthropic真正的焦虑——光会赚钱不够,得让别人离不开你。

收尾:星空与幻象

让我们从商业叙事中退后一步,回到技术判断的原点。

当前最强的大模型——无论Claude、GPT还是Gemini——大约处在70%的能力水位。这个数字在过去半年里的爬升速度,已经肉眼可见地放缓了。

从70%迈向100%,靠的不是刷榜,不是多拿几个百分点的GPQA分数。靠的是成为一种不可替代的基础设施——像电网一样,你不关心发电厂用的是什么涡轮机,你只知道灯一拉就亮,空调一开就凉。

Anthropic的全栈构建器,第一次让人看到了一家AI公司在认真思考这条「基础设施化」的路。

不再执着于「我的模型比你聪明0.1分」的虚荣战争,而是直接回答一个更本质的问题:怎么让十亿人在不知不觉中,每天都在用我的东西?

因为真正决定AI终局的,从来不是谁的考试分数更高。而是谁先变成了那张所有人都离不开的电网。

参考资料:

https://x.com/cryptopunk7213/status/2043405326196867127

https://x.com/iruletheworldmo/status/2043332977136975994

https://x.com/marmaduke091/status/2043382991901147158

本文来自微信公众号“新智元”,编辑:KingHZ

你可能也喜欢

被卡住的Polymarket：走过流量红利的真正大考来了

Polymarket作为预测市场龙头近期面临交易体验明显下降的问题，包括价格延迟、订单无法提交和交易确认缓慢等。其DeFi工程副总裁Josh Stevens承认，增长已超出基础设施承载能力，并宣布将进行“链迁移”（chain migration），同时重建核心订单簿系统（CLOB）、降低数据延迟、修复交易问题、提升网站性能，并计划推出永续合约（Perps）。 Polymarket早期选择Polygon链是因成本低且轻量，但随着用户交易行为变得高频，Polygon逐渐成为增长瓶颈。此次换链不仅是底层公链的变更，更是整套交易系统的升级，旨在适应更接近交易所的运营需求。多个公链（如Solana、Sui等）已向Polymarket抛出橄榄枝，强调其高性能和低费用优势。而Polygon作为当前主要链，面临重要生态应用流失的风险，正积极合作解决痛点。 Polymarket的真正考验在于：从验证需求阶段转向规模运营后，必须证明其系统能稳定承接高频交易，确保用户留存和持续交易信心。

Odaily星球日报12小时前

Odaily星球日报12小时前

关键议员「松口」，沃什5月15日接任美联储主席「最大障碍」已清

阻碍凯文·沃什出任美联储主席的关键政治障碍已消除，北卡罗来纳州共和党参议员蒂利斯宣布撤回对沃什提名的阻挠立场，为4月29日的委员会提名投票扫清道路。此前司法部撤销对现任主席鲍威尔的刑事调查，蒂利斯对美联储独立性受威胁的顾虑得以缓解。沃什若获确认，预计于5月15日鲍威尔任期届满时接任，并可能推动废除“点阵图”等前瞻指引机制，重构全球资产定价逻辑。尽管沃什提名进程加速，鲍威尔去留仍存变数，特朗普未对其全面放行。沃什的政策立场可能移除市场利率预期工具，引发股债汇市场系统性重估。

marsbit12小时前

marsbit12小时前

调低 BTC 下一轮牛市的预期

作者Alex Xu分享了他对比特币下一轮牛市预期的调整，并解释了减仓BTC的原因。他曾在7万美元时卸掉杠杆，在10-12万美元时将仓位从满仓降至三成，近期又在78000-79000美元进一步减仓。主要原因包括： 1. 驱动BTC大涨的潜在能量减弱，如难以进入主权国家央行储备； 2. 个人机会成本上升，发现更具吸引力的投资标的； 3. 加密行业整体萎缩，影响BTC需求和共识； 4. 最大买家MicroStrategy融资成本持续攀升，可能抑制买入能力； 5. 代币化黄金等竞品在功能性上拉近与BTC的差距； 6. 比特币减半后安全预算问题日益严峻。尽管减仓，他仍持有部分BTC并希望其上涨，但会根据环境变化调整策略。本文仅为个人观点，供参考。

marsbit12小时前

marsbit12小时前

预测市场离不开内幕交易，但内幕交易正在杀死它

预测市场面临根本矛盾：依赖内幕交易产生准确价格，却因内幕交易吓退散户。最新案例显示，美军特种兵利用机密信息在Polymarket获利40万美元，引发法律和道德争议。类似内幕交易丑闻频发，暴露市场核心问题——信息效率与公平感知难以兼得。若内幕交易过松，散户感觉被操纵而离场；若限制过严，市场失去关键信息源，沦为情绪聚合器。平台需在监管与流动性间寻找平衡，但监管趋严或迫使平台放弃匿名交易，加强监控。最终，预测市场的存续取决于能否协调这一矛盾。

marsbit12小时前

marsbit12小时前

霍尔木兹海峡，伊朗能“管住”吗？

伊朗迈赫尔通讯社报道，伊朗已就管理霍尔木兹海峡形成综合方案，内容包括：海峡主权归伊朗所有；过航船只须获许可并缴纳费用，优先以里亚尔支付；禁止以色列船只及被认定为敌对国家船只通行；索赔未解决国家船只不予放行。分析认为，伊朗意在加强对美以施压、获取稳定收入并为美伊谈判留余地。然而，该方案面临国际法争议及多国反对，美国已采取封锁反制。实际操作难度大，且可能引发外交压力，方案能否实施仍存不确定性。

marsbit13小时前

marsbit13小时前

交易

现货

合约

Claude降智，是自杀还是装死？

文章摘要

泄露图里藏着什么?

Mythos「不够强」可能是故意的?

年收300亿之后的恐惧

收尾:星空与幻象

相关问答

你可能也喜欢

被卡住的Polymarket：走过流量红利的真正大考来了

关键议员「松口」，沃什5月15日接任美联储主席「最大障碍」已清

调低 BTC 下一轮牛市的预期

预测市场离不开内幕交易，但内幕交易正在杀死它

霍尔木兹海峡，伊朗能“管住”吗？

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签