Claude降智,是自杀还是装死?

marsbit發佈於 2026-04-13更新於 2026-04-13

文章摘要

Anthropic的Claude Opus 4.6模型近期被曝性能大幅下降,在BridgeBench评测中排名从全球第2跌至第10,准确率从83.3%降至68.3%,幻觉率增长98%,引发用户强烈不满。然而,疑似流出的内部工具截图显示,Anthropic正在测试名为“Claude Projects”的全栈应用构建系统,支持一键生成身份验证、数据库、前端界面及部署上线,旨在实现“AI替代编程”,而不仅是辅助编程。分析认为,Anthropic可能已战略性放弃模型排行榜竞争,转而聚焦平台生态构建,通过提供端到端开发解决方案增强用户粘性。其年收入虽达300亿美元,但主要依赖API业务,存在模型商品化风险。此举被视为Anthropic向“基础设施化”转型的关键布局,意图在AI底层能力趋同的背景下,通过生态锁定构建护城河。

【导读】全球第2掉到第10,Claude最强模型被曝「降智」,BridgeBench实锤了!但Anthropic不在意呢?

Anthropic完蛋了?

最近,AMD的AI总监实锤Claude Code降智,直言「对复杂任务已不可用」。

现在,BridgeBench评测最新报告,又给了Anthropic一记重拳!

数据触目惊心:Claude Opus 4.6的全球排名从第2名垂直坠落至第10名:

准确率从83.3%断崖式跌至68.3%,幻觉率几乎翻倍,增加了98%。

那一刻,Claude降智变蠢、用户体验变差,冰冷的数字终结了所有用户的疑问——

不是自己的问题,Claude Opus 4.6确实变差了!

Claude用户感觉上当受骗了!

想象一下,如果你依赖这个模型处理任何关键任务,而他们却可以在不告知你的情况下,直接换成一个差得多的模型。

但用户质疑:「这怎么可能合法?」,信任开始破灭,对Anthropic的嘲讽铺天盖地,连最忠实的拥趸都开始动摇。

但就在全网群嘲的另一边,Anthropic王炸出来了——疑似内部工具界面截图流出。

画面显示的东西,让所有关于「Claude变笨了」的讨论瞬间变得无关紧要——Claude Projects正在测试一套完整的全栈应用构建系统。

不是帮你写代码,是帮你造产品

所有人盯着模型分数吵架的时候,Anthropic已经换了牌桌。

泄露图里藏着什么?

先说那张截图到底拍到了什么。

根据多方爆料交叉验证,泄露画面展示的是Claude Projects内部正在测试的一套「一键式开发套件」。

界面上赫然列着一排预置模板:AI聊天机器人、互动小游戏、商业落地页、SaaS数据仪表盘......几乎覆盖了独立开发者最高频的需求场景。

但模板只是表面。

真正让人倒吸一口冷气的是模板背后的全栈能力链——

身份验证?勾选即配。

数据库?选型即建。

前端界面?描述即生成。

部署上线?一键搞定。

这不是「AI辅助编程」。这是「AI替代编程」,连蒸馏你的Skill都不用了。

理解这句话的分量,需要看清当下AI编程工具的格局分层。

  • Cursor的逻辑是「让你在IDE里写得更快」——它优化的是编码速度,程序员仍然是主角。
  • Replit的逻辑是「让不会写代码的人也能写」——它降低的是入门门槛,但你仍然需要理解代码逻辑。
  • Vercel的逻辑是「让部署变得无感」——它解决的是最后一公里,但前面的路你得自己走。

它们各自切了软件开发链条上的一个环节,各自做到了极致。

但Claude想做的事,跟它们完全不在一个维度上。

Cursor让程序员快了10倍,Replit让非程序员也能写代码——但Claude想让「写代码」这件事本身变得多余。

前者是效率革命,后者是品类消灭。

据泄露信息,支撑这套系统运转的底层引擎正是Opus 4.6——那个被全网嘲笑「降智」的模型。

Mythos「不够强」可能是故意的?

最核心、也最具争议性的判断可能是——

Anthropic可能根本不在乎Mythos在排行榜上排第几。

听起来像是替失败者找借口?让我们算一笔账。

当你的战略终局是成为「全栈应用平台」,模型层扮演的角色就发生了根本性的变化。

它不再需要是「最聪明的」,它只需要是「够用的」。

平台竞争的胜负手从来不在于底层引擎的马力有多大,而在于上层生态的粘性有多深。

Windows打赢Mac靠的不是操作系统更优雅,是软件生态更丰富。Android碾压Windows Phone靠的不是内核更先进,是开发者更多。

在平台战争中,「最好」从来不是赢的原因,「最多人用」才是。

在公开场合,Dario Amodei反复说过一句话:「编码将死。」

但全栈构建器的泄露,让这句话第一次有了产品级的实体证据。

Dario说的不是预言。他说的是正在执行的路线图

如果这个推理成立,那么Mythos在HLE上领先GPT-5.4 Pro(无工具56.8 vs 42.7),但在GPQA上被追平(94.4 vs 94.5)、在BrowseComp上被反超(89.3 vs 86.9)——这些数据的含义就完全不同了。

它不是「Anthropic输了」,而是「Anthropic选择性地不在这里发力了」。

把有限的算力资源投入到排行榜军备竞赛中去维护一个虚幻的「第一名」标签,还是把算力倾斜给全栈构建器这种能直接创造商业价值的产品?

对一家年收入300亿美金、需要向投资人证明商业化能力的公司来说,这个选择并不难。

模型够用就行,平台锁定才是护城河。

商业竞争的残酷真相就是:用户不关心你的GPQA分数是94.4还是94.5,用户关心的是「我说一句话,App能不能跑起来」。

年收300亿之后的恐惧

Anthropic的年化收入刚刚突破300亿美金,超过了OpenAI。

15个月内,Anthropic年化收入从10亿美元涨到300亿美元

这是一个足以让任何创业公司开香槟的数字。

但如果你是Dario Amodei,你此刻最大的情绪不是庆祝,而是恐惧。

因为这300亿里的绝大部分,来自API调用。而API,本质上是一种极度危险的商业模式

为什么?因为API意味着你的客户正在用你的能力,建造他们自己的产品。

今天他们调用Claude的接口做了一个AI客服平台,明天做了一个AI写作工具,后天做了一个AI编程助手。

每一个成功的客户,都在你的地基上盖起自己的大楼。听起来很美——直到有一天,另一家模型公司提供了更便宜、差不多好用的API,你的客户会在一夜之间集体迁移。

这就是「模型商品化」的噩梦:当模型层的差异越来越小,API定价就变成了一场没有赢家的价格战。

OpenAI感受到了这种恐惧,所以它疯狂做C端产品——ChatGPT、GPTs、自定义助手。谷歌感受到了这种恐惧,所以它把Gemini塞进了搜索、邮箱、文档等每一个自家产品。

它们都在做同一件事:在模型变成白菜价之前,把自己变成一个用户离不开的平台。

Anthropic的全栈构建器,是同一逻辑的最激进版本。

它的潜台词是:

与其等别人用我的API在上面建一个平台,然后等模型降价的那天把我一脚踢开——不如我自己先把平台建了。

你不用调我的API了,你直接在我的平台上造App吧。你的用户数据在我这里,你的工作流在我这里,你的部署环境在我这里。到那时候,你想换模型?可以,但你的整个业务都得重来。

这不是产品创新,这是生存本能。

300亿的营收证明了Anthropic有能力赚钱,但泄露图暴露了Anthropic真正的焦虑——光会赚钱不够,得让别人离不开你。

收尾:星空与幻象

让我们从商业叙事中退后一步,回到技术判断的原点。

当前最强的大模型——无论Claude、GPT还是Gemini——大约处在70%的能力水位。这个数字在过去半年里的爬升速度,已经肉眼可见地放缓了。

从70%迈向100%,靠的不是刷榜,不是多拿几个百分点的GPQA分数。靠的是成为一种不可替代的基础设施——像电网一样,你不关心发电厂用的是什么涡轮机,你只知道灯一拉就亮,空调一开就凉。

Anthropic的全栈构建器,第一次让人看到了一家AI公司在认真思考这条「基础设施化」的路。

不再执着于「我的模型比你聪明0.1分」的虚荣战争,而是直接回答一个更本质的问题:怎么让十亿人在不知不觉中,每天都在用我的东西?

因为真正决定AI终局的,从来不是谁的考试分数更高。而是谁先变成了那张所有人都离不开的电网。

参考资料:

https://x.com/cryptopunk7213/status/2043405326196867127

https://x.com/iruletheworldmo/status/2043332977136975994

https://x.com/marmaduke091/status/2043382991901147158

本文来自微信公众号“新智元”,编辑:KingHZ

相關問答

QClaude Opus 4.6在BridgeBench评测中表现如何?

A根据BridgeBench评测报告,Claude Opus 4.6的全球排名从第2名跌至第10名,准确率从83.3%大幅下降至68.3%,幻觉率几乎翻倍,增加了98%。

QAnthropic被曝正在开发什么新产品?

AAnthropic正在测试一套名为Claude Projects的「一键式开发套件」,这是一个全栈应用构建系统,能够帮助用户通过选择模板和简单描述,自动生成完整应用,包括身份验证、数据库配置、前端界面和部署上线等功能。

Q为什么Anthropic可能不在乎模型在排行榜上的排名?

AAnthropic的战略重点可能已从模型性能竞赛转向平台生态建设。他们认为在平台战争中,生态粘性比模型性能更重要,因此可能将算力资源倾斜到能直接创造商业价值的产品如全栈构建器,而非单纯追求排行榜名次。

QAnthropic的年化收入是多少?其主要收入来源是什么?

AAnthropic的年化收入已突破300亿美元,超过了OpenAI。其绝大部分收入来自API调用,但这种商业模式被认为具有风险,因为客户可能因模型商品化和价格战而迁移到其他更便宜的API提供商。

QAnthropic开发全栈构建器的深层原因是什么?

AAnthropic开发全栈构建器是出于对API商业模式风险的恐惧。他们希望通过直接提供平台服务,让用户在其生态内构建应用,从而锁定用户的工作流、数据和部署环境,形成更深的护城河,避免未来模型商品化导致的客户流失。

你可能也喜歡

交易

現貨
合約

熱門文章

什麼是 $S$

理解 SPERO:全面概述 SPERO 簡介 隨著創新領域的不斷演變,web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中,SPERO(標記為 SPERO,$$s$)是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息,以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼? SPERO,$$s$ 是加密空間中的一個獨特項目,旨在利用去中心化和區塊鏈技術的原則,創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動,為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議,以及通過去中心化應用程序(dApps)創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開,旨在彌合傳統金融中的差距,同時利用區塊鏈技術的優勢。 誰是 SPERO,$$s$ 的創建者? SPERO,$$s$ 的創建者身份仍然有些模糊,因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神,優先考慮集體貢獻而非個人認可。 通過將討論重心放在社區及其共同目標上,SPERO,$$s$ 體現了賦能的本質,而不特別突出某些個體。因此,理解 SPERO 的精神和使命比識別單一創建者更為重要。 誰是 SPERO,$$s$ 的投資者? SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持,他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。 這些投資者通常對不僅提供創新產品,還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作? SPERO,$$s$ 採用多面向的框架,使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵: 去中心化治理:SPERO,$$s$ 整合了去中心化治理模型,賦予用戶積極參與決策過程的權力,關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。 代幣實用性:SPERO,$$s$ 使用其自己的加密貨幣代幣,旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進,增強了整體參與度和實用性。 分層架構:SPERO,$$s$ 的技術架構支持模塊化和可擴展性,允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。 社區參與:該項目強調社區驅動的倡議,採用激勵合作和反饋的機制。通過培養強大的社區,SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。 專注於包容性:通過提供低交易費用和用戶友好的界面,SPERO,$$s$ 旨在吸引多樣化的用戶群體,包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線 理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線,映射 SPERO,$$s$ 演變中的重要事件: 概念化和構思階段:形成 SPERO,$$s$ 基礎的初步想法被提出,與區塊鏈行業內的去中心化和社區聚焦原則密切相關。 項目白皮書的發布:在概念階段之後,發布了一份全面的白皮書,詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施,以吸引社區的興趣和反饋。 社區建設和早期參與:積極進行外展工作,建立早期採用者和潛在投資者的社區,促進圍繞項目目標的討論並獲得支持。 代幣生成事件:SPERO,$$s$ 進行了一次代幣生成事件(TGE),向早期支持者分發其原生代幣,並在生態系統內建立初步流動性。 首次 dApp 上線:與 SPERO,$$s$ 相關的第一個去中心化應用程序(dApp)上線,允許用戶參與平台的核心功能。 持續發展和夥伴關係:對項目產品的持續更新和增強,包括與區塊鏈領域其他參與者的戰略夥伴關係,使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。 結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證,能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾,它為更具包容性的金融環境鋪平了道路。 與任何在快速發展的加密領域中的投資一樣,潛在的投資者和用戶都被鼓勵進行徹底研究,並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神,邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開,但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

85 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 $S$

什麼是 AGENT S

Agent S:Web3中自主互動的未來 介紹 在不斷演變的Web3和加密貨幣領域,創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目,承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務,為人工智能(AI)提供變革性的應用,鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。 什麼是Agent S? Agent S是一個突破性的開放代理框架,專門設計用來解決計算機任務自動化中的三個基本挑戰: 獲取特定領域知識:該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫,提升其在任務執行中的表現。 長期任務規劃:Agent S採用經驗增強的分層規劃,這是一種戰略方法,可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。 處理動態、不均勻的界面:該項目引入了代理-計算機界面(ACI),這是一種創新的解決方案,增強了代理和用戶之間的互動。利用多模態大型語言模型(MLLMs),Agent S能夠無縫導航和操作各種圖形用戶界面。 通過這些開創性特徵,Agent S提供了一個強大的框架,解決了自動化人機互動中涉及的複雜性,為AI及其他領域的無數應用奠定了基礎。 誰是Agent S的創建者? 儘管Agent S的概念根本上是創新的,但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚,這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名,重點仍然在於框架的能力和潛力。 誰是Agent S的投資者? 由於Agent S在加密生態系統中相對較新,關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解,引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作? Agent S的核心是尖端技術,使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建: 類人計算機互動:該框架提供先進的AI規劃,力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為,承諾提升用戶體驗。 敘事記憶:用於利用高級經驗,Agent S利用敘事記憶來跟蹤任務歷史,從而增強其決策過程。 情節記憶:此特徵為用戶提供逐步指導,使框架能夠在任務展開時提供上下文支持。 支持OpenACI:Agent S能夠在本地運行,使用戶能夠控制其互動和工作流程,與Web3的去中心化理念相一致。 與外部API的輕鬆集成:其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統,成為開發者和組織的理想選擇。 這些功能共同促成了Agent S在加密領域的獨特地位,因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展,其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括,突顯其重要事件: 2024年9月27日:Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出,展示了該項目的基礎工作。 2024年10月10日:該研究論文在arXiv上公開,提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日:發布了一個視頻演示,提供了對Agent S能力和特徵的視覺洞察,進一步吸引潛在用戶和投資者。 這些時間線上的標記不僅展示了Agent S的進展,還表明了其對透明度和社區參與的承諾。 有關Agent S的要點 隨著Agent S框架的持續演變,幾個關鍵特徵脫穎而出,強調其創新性和潛力: 創新框架:旨在提供類似人類互動的直觀計算機使用,Agent S為任務自動化帶來了新穎的方法。 自主互動:通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。 複雜任務自動化:憑藉其強大的方法論,能夠自動化複雜的多步任務,使過程更快且更少出錯。 持續改進:學習機制使Agent S能夠從過去的經驗中改進,不斷提升其性能和效率。 多功能性:其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。 隨著Agent S在Web3和加密領域中的定位,其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架,Agent S展現了數字互動的未來,為各行各業的用戶承諾提供更無縫和高效的體驗。 結論 Agent S代表了AI與Web3結合的一次大膽飛躍,具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段,但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰,Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域,像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

681 人學過發佈於 2025.01.14更新於 2025.01.14

什麼是 AGENT S

如何購買S

歡迎來到HTX.com!在這裡,購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Sonic (S)購買Sonic (S)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.4k 人學過發佈於 2025.01.15更新於 2025.03.21

如何購買S

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 S (S)幣價的意見。

活动图片