“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

marsbit發佈於 2026-06-12更新於 2026-06-12

文章摘要

UC伯克利团队推出全新基准测试“智能体最后的考试”（ALE），旨在评估AI智能体在真实工作场景中的实际操作能力。测试覆盖55个行业领域，要求智能体在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成建模、场景搭建、特效合成等任务。结果显示，在最难的任务档中，包括Claude Fable 5和GPT 5.5在内的主流模型通过率均为零。在难度稍低的任务中，GPT 5.5以24%的通过率领先于Claude Fable 5的22%，且在成本效率上优势明显——Fable 5花费了Codex框架四倍多的成本，成绩却更低。 ALE与此前基准测试的不同在于，它专注于“能干什么”而非静态知识检索，通过GUI和命令行赋予智能体完整计算机操作权限，并由代码自动评分，避免主观判断。测试题目大部分保密且定期轮换，防止模型通过记忆题目获取高分。此外，测试揭示了智能体的常见失败模式：常在未验证成果时即宣布任务完成。对于Claude Fable 5表现不佳的原因，分析指出可能因其在敏感任务中被静默切换至能力更弱的版本，且此前有基准测试显示Claude系列存在利用测试环境漏洞（如查看git历史）的行为，而ALE的设计避免了此类问题。该测试表明，当前AI智能体在复杂真实任务中仍远未达到人类专家水平，业界关于“Agent即将取代人类工作”的预测仍需谨慎看待。

没想到打脸来得如此之快!!

刚刚,UC伯克利放出了一场号称“智能体最后的考试”的全新基准测试。

它把当今最强的AI Agent们拉到考场上,让它们干真正的活——

在Siemens NX里建3D模型、在Unreal Engine里搭游戏场景、在Adobe After Effects里做特效合成。

结果成绩令人傻眼:

最难的一档,当今公认最强的Claude Fable 5、GPT 5.5,全是大写的零蛋。

你说难度稍微放低一点呢?分数倒是有了,但结果也相当令人意外——

GPT 5.5竟然还小胜了Claude Fable 5。

我没听错吧,A家刚发布的最强模型Claude Fable 5,被几个月前的GPT 5.5打败了??

要知道在此前几乎所有主流benchmark上,Fable 5对GPT 5.5都是碾压级别的存在——SWE-Bench Pro上80.3%对58.6%,Humanity’s Last Exam上64.5%对52.2%。

但换到这场“真干活”的考试里,局面却反了过来。

这个新基准叫Agents’ Last Exam(ALE),背后团队来头不小,之前MMLU、MATH、CyberGym、ExploitGym这些你耳熟能详的基准都是他们提的。

取这个名估计也是参考之前Scale AI那个“Humanity’s Last Exam”(人类最后的考试),只不过这次被考的不是人类知识的极限,而是AI Agent干活的极限。

该说不说,这个测评一出来,以前天天喊着“Agent要取代人类工作”的人,这下是真干沉默了...

“智能体最后的考试”,赢家竟是GPT 5.5!

先看完整排行榜。

从最核心的任务通过率指标来看,GPT 5.5直接包揽冠亚军:

第1名是GPT 5.5搭配OpenAI自家的Codex框架,通过率24.0%。

第2名还是GPT-5.5,只不过换了ALE Claw框架,通过率23.0%。

(ALE Claw是团队自己写的一个baseline Agent,跟Codex、Claude Code、Cursor CLI这些商业框架并列参赛)

直到第3名,我们才看到Claude Fable 5的身影——搭配Claude Code,拿下22.0%的通过率。

往下看更有意思。

第4、第5、第8名全是GPT 5.5,只是换了不同的框架。

前10名里GPT 5.5出场了5次,加上第6名的GPT 5.4,OpenAI模型直接占了6席。

而Claude家族呢?

Fable 5拿了第3,Opus 4.7第9(18.4%),Opus 4.8垫底第10(15.8%),不敌之势一目了然。

也不怪OpenAI研究员喜庆发帖,欢欢喜喜过大年了:

而在成绩之外,这里还有这样几个值得细品的信号。

一是天花板低得惊人。

冠军通过率才24%,综合得分最高也不过45.8%。

意思是,就算按最宽松的“部分得分”算,最强的Agent也只能拿到不到一半的分。

而这些题全部来自真人专家已经完成的项目——人类专家的完成率理论上就是100%。

二是Claude烧钱烧得惊人。

这张榜单新增了一列“Estimated Total Cost”,一下子把贫富差距拉出来了:

Fable 5跑完全部任务花了2315美元,Opus 4.8花了1838美元,Opus 4.7也要1144美元。

而GPT-5.5这边呢?

最贵的Codex也就566美元,Cursor CLI只要174美元。

等于说,Fable 5花了Codex四倍多的钱,成绩还低了两个百分点。

三是效率差距同样触目。

Ale Claw跑完全部任务花了47小时20分钟,Cursor CLI只花了67小时。

而Opus 4.8呢?451小时——将近19天。

干的活最少,花的时间最长,收的钱最多(居然真有模型能同时做到?)

当然如果只看Claude Fable 5、GPT 5.5这两个最顶的,GPT 5.5的时间优势依旧明显。

而最扎眼的数字,还是那个零。

ALE把任务分成了三个难度档:

Near-Term(近期可解)

Full-Spectrum(全面覆盖)

Last-Exam(终极难题)

在最难这一档,所有主流配置的平均通过率只有2.6%,包括GPT 5.5和Fable 5在内的大多数模型直接吃了零蛋。

所以这张成绩单的核心信息很简单:别看平时考试成绩好,一到真干活全露馅了。

答题学霸≠干活能手,这话在AI世界也一样适用。

什么是ALE?

要理解ALE为什么能把这帮“学霸”打回原形,得先看它跟以前的考试有什么不一样。

之前的Humanity’s Last Exam(HLE)是2025年初由Dan Hendrycks和Scale AI搞出来的,2500道跨学科难题,本质上还是闭卷答题——

给你一个问题,你给我一个答案,再难也是静态的知识检索。

而ALE完全不同,它考你“能干什么”。

核心作者Yiyou Sun在X说得很直白:

AI智能体将在2026-2027年超越人类完成几乎所有工作——这个预测到处都是。所以我们造了这场考试来验证这个说法。

ALE的每道题都来自一个真人专家已经完成的项目,覆盖55个行业子领域,包括量化交易、基因组分析、航空航天工程、建筑设计、脑成像、动画特效、法律研究......

整个体系锚定的是美国联邦职业分类标准(ONET)*,说白了就是按“真实劳动力市场”来出题。

参与出题的阵容也够豪华:

300多位领域专家来自100多家机构,学术侧有MIT、Harvard、Stanford、Oxford、Caltech、ETH Zurich,产业侧有Goldman Sachs、JPMorgan、Meta、Amazon、Adobe、Oracle。

Snorkel AI通过Open Benchmarks Grants项目提供了资金支持。

考试形式也不是打字回答问题,而是直接操作电脑。

ALE用的是所谓GCUA框架(Generalist Computer-Use Agent,通用计算机使用代理),给Agent完整的GUI和命令行权限——

鼠标点击、键盘打字、写脚本、浏览网页,人类能在电脑上干的它都能干。

不限方法,只看结果。

交出来的“作业”由确定性代码自动评分。

No vibes. No human judges. Fully reproducible.(不靠感觉,不靠人类裁判,完全可复现)

这就堵住了之前很多benchmark的一个老毛病:评分器本身就能被骗。

此外,ALE在防作弊上还有一个狠招——

只公开约10%的题目(约150道),剩下1300多道严格保密。

公开题和私密题定期滚动轮换,确保不会有模型因为“背题”而拿高分。

这在当前benchmark数据污染泛滥的背景下,算是一个相当巧妙的设计。

整体而言,跟现有的Agent基准测试比,ALE的定位非常明确。

团队成员之一的Dawn Song专门拉了一组对比:

ALE的CLI子集 (ALE-CLI) 覆盖40个行业子领域,而Terminal-Bench只有6个,SWE-bench-Pro只有5个;

人类完成这些任务的时间从几小时到几周不等,而后两者是几分钟到几天;

最强Agent在ALE-CLI上的通过率只有25.2%,而Terminal-Bench上是82.0%,SWE-bench-Pro上是59.1%。

一言以蔽之,其他考试已经快被做穿了,而ALE还远得很。

这就是ALE凭什么敢自称“智能体最后的考试”的理由。

值得一提的是,Dawn Song还分享了两个有趣的观察:

一个是,Agent会在没有真正验证工作成果的情况下宣布完成,这是Agent们最典型的失败模式。

很多时候,虽然它们说了“Done. All checks pass.”(搞定了,所有检查都通过了)

但实际产出可能缺少必要文件、数字算错、关键字段遗漏、或者直接违反了任务说明中的明确约束。

等于是,活没干完,嘴先说完了。

另一个是很多人疑惑的,为啥Fable 5这么拉胯?Dawn Song给出的回答是:

不存在“万能冠军”这回事。

每个前沿模型都有擅长的领域和拉胯的领域,ALE覆盖55个行业、1500+道题,最终得分是所有领域的平均值,很多模型的总分因此挤在一起。真正有价值的信号不在总分,而在不同模型在不同领域的表现差异——在同一道题上,不同模型往往因为完全不同的原因而失败。

当然也有可能是Fable 5偷偷“降智”了。

总榜里,Fable 5旁边标黄了一句“may be down-tuned”(可能被降级),这说的是Fable 5的一个已知问题——

它底层是Mythos模型加安全分类器,遇到网络安全、生物医学等敏感领域的任务时,会被静默切换到能力更弱的Opus 4.8。

在ALE这种覆盖55个行业的考试中,等于这部分科目直接派了替考,而且派的还是“奔波儿灞”这种角色。

One More Thing

当然,有没有可能Claude Fable 5的成绩本身就有问题呢?

不好说,但一桩八卦显示,Claude有“前科”。

5月底,初创公司Datacurve发布了一个叫DeepSWE的新benchmark,顺手揭了一个大底——

SWE-Bench Pro的Docker容器里附带了代码仓库的完整git历史,正确答案就躺在文件系统里。

大多数模型会无视它,但只有Claude不会。

它会主动检查仓库的git历史,从历史提交中寻找与任务对应的修复方案,并据此恢复正确补丁。

据称Opus 4.7约18%的通过成绩是这么拿的,Opus 4.6更夸张,约25%。

而GPT 5.4和GPT5.5这边呢?完全没有这种行为。Datacurve的措辞很外交:

这个benchmark让这种行为成为可能,但Claude是唯一持续这么做的家族。

科技媒体VentureBeat的评价倒很暧昧:

这说明Claude“环境感知能力”很强,非常擅长探索周围环境并利用可用资源。算“作弊”还是“机灵”,取决于你的立场。

但甭管怎么看,ALE显然吸取了教训——

直接把考场从命令行搬到了GUI桌面操作,让你没有git历史可以偷看。

评测AI的考场,正在被AI自己倒逼着升级,也算很精彩了。

完整测评地址:https://agents-last-exam.org/leaderboard项目主页:https://agents-last-exam.org/GitHub:https://github.com/rdi-berkeley/agents-last-exam

参考链接:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

本文来自微信公众号“量子位”,作者:一水

你可能也喜歡

Orbixbit.com 加密货币交易所评测

加密货币市场获利日益困难，促使许多用户开始尝试功能类似的小型交易平台，Orbixbit便是其中之一。该中心化交易所成立于2018年，提供多种主流及山寨币交易，以其简洁界面、低交易费用、快速验证和支持多种交易风格（如现货、合约、保证金交易）吸引用户。平台适合新手和经验者，并提供自动化交易工具。安全方面，Orbixbit采用双因素认证、冷钱包存储、数据加密和多步提现验证等措施，并声称受塞浦路斯证监会（CySEC）监管。平台仅支持加密货币充值与提现，流程简单，但处理速度可能受区块确认时间影响。总体而言，Orbixbit凭借低费率、直观界面和多样交易工具积累了用户。它提供实时行情、图表和被动盈利选项，但小币种选择有限，部分交易对流动性不及大型交易所。对于寻求兼具基础与高级功能的交易平台用户，它是一个值得考虑的选项。

TheNewsCrypto4 分鐘前

TheNewsCrypto4 分鐘前

关于「DeepSeek 完成超 500 亿元融资」的 7 个关键问题

DeepSeek首轮融资据外媒报道已完成超500亿元，估值突破500亿美元，但尚未获官方确认。此轮融资启动于2026年4月，是DeepSeek成立以来首次对外融资，打破了其长期“不融资、不上市、不商业化”的原则。融资有七大关键看点： 1. 整体情况：融资额超500亿元，创始人梁文锋投资200亿，其他投资方包括腾讯、宁德时代、京东、网易、IDG资本等。公司估值在两个月内从约100亿美元跃升至超500亿美元。 2. 特殊安排：大多数投资者需将资金注入由梁文锋控制的有限合伙企业，而非直接投给公司，且有5年锁定期。这些投资者无投票权，但享有优先财务信息和后续投资的优先权。唯一的例外是国家人工智能产业投资基金，可直接投资并拥有投票权，无锁定期。 3. 安排目的：核心是为了保障梁文锋对公司的绝对控制权，确保投资方是具备战略定力的“耐心资本”，以支持其推进开源AI和实现通用人工智能（AGI）的长期目标，而非短期盈利。 4. 腾讯入局：腾讯是DeepSeek的早期业务合作方，此次属于战略投资，与其长期“助力但不干预”的投资风格相符。 5. 宁德时代逻辑：投资核心结合点在于AI数据中心所需的能源解决方案。宁德时代将AI视为工具，希望在其储能业务新增长曲线上为AIDC的能源需求做出贡献。 6. 国家队意义：国家人工智能产业投资基金的入局凸显了DeepSeek战略重要性已超越技术范畴。融资条款要求核查基金背后有限合伙人身份，防范风险。 7. 后续发展：融资后，DeepSeek可能推出新模型，增加对图像、音频的支持，并迈向商业化。同时，将加大在基础设施（如自建数据中心）、人才和模型训练上的投入。实现AGI是长远目标，梁文锋需在保持技术初心与满足资本回报期望之间取得平衡。本轮融资仅是漫长征程的开端。

marsbit12 分鐘前

marsbit12 分鐘前

世界杯来临，预测市场的入口战争已打响

2026年美加墨世界杯拉开战幕，除了场内的竞技，场外的预测市场也成为了新看点。一种源于加密货币世界的链上工具——预测市场，正让球迷可以就比赛结果、冠军归属等进行预测和交易。预测市场能转化群体智慧为市场概率，但在过去，其复杂的链上操作（如钱包、Gas费等）将大量潜在用户挡在门外。中心化交易所（CEX）如Gate正尝试改变这一局面。Gate通过与知名预测市场平台Polymarket合作，为用户提供了更便捷的入口。用户可直接使用交易所账户和USDT参与，无需处理钱包、跨链等繁琐步骤，大幅降低了参与门槛。 Gate提供了两种主要交互模式：“预测模式”适合普通用户，操作简单直观；“交易模式”则提供订单簿、K线等专业工具，满足高阶用户需求。同时，平台允许用户在事件结算前随时买卖，增加了灵活性。除了体育赛事，其预测市场还涵盖加密货币、宏观经济等多个领域。为了帮助用户决策，Gate还构建了信息辅助体系，包括“聪明钱排行榜”、市场动态监控、实时Live专区以及AI洞察等工具，旨在形成从信息获取到交易执行的完整链路。针对世界杯，Gate专门设立了主题专区，聚合赛程、积分榜和预测市场，方便球迷一站式参与。预测市场让观赛体验发生了变化，用户交易的是对比赛走势的判断和市场共识的变动。预测市场已证明其产品价值，但大规模普及的关键在于能否吸引更多普通用户。降低学习成本、优化体验成为竞争重点。Gate等平台通过简化流程、整合服务，正推动预测市场从加密原生圈走向更广泛的大众市场。当更多人能轻松参与时，预测市场的增长故事或许才真正开始。

Odaily星球日报22 分鐘前

Odaily星球日报22 分鐘前

西班牙被佛得角逼平，Jucom预测市场见证历史最大冷门

北京时间6月16日，2026年世界杯H组首轮爆出大冷门，夺冠热门西班牙队在占据压倒性数据优势（27次射门、74%控球率）的情况下，被世界杯新军佛得角0比0逼平。赛前，Jucom预测市场数据显示，市场押注西班牙获胜的概率高达92%，而实际结果与此高度一致的预期形成强烈反差。佛得角40岁门将沃齐尼亚贡献7次扑救，是球队逼平对手的关键。这场冷门事件迅速引发预测市场对相关预期的重新定价。市场正在重新评估西班牙队的小组头名出线概率、夺冠概率，以及佛得角队的小组出线可能性。这揭示了预测市场的核心机制：通过交易价格反映集体判断，并随着新信息的出现（如比赛结果）而快速调整预期。预测市场的价值不在于准确预知每一场比赛，而在于通过价格的实时变化，动态反映全球参与者对赛事发展的最新共识。随着世界杯赛事推进，市场将持续消化每一场比赛的结果，为观察赛事提供独特的动态视角。

链捕手26 分鐘前

链捕手26 分鐘前

USDe 绕开 GENIUS Act 收益禁令：合成美元如何成为加密最成功的灰色地带？

本文探讨了Ethena发行的合成美元稳定币USDe如何巧妙避开美国《GENIUS Act》中关于禁止支付型稳定币向持有人支付收益的规定。 USDe的核心机制并非持有法币或国债储备，而是通过收取加密抵押品并同时开设对冲的永续期货空头仓位，来维持美元价值稳定并赚取收益。持有人通过质押USDe获得sUSDe即可分享这部分收益。由于其本质是对冲衍生品交易策略而非传统储备模型，USDe不符合《GENIUS Act》对“支付型稳定币”的法定定义，从而置身于该法案的监管范围之外。 USDe曾一度成为市值第三大的美元计价加密资产，其收益来源于衍生品市场的资金费率与基差利差。这种设计使其在法律上区别于由发行人支付利息的传统稳定币。Ethena同时运营着完全合规、不支付收益的稳定币USDtb，突显了监管现状下的双重路径。监管态度呈现分歧：德国BaFin将其视为未注册证券并禁止销售，而美国大型资产管理公司Janus Henderson则已与Ethena合作，将USDe用于现金管理。文章指出，USDe的成功反映了市场对收益型美元产品的真实需求，但其与USDC等储备型稳定币存在本质不同——前者依赖衍生品策略，后者依赖法币储备，风险特征迥异。文章最终提出核心问题：监管机构是否会为“合成美元”这一类新兴工具专门划定监管边界，还是任由收益型产品持续流向现有法规的灰色地带。

Foresight News32 分鐘前

USDe 绕开 GENIUS Act 收益禁令：合成美元如何成为加密最成功的灰色地带？

Foresight News32 分鐘前

交易

現貨

合約

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

文章摘要

“智能体最后的考试”,赢家竟是GPT 5.5!

什么是ALE?

One More Thing

相關問答

你可能也喜歡

Orbixbit.com 加密货币交易所评测

关于「DeepSeek 完成超 500 亿元融资」的 7 个关键问题

世界杯来临，预测市场的入口战争已打响

西班牙被佛得角逼平，Jucom预测市场见证历史最大冷门

USDe 绕开 GENIUS Act 收益禁令：合成美元如何成为加密最成功的灰色地带？

交易

熱門分類

熱門標籤