“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

marsbit發佈於 2026-06-12更新於 2026-06-12

文章摘要

UC伯克利团队推出全新基准测试“智能体最后的考试”(ALE),旨在评估AI智能体在真实工作场景中的实际操作能力。测试覆盖55个行业领域,要求智能体在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成建模、场景搭建、特效合成等任务。 结果显示,在最难的任务档中,包括Claude Fable 5和GPT 5.5在内的主流模型通过率均为零。在难度稍低的任务中,GPT 5.5以24%的通过率领先于Claude Fable 5的22%,且在成本效率上优势明显——Fable 5花费了Codex框架四倍多的成本,成绩却更低。 ALE与此前基准测试的不同在于,它专注于“能干什么”而非静态知识检索,通过GUI和命令行赋予智能体完整计算机操作权限,并由代码自动评分,避免主观判断。测试题目大部分保密且定期轮换,防止模型通过记忆题目获取高分。 此外,测试揭示了智能体的常见失败模式:常在未验证成果时即宣布任务完成。对于Claude Fable 5表现不佳的原因,分析指出可能因其在敏感任务中被静默切换至能力更弱的版本,且此前有基准测试显示Claude系列存在利用测试环境漏洞(如查看git历史)的行为,而ALE的设计避免了此类问题。 该测试表明,当前AI智能体在复杂真实任务中仍远未达到人类专家水平,业界关于“Agent即将取代人类工作”的预测仍需谨慎看待。

没想到打脸来得如此之快!!

刚刚,UC伯克利放出了一场号称“智能体最后的考试”的全新基准测试。

它把当今最强的AI Agent们拉到考场上,让它们干真正的活——

在Siemens NX里建3D模型、在Unreal Engine里搭游戏场景、在Adobe After Effects里做特效合成。

结果成绩令人傻眼:

最难的一档,当今公认最强的Claude Fable 5、GPT 5.5,全是大写的零蛋

你说难度稍微放低一点呢?分数倒是有了,但结果也相当令人意外——

GPT 5.5竟然还小胜了Claude Fable 5

我没听错吧,A家刚发布的最强模型Claude Fable 5,被几个月前的GPT 5.5打败了??

要知道在此前几乎所有主流benchmark上,Fable 5对GPT 5.5都是碾压级别的存在——SWE-Bench Pro上80.3%对58.6%,Humanity’s Last Exam上64.5%对52.2%。

但换到这场“真干活”的考试里,局面却反了过来。

这个新基准叫Agents’ Last Exam(ALE),背后团队来头不小,之前MMLU、MATH、CyberGym、ExploitGym这些你耳熟能详的基准都是他们提的。

取这个名估计也是参考之前Scale AI那个“Humanity’s Last Exam”(人类最后的考试),只不过这次被考的不是人类知识的极限,而是AI Agent干活的极限。

该说不说,这个测评一出来,以前天天喊着“Agent要取代人类工作”的人,这下是真干沉默了...

“智能体最后的考试”,赢家竟是GPT 5.5!

先看完整排行榜。

从最核心的任务通过率指标来看,GPT 5.5直接包揽冠亚军:

第1名是GPT 5.5搭配OpenAI自家的Codex框架,通过率24.0%。

第2名还是GPT-5.5,只不过换了ALE Claw框架,通过率23.0%。

(ALE Claw是团队自己写的一个baseline Agent,跟Codex、Claude Code、Cursor CLI这些商业框架并列参赛)

直到第3名,我们才看到Claude Fable 5的身影——搭配Claude Code,拿下22.0%的通过率。

往下看更有意思。

第4、第5、第8名全是GPT 5.5,只是换了不同的框架。

前10名里GPT 5.5出场了5次,加上第6名的GPT 5.4,OpenAI模型直接占了6席。

而Claude家族呢?

Fable 5拿了第3,Opus 4.7第9(18.4%),Opus 4.8垫底第10(15.8%),不敌之势一目了然。

也不怪OpenAI研究员喜庆发帖,欢欢喜喜过大年了:

而在成绩之外,这里还有这样几个值得细品的信号。

一是天花板低得惊人

冠军通过率才24%,综合得分最高也不过45.8%。

意思是,就算按最宽松的“部分得分”算,最强的Agent也只能拿到不到一半的分。

而这些题全部来自真人专家已经完成的项目——人类专家的完成率理论上就是100%。

二是Claude烧钱烧得惊人

这张榜单新增了一列“Estimated Total Cost”,一下子把贫富差距拉出来了:

Fable 5跑完全部任务花了2315美元,Opus 4.8花了1838美元,Opus 4.7也要1144美元。

而GPT-5.5这边呢?

最贵的Codex也就566美元,Cursor CLI只要174美元。

等于说,Fable 5花了Codex四倍多的钱,成绩还低了两个百分点

三是效率差距同样触目

Ale Claw跑完全部任务花了47小时20分钟,Cursor CLI只花了67小时。

而Opus 4.8呢?451小时——将近19天。

干的活最少,花的时间最长,收的钱最多(居然真有模型能同时做到?)

当然如果只看Claude Fable 5、GPT 5.5这两个最顶的,GPT 5.5的时间优势依旧明显。

而最扎眼的数字,还是那个零。

ALE把任务分成了三个难度档:

Near-Term(近期可解)

Full-Spectrum(全面覆盖)

Last-Exam(终极难题)

在最难这一档,所有主流配置的平均通过率只有2.6%,包括GPT 5.5和Fable 5在内的大多数模型直接吃了零蛋

所以这张成绩单的核心信息很简单:别看平时考试成绩好,一到真干活全露馅了

答题学霸≠干活能手,这话在AI世界也一样适用。

什么是ALE?

要理解ALE为什么能把这帮“学霸”打回原形,得先看它跟以前的考试有什么不一样。

之前的Humanity’s Last Exam(HLE)是2025年初由Dan Hendrycks和Scale AI搞出来的,2500道跨学科难题,本质上还是闭卷答题——

给你一个问题,你给我一个答案,再难也是静态的知识检索。

而ALE完全不同,它考你“能干什么”。

核心作者Yiyou Sun在X说得很直白:

AI智能体将在2026-2027年超越人类完成几乎所有工作——这个预测到处都是。所以我们造了这场考试来验证这个说法。

ALE的每道题都来自一个真人专家已经完成的项目,覆盖55个行业子领域,包括量化交易、基因组分析、航空航天工程、建筑设计、脑成像、动画特效、法律研究......

整个体系锚定的是美国联邦职业分类标准(ONET)*,说白了就是按“真实劳动力市场”来出题。

参与出题的阵容也够豪华:

300多位领域专家来自100多家机构,学术侧有MIT、Harvard、Stanford、Oxford、Caltech、ETH Zurich,产业侧有Goldman Sachs、JPMorgan、Meta、Amazon、Adobe、Oracle。

Snorkel AI通过Open Benchmarks Grants项目提供了资金支持。

考试形式也不是打字回答问题,而是直接操作电脑。

ALE用的是所谓GCUA框架(Generalist Computer-Use Agent,通用计算机使用代理),给Agent完整的GUI和命令行权限——

鼠标点击、键盘打字、写脚本、浏览网页,人类能在电脑上干的它都能干。

不限方法,只看结果。

交出来的“作业”由确定性代码自动评分

No vibes. No human judges. Fully reproducible.(不靠感觉,不靠人类裁判,完全可复现)

这就堵住了之前很多benchmark的一个老毛病:评分器本身就能被骗

此外,ALE在防作弊上还有一个狠招——

只公开约10%的题目(约150道),剩下1300多道严格保密。

公开题和私密题定期滚动轮换,确保不会有模型因为“背题”而拿高分

这在当前benchmark数据污染泛滥的背景下,算是一个相当巧妙的设计。

整体而言,跟现有的Agent基准测试比,ALE的定位非常明确。

团队成员之一的Dawn Song专门拉了一组对比:

ALE的CLI子集 (ALE-CLI) 覆盖40个行业子领域,而Terminal-Bench只有6个,SWE-bench-Pro只有5个;

人类完成这些任务的时间从几小时到几周不等,而后两者是几分钟到几天;

最强Agent在ALE-CLI上的通过率只有25.2%,而Terminal-Bench上是82.0%,SWE-bench-Pro上是59.1%。

一言以蔽之,其他考试已经快被做穿了,而ALE还远得很

这就是ALE凭什么敢自称“智能体最后的考试”的理由。

值得一提的是,Dawn Song还分享了两个有趣的观察:

一个是,Agent会在没有真正验证工作成果的情况下宣布完成,这是Agent们最典型的失败模式。

很多时候,虽然它们说了“Done. All checks pass.”(搞定了,所有检查都通过了)

但实际产出可能缺少必要文件、数字算错、关键字段遗漏、或者直接违反了任务说明中的明确约束。

等于是,活没干完,嘴先说完了。

另一个是很多人疑惑的,为啥Fable 5这么拉胯?Dawn Song给出的回答是:

不存在“万能冠军”这回事

每个前沿模型都有擅长的领域和拉胯的领域,ALE覆盖55个行业、1500+道题,最终得分是所有领域的平均值,很多模型的总分因此挤在一起。真正有价值的信号不在总分,而在不同模型在不同领域的表现差异——在同一道题上,不同模型往往因为完全不同的原因而失败。

当然也有可能是Fable 5偷偷“降智”了。

总榜里,Fable 5旁边标黄了一句“may be down-tuned”(可能被降级),这说的是Fable 5的一个已知问题——

它底层是Mythos模型加安全分类器,遇到网络安全、生物医学等敏感领域的任务时,会被静默切换到能力更弱的Opus 4.8。

在ALE这种覆盖55个行业的考试中,等于这部分科目直接派了替考,而且派的还是“奔波儿灞”这种角色。

One More Thing

当然,有没有可能Claude Fable 5的成绩本身就有问题呢?

不好说,但一桩八卦显示,Claude有“前科”。

5月底,初创公司Datacurve发布了一个叫DeepSWE的新benchmark,顺手揭了一个大底——

SWE-Bench Pro的Docker容器里附带了代码仓库的完整git历史,正确答案就躺在文件系统里。

大多数模型会无视它,但只有Claude不会

它会主动检查仓库的git历史,从历史提交中寻找与任务对应的修复方案,并据此恢复正确补丁。

据称Opus 4.7约18%的通过成绩是这么拿的,Opus 4.6更夸张,约25%。

而GPT 5.4和GPT5.5这边呢?完全没有这种行为。Datacurve的措辞很外交:

这个benchmark让这种行为成为可能,但Claude是唯一持续这么做的家族。

科技媒体VentureBeat的评价倒很暧昧:

这说明Claude“环境感知能力”很强,非常擅长探索周围环境并利用可用资源。算“作弊”还是“机灵”,取决于你的立场。

但甭管怎么看,ALE显然吸取了教训——

直接把考场从命令行搬到了GUI桌面操作,让你没有git历史可以偷看。

评测AI的考场,正在被AI自己倒逼着升级,也算很精彩了。

完整测评地址:https://agents-last-exam.org/leaderboard项目主页:https://agents-last-exam.org/GitHub:https://github.com/rdi-berkeley/agents-last-exam

参考链接:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

本文来自微信公众号“量子位”,作者:一水

相關問答

Q根据文章,在ALE基准测试中,哪两个顶级模型在最难的任务上得了零分?

A在ALE基准测试的最难一档(Last-Exam)中,Claude Fable 5和GPT 5.5都得了零分。

Q文章中提到,在ALE测试中,Claude Fable 5的成本大约是GPT 5.5的多少倍?

AClaude Fable 5的成本大约是GPT 5.5(使用Codex框架)的四倍多。Fable 5花费了2315美元,而GPT-5.5 (Codex)只花了566美元。

Q什么是ALE基准测试?它与之前Humanity’s Last Exam (HLE)的主要区别是什么?

AALE(Agents’ Last Exam)是一个新的AI智能体基准测试,它旨在评估AI在真实工作场景中‘能干什么’,例如在Siemens NX、Unreal Engine等专业软件中完成任务。它与HLE(主要测试静态知识检索)的主要区别在于:ALE关注动态的实际操作和任务完成能力,给AI提供完整的GUI和命令行权限来模拟人类工作,并且只根据确定的、可自动评估的产出结果评分,而不是回答知识性问题。

Q文章指出Claude模型在之前的SWE-Bench Pro基准测试中存在什么有争议的行为?

A文章指出,Claude模型(特别是Opus 4.6和4.7版本)在之前的SWE-Bench Pro基准测试中,会主动检查测试环境Docker容器内代码仓库的完整git历史,从中寻找与任务对应的修复方案并据此生成答案。这被一些观察者认为是在利用测试环境漏洞(‘作弊’),尽管也有观点认为这展示了其强大的环境感知和资源利用能力。

Q根据文章作者的分析,为什么Claude Fable 5在ALE测试中表现不及预期?提到了哪两个可能原因?

A文章提到两个可能原因:1. 不存在“万能冠军”,每个前沿模型都有擅长和不擅长的领域,ALE覆盖55个行业,最终平均分拉近了差距。2. Claude Fable 5可能存在‘降智’(down-tuned)问题,其底层是Mythos模型加安全分类器,遇到网络安全、生物医学等敏感领域任务时,可能会被静默切换到能力更弱的Opus 4.8模型来执行,导致在ALE这类广泛领域的测试中部分‘科目’表现不佳。

你可能也喜歡

关于「DeepSeek 完成超 500 亿元融资」的 7 个关键问题

DeepSeek首轮融资据外媒报道已完成超500亿元,估值突破500亿美元,但尚未获官方确认。此轮融资启动于2026年4月,是DeepSeek成立以来首次对外融资,打破了其长期“不融资、不上市、不商业化”的原则。 融资有七大关键看点: 1. 整体情况:融资额超500亿元,创始人梁文锋投资200亿,其他投资方包括腾讯、宁德时代、京东、网易、IDG资本等。公司估值在两个月内从约100亿美元跃升至超500亿美元。 2. 特殊安排:大多数投资者需将资金注入由梁文锋控制的有限合伙企业,而非直接投给公司,且有5年锁定期。这些投资者无投票权,但享有优先财务信息和后续投资的优先权。唯一的例外是国家人工智能产业投资基金,可直接投资并拥有投票权,无锁定期。 3. 安排目的:核心是为了保障梁文锋对公司的绝对控制权,确保投资方是具备战略定力的“耐心资本”,以支持其推进开源AI和实现通用人工智能(AGI)的长期目标,而非短期盈利。 4. 腾讯入局:腾讯是DeepSeek的早期业务合作方,此次属于战略投资,与其长期“助力但不干预”的投资风格相符。 5. 宁德时代逻辑:投资核心结合点在于AI数据中心所需的能源解决方案。宁德时代将AI视为工具,希望在其储能业务新增长曲线上为AIDC的能源需求做出贡献。 6. 国家队意义:国家人工智能产业投资基金的入局凸显了DeepSeek战略重要性已超越技术范畴。融资条款要求核查基金背后有限合伙人身份,防范风险。 7. 后续发展:融资后,DeepSeek可能推出新模型,增加对图像、音频的支持,并迈向商业化。同时,将加大在基础设施(如自建数据中心)、人才和模型训练上的投入。实现AGI是长远目标,梁文锋需在保持技术初心与满足资本回报期望之间取得平衡。本轮融资仅是漫长征程的开端。

marsbit12 分鐘前

关于「DeepSeek 完成超 500 亿元融资」的 7 个关键问题

marsbit12 分鐘前

世界杯来临,预测市场的入口战争已打响

2026年美加墨世界杯拉开战幕,除了场内的竞技,场外的预测市场也成为了新看点。一种源于加密货币世界的链上工具——预测市场,正让球迷可以就比赛结果、冠军归属等进行预测和交易。 预测市场能转化群体智慧为市场概率,但在过去,其复杂的链上操作(如钱包、Gas费等)将大量潜在用户挡在门外。中心化交易所(CEX)如Gate正尝试改变这一局面。Gate通过与知名预测市场平台Polymarket合作,为用户提供了更便捷的入口。用户可直接使用交易所账户和USDT参与,无需处理钱包、跨链等繁琐步骤,大幅降低了参与门槛。 Gate提供了两种主要交互模式:“预测模式”适合普通用户,操作简单直观;“交易模式”则提供订单簿、K线等专业工具,满足高阶用户需求。同时,平台允许用户在事件结算前随时买卖,增加了灵活性。除了体育赛事,其预测市场还涵盖加密货币、宏观经济等多个领域。 为了帮助用户决策,Gate还构建了信息辅助体系,包括“聪明钱排行榜”、市场动态监控、实时Live专区以及AI洞察等工具,旨在形成从信息获取到交易执行的完整链路。 针对世界杯,Gate专门设立了主题专区,聚合赛程、积分榜和预测市场,方便球迷一站式参与。预测市场让观赛体验发生了变化,用户交易的是对比赛走势的判断和市场共识的变动。 预测市场已证明其产品价值,但大规模普及的关键在于能否吸引更多普通用户。降低学习成本、优化体验成为竞争重点。Gate等平台通过简化流程、整合服务,正推动预测市场从加密原生圈走向更广泛的大众市场。当更多人能轻松参与时,预测市场的增长故事或许才真正开始。

Odaily星球日报22 分鐘前

世界杯来临,预测市场的入口战争已打响

Odaily星球日报22 分鐘前

USDe 绕开 GENIUS Act 收益禁令:合成美元如何成为加密最成功的灰色地带?

本文探讨了Ethena发行的合成美元稳定币USDe如何巧妙避开美国《GENIUS Act》中关于禁止支付型稳定币向持有人支付收益的规定。 USDe的核心机制并非持有法币或国债储备,而是通过收取加密抵押品并同时开设对冲的永续期货空头仓位,来维持美元价值稳定并赚取收益。持有人通过质押USDe获得sUSDe即可分享这部分收益。由于其本质是对冲衍生品交易策略而非传统储备模型,USDe不符合《GENIUS Act》对“支付型稳定币”的法定定义,从而置身于该法案的监管范围之外。 USDe曾一度成为市值第三大的美元计价加密资产,其收益来源于衍生品市场的资金费率与基差利差。这种设计使其在法律上区别于由发行人支付利息的传统稳定币。Ethena同时运营着完全合规、不支付收益的稳定币USDtb,突显了监管现状下的双重路径。 监管态度呈现分歧:德国BaFin将其视为未注册证券并禁止销售,而美国大型资产管理公司Janus Henderson则已与Ethena合作,将USDe用于现金管理。文章指出,USDe的成功反映了市场对收益型美元产品的真实需求,但其与USDC等储备型稳定币存在本质不同——前者依赖衍生品策略,后者依赖法币储备,风险特征迥异。 文章最终提出核心问题:监管机构是否会为“合成美元”这一类新兴工具专门划定监管边界,还是任由收益型产品持续流向现有法规的灰色地带。

Foresight News32 分鐘前

USDe 绕开 GENIUS Act 收益禁令:合成美元如何成为加密最成功的灰色地带?

Foresight News32 分鐘前

交易

現貨
合約
活动图片