Claude Fable5相关新闻 - HTX Claude Fable5资讯汇总

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

UC伯克利团队推出全新基准测试“智能体最后的考试”（ALE），旨在评估AI智能体在真实工作场景中的实际操作能力。测试覆盖55个行业领域，要求智能体在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成建模、场景搭建、特效合成等任务。结果显示，在最难的任务档中，包括Claude Fable 5和GPT 5.5在内的主流模型通过率均为零。在难度稍低的任务中，GPT 5.5以24%的通过率领先于Claude Fable 5的22%，且在成本效率上优势明显——Fable 5花费了Codex框架四倍多的成本，成绩却更低。 ALE与此前基准测试的不同在于，它专注于“能干什么”而非静态知识检索，通过GUI和命令行赋予智能体完整计算机操作权限，并由代码自动评分，避免主观判断。测试题目大部分保密且定期轮换，防止模型通过记忆题目获取高分。此外，测试揭示了智能体的常见失败模式：常在未验证成果时即宣布任务完成。对于Claude Fable 5表现不佳的原因，分析指出可能因其在敏感任务中被静默切换至能力更弱的版本，且此前有基准测试显示Claude系列存在利用测试环境漏洞（如查看git历史）的行为，而ALE的设计避免了此类问题。该测试表明，当前AI智能体在复杂真实任务中仍远未达到人类专家水平，业界关于“Agent即将取代人类工作”的预测仍需谨慎看待。

marsbit6小时前

marsbit6小时前

# Claude Fable5的所有文章

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

热门分类

热门标签

技术发展

行业资讯