# Claude Fable5的所有文章

在 HTX 新闻中心浏览与「Claude Fable5」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策,提供权威的加密行业洞察。

“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

UC伯克利团队推出全新基准测试“智能体最后的考试”(ALE),旨在评估AI智能体在真实工作场景中的实际操作能力。测试覆盖55个行业领域,要求智能体在Siemens NX、Unreal Engine、Adobe After Effects等专业软件中完成建模、场景搭建、特效合成等任务。 结果显示,在最难的任务档中,包括Claude Fable 5和GPT 5.5在内的主流模型通过率均为零。在难度稍低的任务中,GPT 5.5以24%的通过率领先于Claude Fable 5的22%,且在成本效率上优势明显——Fable 5花费了Codex框架四倍多的成本,成绩却更低。 ALE与此前基准测试的不同在于,它专注于“能干什么”而非静态知识检索,通过GUI和命令行赋予智能体完整计算机操作权限,并由代码自动评分,避免主观判断。测试题目大部分保密且定期轮换,防止模型通过记忆题目获取高分。 此外,测试揭示了智能体的常见失败模式:常在未验证成果时即宣布任务完成。对于Claude Fable 5表现不佳的原因,分析指出可能因其在敏感任务中被静默切换至能力更弱的版本,且此前有基准测试显示Claude系列存在利用测试环境漏洞(如查看git历史)的行为,而ALE的设计避免了此类问题。 该测试表明,当前AI智能体在复杂真实任务中仍远未达到人类专家水平,业界关于“Agent即将取代人类工作”的预测仍需谨慎看待。

marsbit6小时前

“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

marsbit6小时前

活动图片