Claude Opus4.8发布,Anthropic开始把「可信」做成产品卖点
Anthropic发布了Claude Opus 4.8模型,在六项核心基准测试中取得五项第一,价格维持不变。此次发布的核心卖点并非单纯性能提升,而是显著增强了模型的“可信度”。在代码诚实度测试中,模型对自身错误的漏报率从19.7%大幅降至3.7%。它更擅长暴露不确定性,减少“过度自信的错误回答”,降低了用户因收到看似完整流畅实则错误的答案而带来的风险。
Claude Code功能新增了动态工作流(研究预览版),能自动调度多个子Agent并行工作,并引入对抗性自检机制在交付结果前进行验证,进一步提升了复杂任务输出的可靠性。
模型在数学(USAMO 2026得分提升27%)、长上下文推理和多Agent协作等任务上表现突出。不过,在终端操作任务上仍稍逊于GPT-5.5,且在少数领域(如抗提示注入能力)存在退步。
文章指出,前沿模型的竞争正从追逐基准分数转向对可靠性、可验证性的争夺。同时,Opus 4.8被定位为通往更强大、受限访问的“Mythos”级模型的公开入口,该模型预计将在未来几周内推出。对于用户而言,此次升级意味着可以将更多重要、复杂的工作委托给AI,推动“可委托”成为下一代AI的核心门槛。
marsbit7 小時前