模型发布相關新聞 - HTX 模型发布資訊匯總

Claude Opus4.8发布，Anthropic开始把「可信」做成产品卖点

Anthropic发布了Claude Opus 4.8模型，在六项核心基准测试中取得五项第一，价格维持不变。此次发布的核心卖点并非单纯性能提升，而是显著增强了模型的“可信度”。在代码诚实度测试中，模型对自身错误的漏报率从19.7%大幅降至3.7%。它更擅长暴露不确定性，减少“过度自信的错误回答”，降低了用户因收到看似完整流畅实则错误的答案而带来的风险。 Claude Code功能新增了动态工作流（研究预览版），能自动调度多个子Agent并行工作，并引入对抗性自检机制在交付结果前进行验证，进一步提升了复杂任务输出的可靠性。模型在数学（USAMO 2026得分提升27%）、长上下文推理和多Agent协作等任务上表现突出。不过，在终端操作任务上仍稍逊于GPT-5.5，且在少数领域（如抗提示注入能力）存在退步。文章指出，前沿模型的竞争正从追逐基准分数转向对可靠性、可验证性的争夺。同时，Opus 4.8被定位为通往更强大、受限访问的“Mythos”级模型的公开入口，该模型预计将在未来几周内推出。对于用户而言，此次升级意味着可以将更多重要、复杂的工作委托给AI，推动“可委托”成为下一代AI的核心门槛。

marsbit7 小時前

marsbit7 小時前

# 模型发布的所有文章

Claude Opus4.8发布，Anthropic开始把「可信」做成产品卖点

熱門分類

熱門標籤

项目动态

比特币