超智能相关新闻 - HTX 超智能资讯汇总

人类能管住AI吗？Anthropic用千问做了个实验

Anthropic进行了一项名为“自动化对齐研究员”（AAR）的实验，探讨人类能否有效监督比自身更强大的AI系统。实验使用阿里千问的两个版本模型：Qwen1.5-0.5B-Chat作为“弱监督者”（代表能力有限的人类），Qwen3-4B-Base作为“强学生”（代表未来超越人类的AI）。通过衡量“性能差距恢复程度”（PGR），研究弱监督能否帮助强模型突破限制。结果显示，9个基于Claude Opus的AI研究员在5天内将PGR从人类基线的0.23提升至0.97，表明在明确定义的任务中，AI能通过自主提出假设、编码、测试和迭代完成研究闭环，且成本较低（约1.8万美元）。但方法泛化性有限：在数学任务上表现良好（PGR 0.94），代码任务上较差（PGR 0.47），且未能显著提升生产级模型（如Claude Sonnet）的性能。实验选择开源模型Qwen是因其灵活性、性能及可复现性，闭源模型无法满足反复训练和调整的需求。研究强调，未来AI对齐的关键可能是设计防作弊的评估体系，而非仅依赖自动化研究。结论指出，AI已在特定任务上展现研究能力，但复杂、模糊的现实问题仍需人类介入。

marsbit昨天 09:27

marsbit昨天 09:27

# 超智能的所有文章

人类能管住AI吗？Anthropic用千问做了个实验

热门分类

热门标签

行业资讯

市场分析