人类能管住AI吗?Anthropic用千问做了个实验
Anthropic进行了一项名为“自动化对齐研究员”(AAR)的实验,探讨人类能否有效监督比自身更强大的AI系统。实验使用阿里千问的两个版本模型:Qwen1.5-0.5B-Chat作为“弱监督者”(代表能力有限的人类),Qwen3-4B-Base作为“强学生”(代表未来超越人类的AI)。通过衡量“性能差距恢复程度”(PGR),研究弱监督能否帮助强模型突破限制。
结果显示,9个基于Claude Opus的AI研究员在5天内将PGR从人类基线的0.23提升至0.97,表明在明确定义的任务中,AI能通过自主提出假设、编码、测试和迭代完成研究闭环,且成本较低(约1.8万美元)。但方法泛化性有限:在数学任务上表现良好(PGR 0.94),代码任务上较差(PGR 0.47),且未能显著提升生产级模型(如Claude Sonnet)的性能。
实验选择开源模型Qwen是因其灵活性、性能及可复现性,闭源模型无法满足反复训练和调整的需求。研究强调,未来AI对齐的关键可能是设计防作弊的评估体系,而非仅依赖自动化研究。结论指出,AI已在特定任务上展现研究能力,但复杂、模糊的现实问题仍需人类介入。
marsbit昨天 09:27