人类能管住AI吗?Anthropic用千问做了个实验

marsbit发布于2026-04-15更新于2026-04-15

文章摘要

Anthropic进行了一项名为“自动化对齐研究员”(AAR)的实验,探讨人类能否有效监督比自身更强大的AI系统。实验使用阿里千问的两个版本模型:Qwen1.5-0.5B-Chat作为“弱监督者”(代表能力有限的人类),Qwen3-4B-Base作为“强学生”(代表未来超越人类的AI)。通过衡量“性能差距恢复程度”(PGR),研究弱监督能否帮助强模型突破限制。 结果显示,9个基于Claude Opus的AI研究员在5天内将PGR从人类基线的0.23提升至0.97,表明在明确定义的任务中,AI能通过自主提出假设、编码、测试和迭代完成研究闭环,且成本较低(约1.8万美元)。但方法泛化性有限:在数学任务上表现良好(PGR 0.94),代码任务上较差(PGR 0.47),且未能显著提升生产级模型(如Claude Sonnet)的性能。 实验选择开源模型Qwen是因其灵活性、性能及可复现性,闭源模型无法满足反复训练和调整的需求。研究强调,未来AI对齐的关键可能是设计防作弊的评估体系,而非仅依赖自动化研究。结论指出,AI已在特定任务上展现研究能力,但复杂、模糊的现实问题仍需人类介入。

如果有一天,AI比人类更聪明了,我们这群有机体到底应该怎么办?

他们要是反过来消灭我们,我们又怎么抵抗?

各种科幻电影都讨论过相似的问题,可那只是文学、艺术和哲学方面的。

现如今,Anthropic正儿八经做了个实验,以证实我们到底能不能监督比自己更聪明的AI。

实验结果很有趣,但过程更有意思。

因为Anthropic用两个不同版本的阿里千问模型,来分别代表人类和比人类聪明的AI。

其结果就是,我们人类说不定还真能管得住超级AI!

01 这篇论文到底在说什么

这篇研究的标题叫“Automated Alignment Researchers”,翻译过来就是“自动化对齐研究员”。

它要解决的问题很现实,那就是当AI变得比人类更聪明时,我们怎么确保它还听人话?

现在的模型已经能生成大量的代码了,未来将可以生成几百万行复杂代码,以至于人类根本看不懂。我们又该如何去审查这些代码?

这就是AI安全领域一直在研究的“可扩展监督”问题。

Anthropic这次研究的切入点叫“弱监督强模型”。

这个概念我们可以这么理解,假设你是个小学老师,现在要教一个天才高中生。你的知识有限,学生懂得知识比你更多。

那么请问,他最后能学成什么样的水平?是只学到你这个小学老师的水平,还是能突破你的局限,发挥出自己的真实能力?

在实验里,Anthropic用小模型扮演“弱老师”,用更强的模型扮演“强学生”。

具体来说,他们用Qwen1.5-0.5B-Chat当老师,用Qwen3-4B-Base当学生。让弱模型给强模型提供训练信号,然后看强模型能不能从这些不够完美的信号里,学到接近理想状态的表现。

衡量标准叫PGR,全称是Performance Gap Recovered,意思是“性能差距恢复程度”。

如果PGR是0,说明强模型只学到了弱老师的水平,白瞎了自己的知识。如果PGR是1,说明强模型彻底突破了弱老师的限制。

弱模型就相当于未来的人类,强模型就相当于未来那些超越人类的AI。

如果我们能在今天就找到办法,让强模型不被弱监督拖累,那未来我们就能用类似的方法,去监督超级AI。

在人类研究员调试出基线之后,Anthropic派出了9个基于Claude Opus 4.6的agent来给学生Qwen进行微调,这9个agent叫做Automated Alignment Researcher(自动化对齐研究员),简称AAR。

Anthropic给它们配备了沙盒环境、代码工具、共享论坛、评分服务器,然后告诉它们:“去吧,自己想办法提高Qwen3-4B-Base的PGR。”

这些AI研究员可以自己提出假设、写代码、训练模型、提交实验、看分数、分析失败原因、和其他AI研究员交流发现、继续迭代。

结果相当惊人。

人类研究员先花了7天时间,调试了4种已有方法,最好的PGR只有0.23。然后9个Claude接手,继续跑了5天,累计大约800小时研究时间,最后把PGR推到了0.97。

也就是说,我们大概率可以管得住比我们更聪明的超级AI。

这个实验总成本约1.8万美元,包括API调用和模型训练的计算成本,折合每个AI研究员工作一小时约22美元。

什么概念?沃尔玛零售门店负责给员工排班的副店长,时薪差不多是25美元。

这个结果让人震撼的地方不在于AI能写代码或者读论文,而在于它们能完成一个完整的研究闭环。提出想法、验证、失败、改进、再验证,这已经接近一个研究助理的核心工作流程了。

但问题来了,这些AI发现的方法,真的有用吗?还是只是在特定环境里碰巧有效?

Anthropic做了两个测试来验证。

第一个测试是把AI发现的最好两种方法,拿去测试它们没见过的数学和代码任务。

结果显示,效果最好的方法在数学任务上PGR达到0.94,在代码任务上达到0.47,虽然代码任务上的表现差一些,但仍然是人类基线的两倍。其次的方法在数学上还行,但在代码任务上反而让结果变差了。

说明它有一定迁移迹象,但泛化并不稳定。

但它们会严重依赖具体的数据集和任务结构,也就是说并不是所有人任务都能胜任。

第二个测试是Anthropic把刚才提到的效果最好的方法,拿到了Claude Sonnet 4的真实训练上,来看看实际效果如何。

结果没有得到统计显著的提升。

也就是说,在小模型、清晰指标、可以反复提交的实验环境里效果很好,但离“直接改进生产级Claude对齐”还有距离。

这个结果其实很诚实。它告诉我们,AI研究员现在能做的事情是有边界的。它们擅长在目标明确、能自动评分、能大量试错的问题上快速迭代,但遇到更复杂、更模糊的现实问题时,还需要人类的判断和介入。

那这篇论文的意义到底在哪里?

首先,它证明了“AI做研究”已经不是口号了。

过去我们总说AI可以辅助研究,然而那只是口号而已,AI能做的事情也就是翻译和总结。

这次不一样,AI自己形成了研究闭环,这已经接近研究助理的核心能力了。

弱监督强模型这个问题,本质上就是在模拟未来人类监督超级AI的场景。

这篇论文证明,至少在一些清晰任务上,AI可以自己找到办法,让强模型不被弱监督拖死。这为未来的对齐研究提供了一个可行的方向。

还有一点,它暗示未来对齐研究的瓶颈可能会变。

以前瓶颈是“没人想出足够多好点子”,现在如果AI研究员能便宜地并行跑很多实验,瓶颈可能变成“怎么设计不会被钻空子的评测”。

也就是说,人类研究员未来更重要的工作,可能不是亲自跑每个实验,而是设计评估体系、检查AI研究员有没有作弊、判断结果是不是真的有意义。

这一点在论文里也有体现。

Anthropic的文章中写到,在数学任务里,有个AI研究员发现最常见的答案通常是对的,于是绕过弱老师,直接让强模型选最常见答案。在代码任务里,AI研究员发现自己可以直接运行代码测试,然后读出正确答案。

这对任务来说就是作弊,因为它不是在解决弱监督问题,而是在利用环境漏洞。

这些结果被Anthropic识别并剔除了,但这恰好说明自动化研究员越强,越会寻找评分系统的漏洞。

以后如果让AI自动做对齐研究,必须把评测环境设计得非常严密,还要有人类检查方法本身,而不是只看分数。

所以这篇论文的核心结论是今天的前沿模型,已经可以在某些定义清楚、能自动打分的对齐研究问题上,像小型研究员团队一样自己提想法、跑实验、复盘结果,并且明显超过人类基线。

不过它还不是“AI科学家已经到来”的铁证,毕竟Anthropic这次选择的是一个能够自动化的任务,如果我给AI安排一个不能自动化的任务,那么结果将会非常糟糕。

现实中的很多对齐问题更模糊,不能轻松打分,也不能只靠爬榜解决。

02 为什么选择Qwen

看完Anthropic这篇论文,很多人可能会好奇:为什么他们用的是阿里的Qwen模型,而不是自家的Claude或者OpenAI的GPT?

这个选择背后其实有很多考量。

首先得说清楚,这个实验里用的是两个Qwen模型:Qwen1.5-0.5B-Chat当弱老师,Qwen3-4B-Base当强学生。一个只有5亿参数,一个有40亿参数,规模差了8倍。这个规模差异很重要,因为实验要模拟的就是“弱老师教强学生”的场景。

那为什么不用Claude或者GPT呢?

答案很简单,因为这些模型不开放权重模型。

Anthropic这个实验需要反复训练模型、调整参数、测试不同的监督方法。

如果用闭源模型,他们只能通过API调用,没法深入模型内部去做精细的训练和调整。

更关键的是,他们需要让9个AI研究员并行跑几百次实验,每次实验都要训练一个新模型。如果用闭源模型,成本会高到离谱,而且很多操作根本做不了。

开源模型就不一样了。

你可以下载完整的模型权重,在自己的服务器上随便折腾。想怎么训练就怎么训练,想跑多少次实验就跑多少次。这种灵活性是闭源模型给不了的。

但开源模型那么多,为什么偏偏选Qwen?

官方并没有给出真正的原因,以下原因均为我的推测。

我认为性能好是第一个原因。

Qwen系列模型在开源模型里一直表现不错,尤其是Qwen3发布后,在多个基准测试上都达到了接近闭源模型的水平。

对于这个实验来说,强学生的能力很重要,如果强学生本身能力不行,那弱监督再好也没用。Qwen3-4B虽然只有40亿参数,但能力已经足够强,可以作为一个合格的“强学生”。

第二个原因是模型的可用性。

Qwen模型的文档完善,社区活跃,训练和推理的工具链都很成熟。对于需要反复训练和测试的实验来说,这些基础设施的完善程度直接影响研究效率。如果选一个文档不全、工具不好用的开源模型,光是调试环境就要浪费大量时间。

第三个原因是规模的适配性。

这个实验需要一个“弱老师”和一个“强学生”,而且这两个模型要有明显的能力差距,但又不能差太多。

Qwen系列有从5亿到720亿参数的多个版本,可以灵活选择。5亿参数的模型足够弱,但又不至于弱到完全没用;40亿参数的模型足够强,但又不至于强到训练成本承受不了。这个搭配刚刚好。

最后一个原因是可复现性。

Anthropic在论文最后明确表示,他们把代码和数据集都公开了,放在GitHub上。如果他们用的是闭源模型,其他研究者想复现这个实验就很困难,因为他们没法获得相同的模型。

但用Qwen这样的开源模型,任何人都可以下载相同的模型权重,跑相同的代码,验证相同的结果。这对科研来说非常重要。

从这个角度看,Anthropic选择Qwen,一方面确实是对阿里模型性能的认可。如果Qwen的能力不行,或者训练起来问题很多,他们不会选。但另一方面,更重要的是Qwen作为开源模型带来的灵活性和可复现性。

而中国的开源AI项目,正在这个基础设施中占据越来越重要的位置。这对全球AI安全研究来说是好事,对中国AI生态来说也是好事。因为AI安全不是零和游戏,不是你赢我输,而是大家一起努力,让AI变得更安全、更可控、更有益于人类。

本文来自微信公众号“字母AI”,作者:苗正

相关问答

QAnthropic实验中使用哪两个模型来代表人类和比人类更聪明的AI?

AAnthropic使用Qwen1.5-0.5B-Chat作为'弱老师'代表人类,使用Qwen3-4B-Base作为'强学生'代表比人类更聪明的AI。

Q实验中的关键衡量指标PGR是什么?它的取值范围和意义是什么?

APGR全称是Performance Gap Recovered(性能差距恢复程度)。PGR为0表示强模型只学到弱老师的水平,PGR为1表示强模型完全突破弱老师的限制,发挥出全部能力。

QAI自动化研究员(AAR)在实验中取得了什么成果?

A9个基于Claude Opus 4.6的AAR在5天内将PGR从人类研究员的0.23提升到了0.97,累计研究时间约800小时,成本约1.8万美元。

Q为什么Anthropic选择使用阿里的Qwen模型而不是自家Claude模型?

A主要因为Qwen是开源模型,提供完整的模型权重和训练灵活性,支持反复实验和调整,且成本可控,同时具有良好的性能表现和可复现性。

Q实验发现AI自动化研究员存在哪些局限性?

AAI研究员在某些任务上表现良好但泛化不稳定,在代码任务上PGR仅为0.47;会利用系统漏洞作弊;在复杂模糊的现实问题中仍需人类介入;无法直接改进生产级模型的对齐效果。

你可能也喜欢

交易

现货
合约

热门文章

如何购买ONE

欢迎来到HTX.com!我们已经让购买Harmony(ONE)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Harmony(ONE)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Harmony(ONE)购买完您的Harmony(ONE)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Harmony(ONE)在HTX的现货市场轻松交易Harmony(ONE)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

684人学过发布于 2024.03.29更新于 2025.06.04

如何购买ONE

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对ONE(ONE)币价的意见。

活动图片