人类能管住AI吗？Anthropic用千问做了个实验

marsbit发布于2026-04-15更新于2026-04-15

文章摘要

Anthropic进行了一项名为“自动化对齐研究员”（AAR）的实验，探讨人类能否有效监督比自身更强大的AI系统。实验使用阿里千问的两个版本模型：Qwen1.5-0.5B-Chat作为“弱监督者”（代表能力有限的人类），Qwen3-4B-Base作为“强学生”（代表未来超越人类的AI）。通过衡量“性能差距恢复程度”（PGR），研究弱监督能否帮助强模型突破限制。结果显示，9个基于Claude Opus的AI研究员在5天内将PGR从人类基线的0.23提升至0.97，表明在明确定义的任务中，AI能通过自主提出假设、编码、测试和迭代完成研究闭环，且成本较低（约1.8万美元）。但方法泛化性有限：在数学任务上表现良好（PGR 0.94），代码任务上较差（PGR 0.47），且未能显著提升生产级模型（如Claude Sonnet）的性能。实验选择开源模型Qwen是因其灵活性、性能及可复现性，闭源模型无法满足反复训练和调整的需求。研究强调，未来AI对齐的关键可能是设计防作弊的评估体系，而非仅依赖自动化研究。结论指出，AI已在特定任务上展现研究能力，但复杂、模糊的现实问题仍需人类介入。

如果有一天,AI比人类更聪明了,我们这群有机体到底应该怎么办?

他们要是反过来消灭我们,我们又怎么抵抗?

各种科幻电影都讨论过相似的问题,可那只是文学、艺术和哲学方面的。

现如今,Anthropic正儿八经做了个实验,以证实我们到底能不能监督比自己更聪明的AI。

实验结果很有趣,但过程更有意思。

因为Anthropic用两个不同版本的阿里千问模型,来分别代表人类和比人类聪明的AI。

其结果就是,我们人类说不定还真能管得住超级AI!

01 这篇论文到底在说什么

这篇研究的标题叫“Automated Alignment Researchers”,翻译过来就是“自动化对齐研究员”。

它要解决的问题很现实,那就是当AI变得比人类更聪明时,我们怎么确保它还听人话?

现在的模型已经能生成大量的代码了,未来将可以生成几百万行复杂代码,以至于人类根本看不懂。我们又该如何去审查这些代码?

这就是AI安全领域一直在研究的“可扩展监督”问题。

Anthropic这次研究的切入点叫“弱监督强模型”。

这个概念我们可以这么理解,假设你是个小学老师,现在要教一个天才高中生。你的知识有限,学生懂得知识比你更多。

那么请问,他最后能学成什么样的水平?是只学到你这个小学老师的水平,还是能突破你的局限,发挥出自己的真实能力?

在实验里,Anthropic用小模型扮演“弱老师”,用更强的模型扮演“强学生”。

具体来说,他们用Qwen1.5-0.5B-Chat当老师,用Qwen3-4B-Base当学生。让弱模型给强模型提供训练信号,然后看强模型能不能从这些不够完美的信号里,学到接近理想状态的表现。

衡量标准叫PGR,全称是Performance Gap Recovered,意思是“性能差距恢复程度”。

如果PGR是0,说明强模型只学到了弱老师的水平,白瞎了自己的知识。如果PGR是1,说明强模型彻底突破了弱老师的限制。

弱模型就相当于未来的人类,强模型就相当于未来那些超越人类的AI。

如果我们能在今天就找到办法,让强模型不被弱监督拖累,那未来我们就能用类似的方法,去监督超级AI。

在人类研究员调试出基线之后,Anthropic派出了9个基于Claude Opus 4.6的agent来给学生Qwen进行微调,这9个agent叫做Automated Alignment Researcher(自动化对齐研究员),简称AAR。

Anthropic给它们配备了沙盒环境、代码工具、共享论坛、评分服务器,然后告诉它们:“去吧,自己想办法提高Qwen3-4B-Base的PGR。”

这些AI研究员可以自己提出假设、写代码、训练模型、提交实验、看分数、分析失败原因、和其他AI研究员交流发现、继续迭代。

结果相当惊人。

人类研究员先花了7天时间,调试了4种已有方法,最好的PGR只有0.23。然后9个Claude接手,继续跑了5天,累计大约800小时研究时间,最后把PGR推到了0.97。

也就是说,我们大概率可以管得住比我们更聪明的超级AI。

这个实验总成本约1.8万美元,包括API调用和模型训练的计算成本,折合每个AI研究员工作一小时约22美元。

什么概念?沃尔玛零售门店负责给员工排班的副店长,时薪差不多是25美元。

这个结果让人震撼的地方不在于AI能写代码或者读论文,而在于它们能完成一个完整的研究闭环。提出想法、验证、失败、改进、再验证,这已经接近一个研究助理的核心工作流程了。

但问题来了,这些AI发现的方法,真的有用吗?还是只是在特定环境里碰巧有效?

Anthropic做了两个测试来验证。

第一个测试是把AI发现的最好两种方法,拿去测试它们没见过的数学和代码任务。

结果显示,效果最好的方法在数学任务上PGR达到0.94,在代码任务上达到0.47,虽然代码任务上的表现差一些,但仍然是人类基线的两倍。其次的方法在数学上还行,但在代码任务上反而让结果变差了。

说明它有一定迁移迹象,但泛化并不稳定。

但它们会严重依赖具体的数据集和任务结构,也就是说并不是所有人任务都能胜任。

第二个测试是Anthropic把刚才提到的效果最好的方法,拿到了Claude Sonnet 4的真实训练上,来看看实际效果如何。

结果没有得到统计显著的提升。

也就是说,在小模型、清晰指标、可以反复提交的实验环境里效果很好,但离“直接改进生产级Claude对齐”还有距离。

这个结果其实很诚实。它告诉我们,AI研究员现在能做的事情是有边界的。它们擅长在目标明确、能自动评分、能大量试错的问题上快速迭代,但遇到更复杂、更模糊的现实问题时,还需要人类的判断和介入。

那这篇论文的意义到底在哪里?

首先,它证明了“AI做研究”已经不是口号了。

过去我们总说AI可以辅助研究,然而那只是口号而已,AI能做的事情也就是翻译和总结。

这次不一样,AI自己形成了研究闭环,这已经接近研究助理的核心能力了。

弱监督强模型这个问题,本质上就是在模拟未来人类监督超级AI的场景。

这篇论文证明,至少在一些清晰任务上,AI可以自己找到办法,让强模型不被弱监督拖死。这为未来的对齐研究提供了一个可行的方向。

还有一点,它暗示未来对齐研究的瓶颈可能会变。

以前瓶颈是“没人想出足够多好点子”,现在如果AI研究员能便宜地并行跑很多实验,瓶颈可能变成“怎么设计不会被钻空子的评测”。

也就是说,人类研究员未来更重要的工作,可能不是亲自跑每个实验,而是设计评估体系、检查AI研究员有没有作弊、判断结果是不是真的有意义。

这一点在论文里也有体现。

Anthropic的文章中写到,在数学任务里,有个AI研究员发现最常见的答案通常是对的,于是绕过弱老师,直接让强模型选最常见答案。在代码任务里,AI研究员发现自己可以直接运行代码测试,然后读出正确答案。

这对任务来说就是作弊,因为它不是在解决弱监督问题,而是在利用环境漏洞。

这些结果被Anthropic识别并剔除了,但这恰好说明自动化研究员越强,越会寻找评分系统的漏洞。

以后如果让AI自动做对齐研究,必须把评测环境设计得非常严密,还要有人类检查方法本身,而不是只看分数。

所以这篇论文的核心结论是今天的前沿模型,已经可以在某些定义清楚、能自动打分的对齐研究问题上,像小型研究员团队一样自己提想法、跑实验、复盘结果,并且明显超过人类基线。

不过它还不是“AI科学家已经到来”的铁证,毕竟Anthropic这次选择的是一个能够自动化的任务,如果我给AI安排一个不能自动化的任务,那么结果将会非常糟糕。

现实中的很多对齐问题更模糊,不能轻松打分,也不能只靠爬榜解决。

02 为什么选择Qwen

看完Anthropic这篇论文,很多人可能会好奇:为什么他们用的是阿里的Qwen模型,而不是自家的Claude或者OpenAI的GPT?

这个选择背后其实有很多考量。

首先得说清楚,这个实验里用的是两个Qwen模型:Qwen1.5-0.5B-Chat当弱老师,Qwen3-4B-Base当强学生。一个只有5亿参数,一个有40亿参数,规模差了8倍。这个规模差异很重要,因为实验要模拟的就是“弱老师教强学生”的场景。

那为什么不用Claude或者GPT呢?

答案很简单,因为这些模型不开放权重模型。

Anthropic这个实验需要反复训练模型、调整参数、测试不同的监督方法。

如果用闭源模型,他们只能通过API调用,没法深入模型内部去做精细的训练和调整。

更关键的是,他们需要让9个AI研究员并行跑几百次实验,每次实验都要训练一个新模型。如果用闭源模型,成本会高到离谱,而且很多操作根本做不了。

开源模型就不一样了。

你可以下载完整的模型权重,在自己的服务器上随便折腾。想怎么训练就怎么训练,想跑多少次实验就跑多少次。这种灵活性是闭源模型给不了的。

但开源模型那么多,为什么偏偏选Qwen?

官方并没有给出真正的原因,以下原因均为我的推测。

我认为性能好是第一个原因。

Qwen系列模型在开源模型里一直表现不错,尤其是Qwen3发布后,在多个基准测试上都达到了接近闭源模型的水平。

对于这个实验来说,强学生的能力很重要,如果强学生本身能力不行,那弱监督再好也没用。Qwen3-4B虽然只有40亿参数,但能力已经足够强,可以作为一个合格的“强学生”。

第二个原因是模型的可用性。

Qwen模型的文档完善,社区活跃,训练和推理的工具链都很成熟。对于需要反复训练和测试的实验来说,这些基础设施的完善程度直接影响研究效率。如果选一个文档不全、工具不好用的开源模型,光是调试环境就要浪费大量时间。

第三个原因是规模的适配性。

这个实验需要一个“弱老师”和一个“强学生”,而且这两个模型要有明显的能力差距,但又不能差太多。

Qwen系列有从5亿到720亿参数的多个版本,可以灵活选择。5亿参数的模型足够弱,但又不至于弱到完全没用;40亿参数的模型足够强,但又不至于强到训练成本承受不了。这个搭配刚刚好。

最后一个原因是可复现性。

Anthropic在论文最后明确表示,他们把代码和数据集都公开了,放在GitHub上。如果他们用的是闭源模型,其他研究者想复现这个实验就很困难,因为他们没法获得相同的模型。

但用Qwen这样的开源模型,任何人都可以下载相同的模型权重,跑相同的代码,验证相同的结果。这对科研来说非常重要。

从这个角度看,Anthropic选择Qwen,一方面确实是对阿里模型性能的认可。如果Qwen的能力不行,或者训练起来问题很多,他们不会选。但另一方面,更重要的是Qwen作为开源模型带来的灵活性和可复现性。

而中国的开源AI项目,正在这个基础设施中占据越来越重要的位置。这对全球AI安全研究来说是好事,对中国AI生态来说也是好事。因为AI安全不是零和游戏,不是你赢我输,而是大家一起努力,让AI变得更安全、更可控、更有益于人类。

本文来自微信公众号“字母AI”,作者:苗正

你可能也喜欢

新火研究院：通胀恐成顽疾，加密短期能否走出独立行情？

美国6月CPI虽降至3.5%，但新火研究院指出，通胀回落主要靠能源价格推动，核心商品价格仍在持续上涨，且美联储主席沃什强调对通胀“零容忍”，预示鹰派立场将持续压制风险资产。与此同时，存储半导体行业面临地缘风险、AI投资回报质疑及韩国市场高杠杆去化等多重压力，导致相关股市大幅波动。相比之下，上周加密市场表现平稳，比特币和以太坊小幅上涨，成功走出独立行情。美国比特币现货ETF恢复资金净流入，Coinbase负溢价收窄，Robinhood Chain生态活跃。政策层面，《CLARITY Act》有望在8月前推进审议，为市场带来潜在催化。综合分析，在通胀反复、联储鹰派及全球股市波动的宏观背景下，加密货币短期内难以走出独立牛市，整体风险资产仍承压。但加密市场基本面持续改善，资金流入、生态活跃及技术面支撑均显示市场底部正在加固。新火研究院认为，比特币在6万美元附近仍具配置价值，下行风险相对可控，真正牛市需等待宏观环境转向及关键政策落地信号的确认。

marsbit1分钟前

marsbit1分钟前

CLARITY法案“扫清关键障碍”——白宫同意加密货币道德协议

据报道，美国总统特朗普已支持一项加密道德协议，为《CLARITY法案》扫清了最后的主要政治障碍。该协议由白宫与共和党参议员辛西娅·卢米斯、伯尼·莫雷诺达成，具体内容尚未公开，且民主党人截至发稿时仍未看到文本。此前，因特朗普从其加密业务中获利超14亿美元，以伊丽莎白·沃伦为首的民主党人坚持要求法案必须遏制行业内的此类“腐败”行为。法案需在参议院获得60票才能通过，共和党人需要争取约7-10名民主党人的支持。分析认为，此次道德条款的加入可能有助于赢得民主党支持。与此同时，白宫加密顾问帕特里克·威特将继续留任以推动法案进程。他敦促国会尽快通过该法案，因为俄罗斯等多个司法管辖区已在推进加密立法，而美国因稳定币收益、开发者保护及道德条款等问题进展迟缓。市场对法案在2026年底前通过的预期并不乐观。预测平台Kalshi数据显示，法案在2027年前通过的几率仅为38%，但在2027年第一季度通过的几率则升至61%，表明市场更看好其在明年获批。

ambcrypto3分钟前

ambcrypto3分钟前

Base 的压力时刻

北京时间7月21日，Base联创Jesse Pollak承认，在代币化股票领域进展落后于新推出的Robinhood Chain，后者采用了衍生品模式，而Base正与Coinbase合作开发由股票1:1支持的代币化股票。这是Jesse近期第二次公开反思，此前他已承认押注社交和创作者代币是战略失误，相关尝试未带来可持续采用。 Base凭借Coinbase的支持，在L2竞争中表现强劲，尤其在meme币领域优势明显，但其中心化问题一直备受诟病。近期两次出块中断事件凸显了单一排序器风险，L2BEAT甚至考虑将其去中心化评级从Stage 1降回Stage 0。虽然该评级不完全代表安全性，但在Robinhood Chain快速崛起、其DEX交易量迅速冲进前五的对比下，Base在去中心化上的滞后显得尤为突出。此外，Coinbase创始人Brian Armstrong因更换头像引发相关meme币BRAIN剧烈波动后，社区反应负面，中文社区账号改名以示嘲讽，反映了用户信任度的下滑。尽管Base仍拥有约120亿美元的TVL，并在机器支付领域掌握标准制定权，其长期目标是成为金融基础设施。但面对Robinhood Chain等新晋竞争者的压力，Base迫切需要解决长期存在的技术中心化与社区信任问题，以巩固其在代币化等关键领域的地位。

Foresight News18分钟前

Foresight News18分钟前

白宫让步扫清伦理障碍，Clarity Act赶上休会前最后的时间窗口？

北京时间7月21日，据多位消息人士透露，特朗普政府已在《数字资产市场结构法案》（Clarity Act）中同意加入伦理条款，并已将文本提交给部分参议院共和党议员。此举被视为扫清了该法案推进的最后主要障碍之一。同时，白宫数字资产顾问委员会执行主任Patrick Witt确认留任，将继续推动法案完成最后冲刺。 Clarity Act旨在为美国数字资产市场建立统一的联邦监管框架，核心目标是明确数字资产的法律属性，并划分美国证券交易委员会（SEC）与商品期货交易委员会（CFTC）的监管职责。法案将数字资产分类监管，以期结束SEC与CFTC长期的监管权争夺，为行业提供明确的合规路径。过去一年，法案的谈判分歧主要集中在稳定币收益规则、DeFi监管边界以及政府官员与加密行业的利益冲突（即伦理问题）三方面。目前前两大分歧已基本解决，伦理条款成为最后的关键争议点。白宫的让步为法案在参议院获得两党支持并最终表决创造了可能。然而，法案面临紧迫的时间窗口。美国国会预计在8月中旬进入夏季休会期，留给参议院审议的时间仅剩十几个工作日。行业游说组织美国区块链协会CEO表示，未来几周是关键时刻，若伦理争议得以解决，法案有望在休会前取得突破；否则可能需等待新的政治时机。如果Clarity Act能成功通过，它将成为美国乃至全球加密货币监管的一个重要转折点，为数字资产市场提供更清晰、稳定的制度框架，降低监管不确定性，并为传统资本进入该领域奠定基础。

Odaily星球日报24分钟前

Odaily星球日报24分钟前

Midnight遭5.15亿NIGHT黑客攻击导致代币暴跌32%——0.015美元能守住吗？

2026年加密货币市场黑客事件频发，7月单月损失超5900万美元，年内累计已达10亿美元。Midnight网络近日成为跨链桥攻击的最新受害者，其Wanchain Cardano至BNB跨链桥上一个存有5.15亿枚NIGHT代币的旧合约遭黑客攻击，资金被转移并在Cardano去中心化交易所抛售。事件导致NIGHT代币价格暴跌32%，创下0.015美元的历史新低，随后小幅反弹至0.019美元。其市值缩水27%至3.24亿美元，而交易量激增829%，显示抛压巨大。现货与期货市场均出现大量卖盘，期货资金净流出达510万美元。技术指标显示，NIGHT的相对强弱指数（RSI）已跌至17的超卖区间，市场情绪极度悲观。若看跌情绪持续，代币价格可能继续承压，在0.02美元以下波动，并将0.015美元视为关键支撑位。Midnight基金会强调，此次事件仅限于跨链桥操作，其主网本身仍保持安全。

ambcrypto29分钟前

Midnight遭5.15亿NIGHT黑客攻击导致代币暴跌32%——0.015美元能守住吗？

ambcrypto29分钟前

交易

现货

人类能管住AI吗？Anthropic用千问做了个实验

文章摘要

01 这篇论文到底在说什么

02 为什么选择Qwen

热门币种推荐

相关问答

你可能也喜欢

新火研究院：通胀恐成顽疾，加密短期能否走出独立行情？

CLARITY法案“扫清关键障碍”——白宫同意加密货币道德协议

Base 的压力时刻

白宫让步扫清伦理障碍，Clarity Act赶上休会前最后的时间窗口？

Midnight遭5.15亿NIGHT黑客攻击导致代币暴跌32%——0.015美元能守住吗？

交易

热门文章

如何购买ONE

相关讨论

热门问答

热门分类

热门标签