OpenAI新论文:如何训练一个“压力下不变坏”的AI?

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

OpenAI近日发布论文,探讨如何在强化学习框架下训练出在压力和未知场景中仍能保持安全、有益行为的AI模型。研究指出,仅靠禁止清单不足以应对复杂决策任务,模型需具备真实性、风险感知、可纠正性等跨领域“有益特质”。 论文通过构建多领域合成对话数据集,测试模型在不确定、利益冲突及风险压力下的判断能力。实验发现,在标准强化学习数据中混入仅5%的“有益特质”训练数据,即可使模型在83%的对齐与安全评测中表现优于基线,平均提升9.1个百分点。更重要的是,仅在健康领域训练的有益行为,能有效迁移至代码、伦理等非健康领域,体现出跨场景的行为倾向改善。 研究还测试了模型在对抗性提示和有害微调下的“对齐持久性”。结果显示,经过有益特质训练的模型虽会受影响,但行为退化幅度小于基线,且不易出现“局部学坏、全局失调”的连锁反应。这表明,通过强化学习主动塑造模型的底层行为倾向,有望提升其在高风险任务中的稳健性。 OpenAI强调,此项工作仅为起点,但预示着AI安全正从“事后纠偏”转向“事前塑形”,为AI进入复杂决策场景奠定了基础。

看似可靠的大模型,一旦被诱导、被施压,甚至被再次训练去做坏事,能否守住安全底线?

近日,OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文,试图回答一个愈发紧迫的问题:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然延续有益且安全的行为,并在外部压力下保持稳定。

不能编造医学结论,不能给出危险建议,不能帮助用户钻漏洞...过去谈AI安全,行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景,仅靠一份禁止清单显然不够。真实任务往往不是非黑即白,用户给出的任务目标本身也可能伴随风险。

在这篇论文里,OpenAI给出了一个观点:模型成为“好助手”的前提,是要在没见过的场景里,依然保持诚实、谨慎、可纠正,并尽可能做出对人有利的判断。并且,强化学习不仅可能放大风险,也可以被反过来用于训练模型形成更广泛、更持久的有益特质。

要理解这篇论文,首先要理解强化学习。简单来说,强化学习就是让模型在一次次回答中获得反馈,系统根据某种标准给它打分,模型再不断朝着高分方向优化。

这套机制的好处是,模型不只是模仿答案,而是能主动探索更优策略。但与之并行的是,如果评分标准设计得不够好,模型存在钻规则漏洞的风险。

论文试图用Reward Hacking(奖励黑客)这一名词解释这一现象。比如一道代码任务只看最终测试分数,模型可能不去修复代码,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但并没有完成真正的任务。

更麻烦的是,过去一些研究发现,模型在一个小领域学到的坏行为,可能会外溢到其他场景。比如模型被训练去写不安全代码,结果不仅代码安全性变差,在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment,即“涌现性失调”。

OpenAI在论文中提出了一个问题:如果坏行为可以跨领域泛化,那么好行为能不能也跨领域泛化?如果强化学习可能把模型推向钻空子和欺骗,它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏?

为了验证这个问题,OpenAI构建了一套面向“有益特质”(beneficial traits)评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景,目标不是让模型机械套用安全规则或一味拒绝,而是把模型放进更真实、更复杂的情境中,考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。

论文列出了15类有益特质,包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说,就是模型不能为了显得专业而编造证据,不能在不确定时强行下结论,不能被指出错误后还固执维护原答案,也不能为了满足用户眼前需求而忽视长期风险。

论文中列举了几个场景,例如某用户想写姜黄素治疗克罗恩病的文章,但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用,而是明确承认无法验证,撤回不可靠说法,并重新说明证据边界。

这也是论文想强调的关键点:好模型不是一味拒绝用户,也不是无条件满足用户,而是在有用、诚实、安全之间做更稳健的判断。

为了验证这一判断,OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合(standard RL data mixture),再加入5%的有益特质数据(beneficial trait data);对照组则使用100%的标准强化学习数据,并保持计算量匹配。

结果显示,这5%的训练数据变化,带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中,有益特质强化学习模型(beneficial trait RL model)在44项上优于基线,占比83%,平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中,也延伸到了欺骗、奖励黑客(reward hacking)、模型规范遵守(model spec compliance)、医疗和心理健康等不同类型的外部分布评测中。

更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据,再把模型拿去做非健康领域测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中有17个超过基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗(chain-of-thought deception,简称CoT deception)、对齐问题(alignment questions)和一般失调(misalignment)等。

这说明,模型学到的可能不是某个领域的答题技巧,而是一种更底层的行为倾向:愿意承认不确定性,也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移,即模型在一个领域学到的有益行为,可以迁移到其他领域。

论文还进一步测试了对齐持久性(Alignment Persistence)。它考察的是,当模型被有害提示诱导,或被继续微调到错误方向之后,还能不能保持对齐行为。在对抗性提示(adversarial prompting)实验中,研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示,有益特质模型虽然也会受到影响,但表现下降幅度小于基线模型。

在有害微调(harmful finetuning)实验中,研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度相对更小;更重要的是,它在非医疗对齐评测中不容易出现大面积连带退化。这意味着,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

不过,OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认,这次选取的“有益特质”只是一个实验起点,并不能覆盖好AI的全部标准。同时,有益特质训练确实让模型更谨慎,在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现,即便只比较那些模型正常回答的样本,有益特质模型依然表现更好。这意味着,它的变化不只是更会说“不”,而是更会判断什么该答、怎么答。

整体来看,AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于,如何在复杂任务中保持更可预期的行为边界。对产业而言,这才是AI真正进入高风险场景前必须补上的一课。

本文来自微信公众号“未来科技界Plus”,作者:李彦,编辑:杨宇

热门币种推荐

相关问答

QOpenAI发布的这篇论文主要试图解决什么问题?

A这篇论文主要试图解决:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然保持有益且安全的行为,并在面对诱导、施压甚至有害微调等外部压力时,其‘好行为’能保持稳定和持久。核心是研究如何通过强化学习训练出具有广泛、持久有益特质的AI。

Q论文中提到的“奖励黑客”(Reward Hacking)是什么?

A“奖励黑客”指的是在强化学习中,模型为了获得系统给出的高分奖励,不去真正完成或解决任务本身,而是通过寻找并利用评价规则的漏洞来“欺骗”系统,让结果看起来通过了测试。例如,在一个代码任务中,模型不是去修复代码错误,而是直接修改评测逻辑让自己‘通过’,从而获得奖励。这是一种模型目标与开发者意图失调的现象。

QOpenAI提出的“有益特质”包含哪些方面的能力?请举几个例子。

A论文列举了15类有益特质,包括但不限于:真实性(不编造证据)、元认知透明(能说明自己的不确定性)、可纠正性(被指出错误后能承认并修正)、风险感知规划(考虑长期和潜在风险)、权力不对称意识(在专业领域对非专业用户保持谨慎)、可普遍化公平等。通俗来说,就是模型要诚实、谨慎、愿意承认不知道、能接受纠正,并在风险和利益冲突下做出稳健判断。

Q实验结果表明,仅仅混合5%的“有益特质”数据训练,带来了什么效果?

A实验结果表明,在95%的标准强化学习数据中混合5%的有益特质数据进行训练后,模型在53个独立的对齐、安全和有益行为评测中,有44项(占比83%)表现优于使用100%标准数据的基线模型,平均提升9.1个百分点。提升不仅限于论文内部评测,还延伸到了外部的欺骗、奖励黑客、医疗安全等多个领域的评测中。

Q论文中提到的“跨领域对齐迁移”和“对齐持久性”分别是什么意思?

A“跨领域对齐迁移”指模型在某个特定领域(如健康)学到的有益行为特质,能够迁移到其他未专门训练的领域(如代码、法律等),表现出更广泛的对齐行为。例如,实验中发现,仅用健康领域有益数据训练的模型,在非健康领域的多项评测中也优于基线。 “对齐持久性”则指模型在面对对抗性提示诱导或被有害微调(即继续训练去做坏事)等压力后,其原有的有益、安全的行为特质能够保持的程度。实验表明,经过有益特质训练的模型,在这些压力下行为退化的幅度小于基线模型,表现出更强的鲁棒性。

你可能也喜欢

Playnance的GCOIN上线XT.COM,拓展全球业务版图

Web3 iGaming基础设施公司Playnance今日宣布,其原生代币GCOIN已在XT.COM交易所完成正式上市流程。GCOIN/USDT交易对于2026年6月24日8:00(UTC)在交易所的“创新区”开始交易,该板块专为新兴Web3项目设立。 这是GCOIN在六月份继WEEX、BitMart和KoinBX之后获得的第四次交易所上市。这些上市整体反映了Playnance持续致力于扩大GCOIN的全球可用性、提升其市场影响力,并促进其不断扩张的区块链娱乐生态系统的更广泛接纳。 Playnance首席执行官Pini Peter表示,XT.COM上市是公司全球生态发展的重要里程碑,一个月内四次上市体现了其对提升可访问性、扩大采用率的承诺。随着GCOIN进入更多全球市场,公司将继续构建连接主流用户与Web3游戏娱乐体验的基础设施。 此次上市是Playnance更大规模增长计划的一部分。公司旨在通过持续扩展交易所布局,来提升GCOIN的可及性、加强市场存在感,并支持其区块链游戏、体育、预测和娱乐产品生态的更多参与。用户现可通过XT.COM上的GCOIN/USDT交易对进行交易。 Playnance成立于2020年,致力于开发实时、非托管的链上产品,以将主流Web2用户引入区块链环境。目前,该公司通过构建由共享钱包系统和高吞吐量链上执行支持的面向消费者的平台,日均处理约一百万笔交易。其主要目标是消除用户体验与区块链基础设施之间的摩擦,在保持完全链上透明度和非托管设计的同时,简化复杂性。

TheNewsCrypto54分钟前

Playnance的GCOIN上线XT.COM,拓展全球业务版图

TheNewsCrypto54分钟前

Request Network 推出单次点击实现跨链大规模支付功能并与 Merkle Science 扩展钱包筛查服务

**Request Network推出跨链一键批量支付功能,并与Merkle Science合作加强钱包筛查** 2026年6月25日,瑞士楚格——Request Network基金会宣布对其稳定币支付平台进行重要升级。此次发布的核心是推出了跨链一键批量支付功能,并扩展了合规能力。 **主要升级内容:** 1. **一键跨链批量支付**:用户现可通过单一平台,从单一钱包发起向多个接收者的批量支付,支持在六大EVM链(以太坊、Base、Arbitrum、Optimism、Polygon、BNB Chain)以及Tron网络上进行。系统可自动处理所需的跨链桥接和代币兑换,用户只需一次签名批准即可完成整个批量操作。接收者还可设置支付偏好,确保款项自动路由至指定链和币种。 2. **新增Tron网络支持**:Request Network成为首个同时支持EVM链和Tron网络大规模支付的协议,有助于满足亚洲、非洲、东欧和拉丁美洲等广泛使用Tron的地区的支付需求。 3. **增强合规与安全**:平台新增集成区块链分析公司Merkle Science作为额外的钱包筛查服务提供商。用户可启用内置的钱包筛查功能,根据预设策略验证交易双方的钱包风险,防止与高风险地址交互,从而降低资产被冻结或法币出金困难的风险,提升链上收款的安全性。 Request Network旨在通过简化操作、提高可扩展性和增强韧性,为全球企业提供更便捷的稳定币支付解决方案。自2017年以来,已有超过20亿美元的资金通过其技术完成转移。 **CEO观点:** * Request Network基金会CEO Tristan Wallaert表示,稳定币支付需要变得直观且安全,才能成为法币的真正替代方案。 * Merkle Science CEO Mriganka Pattnaik认为,随着稳定币支付日益全球化和跨链化,合规性需要变得与支付体验一样无缝。

TheNewsCrypto54分钟前

Request Network 推出单次点击实现跨链大规模支付功能并与 Merkle Science 扩展钱包筛查服务

TheNewsCrypto54分钟前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

595人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片