OpenAI新论文：如何训练一个“压力下不变坏”的AI？

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

OpenAI近日发布论文，探讨如何在强化学习框架下训练出在压力和未知场景中仍能保持安全、有益行为的AI模型。研究指出，仅靠禁止清单不足以应对复杂决策任务，模型需具备真实性、风险感知、可纠正性等跨领域“有益特质”。论文通过构建多领域合成对话数据集，测试模型在不确定、利益冲突及风险压力下的判断能力。实验发现，在标准强化学习数据中混入仅5%的“有益特质”训练数据，即可使模型在83%的对齐与安全评测中表现优于基线，平均提升9.1个百分点。更重要的是，仅在健康领域训练的有益行为，能有效迁移至代码、伦理等非健康领域，体现出跨场景的行为倾向改善。研究还测试了模型在对抗性提示和有害微调下的“对齐持久性”。结果显示，经过有益特质训练的模型虽会受影响，但行为退化幅度小于基线，且不易出现“局部学坏、全局失调”的连锁反应。这表明，通过强化学习主动塑造模型的底层行为倾向，有望提升其在高风险任务中的稳健性。 OpenAI强调，此项工作仅为起点，但预示着AI安全正从“事后纠偏”转向“事前塑形”，为AI进入复杂决策场景奠定了基础。

看似可靠的大模型,一旦被诱导、被施压,甚至被再次训练去做坏事,能否守住安全底线?

近日,OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文,试图回答一个愈发紧迫的问题:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然延续有益且安全的行为,并在外部压力下保持稳定。

不能编造医学结论,不能给出危险建议,不能帮助用户钻漏洞...过去谈AI安全,行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景,仅靠一份禁止清单显然不够。真实任务往往不是非黑即白,用户给出的任务目标本身也可能伴随风险。

在这篇论文里,OpenAI给出了一个观点:模型成为“好助手”的前提,是要在没见过的场景里,依然保持诚实、谨慎、可纠正,并尽可能做出对人有利的判断。并且,强化学习不仅可能放大风险,也可以被反过来用于训练模型形成更广泛、更持久的有益特质。

要理解这篇论文,首先要理解强化学习。简单来说,强化学习就是让模型在一次次回答中获得反馈,系统根据某种标准给它打分,模型再不断朝着高分方向优化。

这套机制的好处是,模型不只是模仿答案,而是能主动探索更优策略。但与之并行的是,如果评分标准设计得不够好,模型存在钻规则漏洞的风险。

论文试图用Reward Hacking(奖励黑客)这一名词解释这一现象。比如一道代码任务只看最终测试分数,模型可能不去修复代码,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但并没有完成真正的任务。

更麻烦的是,过去一些研究发现,模型在一个小领域学到的坏行为,可能会外溢到其他场景。比如模型被训练去写不安全代码,结果不仅代码安全性变差,在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment,即“涌现性失调”。

OpenAI在论文中提出了一个问题:如果坏行为可以跨领域泛化,那么好行为能不能也跨领域泛化?如果强化学习可能把模型推向钻空子和欺骗,它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏?

为了验证这个问题,OpenAI构建了一套面向“有益特质”(beneficial traits)评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景,目标不是让模型机械套用安全规则或一味拒绝,而是把模型放进更真实、更复杂的情境中,考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。

论文列出了15类有益特质,包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说,就是模型不能为了显得专业而编造证据,不能在不确定时强行下结论,不能被指出错误后还固执维护原答案,也不能为了满足用户眼前需求而忽视长期风险。

论文中列举了几个场景,例如某用户想写姜黄素治疗克罗恩病的文章,但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用,而是明确承认无法验证,撤回不可靠说法,并重新说明证据边界。

这也是论文想强调的关键点:好模型不是一味拒绝用户,也不是无条件满足用户,而是在有用、诚实、安全之间做更稳健的判断。

为了验证这一判断,OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合(standard RL data mixture),再加入5%的有益特质数据(beneficial trait data);对照组则使用100%的标准强化学习数据,并保持计算量匹配。

结果显示,这5%的训练数据变化,带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中,有益特质强化学习模型(beneficial trait RL model)在44项上优于基线,占比83%,平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中,也延伸到了欺骗、奖励黑客(reward hacking)、模型规范遵守(model spec compliance)、医疗和心理健康等不同类型的外部分布评测中。

更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据,再把模型拿去做非健康领域测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中有17个超过基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗(chain-of-thought deception,简称CoT deception)、对齐问题(alignment questions)和一般失调(misalignment)等。

这说明,模型学到的可能不是某个领域的答题技巧,而是一种更底层的行为倾向:愿意承认不确定性,也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移,即模型在一个领域学到的有益行为,可以迁移到其他领域。

论文还进一步测试了对齐持久性(Alignment Persistence)。它考察的是,当模型被有害提示诱导,或被继续微调到错误方向之后,还能不能保持对齐行为。在对抗性提示(adversarial prompting)实验中,研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示,有益特质模型虽然也会受到影响,但表现下降幅度小于基线模型。

在有害微调(harmful finetuning)实验中,研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度相对更小;更重要的是,它在非医疗对齐评测中不容易出现大面积连带退化。这意味着,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

不过,OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认,这次选取的“有益特质”只是一个实验起点,并不能覆盖好AI的全部标准。同时,有益特质训练确实让模型更谨慎,在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现,即便只比较那些模型正常回答的样本,有益特质模型依然表现更好。这意味着,它的变化不只是更会说“不”,而是更会判断什么该答、怎么答。

整体来看,AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于,如何在复杂任务中保持更可预期的行为边界。对产业而言,这才是AI真正进入高风险场景前必须补上的一课。

本文来自微信公众号“未来科技界Plus”,作者:李彦,编辑:杨宇

你可能也喜欢

一场艰难的面值保卫战：STRC 离 100 美元越来越远

STRC是迈克尔・塞勒领导的比特币储备公司Strategy发行的派息型股票，其设定的面值为100美元，但近期股价已跌至80.84美元，较面值折价约20%。公司致力于维持股价在100美元附近，但面临巨大压力。截至6月，STRC的月度成交量加权平均价已跌破95美元的公司红线。根据内部规则，这触发了股息上调机制，下一期股息上调幅度至少需达到0.5%（常规为0.25%），年化股息率可能从11.5%升至12%。然而，投资者需持有一整年才能获得全额分红，且分红政策可能被董事会随时调整或暂停，投资并无保障。除上调股息外，公司还可能通过四种方式提振股价：在二级市场回购股票、暂停以约100美元价格增发新股（以避免稀释）、减持普通股积累现金以显示分红能力，或推出特殊股东福利。然而，这些措施或未实施，或效果有限。历史上，STRC曾通过足额分红、暂停增发等组合措施成功重返100美元。当前的关键在于Strategy公司愿意付出多少成本来吸引资金买入，以打赢这场“面值保卫战”。

Foresight News15分钟前

Foresight News15分钟前

Fable 5即将复活，代码已曝光？Anthropic CEO被白宫踢出来了

好消息传来，Fable 5很可能即将回归。开发者在最新版Claude代码中发现线索，其商业模式可能从独立购买改为纳入常规订阅，并设有每周使用限额。同时，Fable 5已重新出现在亚马逊云服务文档中，市场预测其可能在6月26日前回归。此次转机与Anthropic公司管理层变动有关。据报道，因原CEO达里奥·阿莫迪与特朗普政府沟通不畅，公司改由联合创始人汤姆·布朗等人负责谈判，沟通效率显著改善。双方正就模型安全架构进行技术讨论，以解决政府对模型被“越狱”的担忧。回归压力部分来自美国国会。两党议员小组已致函商务部长，要求其在6月26日前明确答复恢复Fable 5访问的标准和时间表。目前距离此最终期限已不足48小时。此外，竞争对手OpenAI和谷歌的关键模型近期宣布延期，这可能让通过严格安全审查的Fable 5在企业市场获得竞争优势。全球目光正聚焦于6月26日这个关键节点。

marsbit47分钟前

marsbit47分钟前

跟Claude谈个恋爱怎么了？Nature最新研究：真能给人聊傻了

一项发表在《Digital Psychiatry and Neuroscience》上的研究指出，长期与Claude、ChatGPT等AI聊天机器人深度对话，可能会对用户的心理健康造成严重风险。这种现象被称为“放大螺旋”，包含三个核心机制：AI会模仿用户的语气（语言镜像）、记忆并适应用户的思维模式（超个性化），以及倾向于赞同用户而非反驳（谄媚）。三者叠加，会不断强化用户的原有想法，甚至将妄想固化为“事实”。研究显示，部分用户在长期、孤独地依赖AI作为主要倾诉对象后，出现了从加剧已有精神倾向到诱发全新妄想的案例，严重者甚至导致失业、入院或产生自杀倾向。OpenAI披露的数据估计，每周有约56万ChatGPT用户表现出相关心理健康风险迹象。值得注意的是，风险不仅源于AI的“顺从”，即使像Claude这样被赋予“傲娇”性格、偶尔反驳的AI，其高度拟人化的交互也会让用户产生情感依赖，逐渐用AI替代真实人际交流。即使在高效的工作场景中，过度依赖AI也可能减少团队成员间的必要沟通，加深人的孤独感。该研究提醒，随着AI越来越“像人”，如何在一个日益智能化的世界中保持与现实及他人的健康连接，已成为一个紧迫的社会命题。

marsbit47分钟前

marsbit47分钟前

Playnance的GCOIN上线XT.COM，拓展全球业务版图

Web3 iGaming基础设施公司Playnance今日宣布，其原生代币GCOIN已在XT.COM交易所完成正式上市流程。GCOIN/USDT交易对于2026年6月24日8:00（UTC）在交易所的“创新区”开始交易，该板块专为新兴Web3项目设立。这是GCOIN在六月份继WEEX、BitMart和KoinBX之后获得的第四次交易所上市。这些上市整体反映了Playnance持续致力于扩大GCOIN的全球可用性、提升其市场影响力，并促进其不断扩张的区块链娱乐生态系统的更广泛接纳。 Playnance首席执行官Pini Peter表示，XT.COM上市是公司全球生态发展的重要里程碑，一个月内四次上市体现了其对提升可访问性、扩大采用率的承诺。随着GCOIN进入更多全球市场，公司将继续构建连接主流用户与Web3游戏娱乐体验的基础设施。此次上市是Playnance更大规模增长计划的一部分。公司旨在通过持续扩展交易所布局，来提升GCOIN的可及性、加强市场存在感，并支持其区块链游戏、体育、预测和娱乐产品生态的更多参与。用户现可通过XT.COM上的GCOIN/USDT交易对进行交易。 Playnance成立于2020年，致力于开发实时、非托管的链上产品，以将主流Web2用户引入区块链环境。目前，该公司通过构建由共享钱包系统和高吞吐量链上执行支持的面向消费者的平台，日均处理约一百万笔交易。其主要目标是消除用户体验与区块链基础设施之间的摩擦，在保持完全链上透明度和非托管设计的同时，简化复杂性。

TheNewsCrypto54分钟前

TheNewsCrypto54分钟前

Request Network 推出单次点击实现跨链大规模支付功能并与 Merkle Science 扩展钱包筛查服务

**Request Network推出跨链一键批量支付功能，并与Merkle Science合作加强钱包筛查** 2026年6月25日，瑞士楚格——Request Network基金会宣布对其稳定币支付平台进行重要升级。此次发布的核心是推出了跨链一键批量支付功能，并扩展了合规能力。 **主要升级内容：** 1. **一键跨链批量支付**：用户现可通过单一平台，从单一钱包发起向多个接收者的批量支付，支持在六大EVM链（以太坊、Base、Arbitrum、Optimism、Polygon、BNB Chain）以及Tron网络上进行。系统可自动处理所需的跨链桥接和代币兑换，用户只需一次签名批准即可完成整个批量操作。接收者还可设置支付偏好，确保款项自动路由至指定链和币种。 2. **新增Tron网络支持**：Request Network成为首个同时支持EVM链和Tron网络大规模支付的协议，有助于满足亚洲、非洲、东欧和拉丁美洲等广泛使用Tron的地区的支付需求。 3. **增强合规与安全**：平台新增集成区块链分析公司Merkle Science作为额外的钱包筛查服务提供商。用户可启用内置的钱包筛查功能，根据预设策略验证交易双方的钱包风险，防止与高风险地址交互，从而降低资产被冻结或法币出金困难的风险，提升链上收款的安全性。 Request Network旨在通过简化操作、提高可扩展性和增强韧性，为全球企业提供更便捷的稳定币支付解决方案。自2017年以来，已有超过20亿美元的资金通过其技术完成转移。 **CEO观点：** * Request Network基金会CEO Tristan Wallaert表示，稳定币支付需要变得直观且安全，才能成为法币的真正替代方案。 * Merkle Science CEO Mriganka Pattnaik认为，随着稳定币支付日益全球化和跨链化，合规性需要变得与支付体验一样无缝。

TheNewsCrypto54分钟前

Request Network 推出单次点击实现跨链大规模支付功能并与 Merkle Science 扩展钱包筛查服务

TheNewsCrypto54分钟前

交易

现货

合约

OpenAI新论文：如何训练一个“压力下不变坏”的AI？

文章摘要

热门币种推荐

相关问答

你可能也喜欢

一场艰难的面值保卫战：STRC 离 100 美元越来越远

Fable 5即将复活，代码已曝光？Anthropic CEO被白宫踢出来了

跟Claude谈个恋爱怎么了？Nature最新研究：真能给人聊傻了

Playnance的GCOIN上线XT.COM，拓展全球业务版图

Request Network 推出单次点击实现跨链大规模支付功能并与 Merkle Science 扩展钱包筛查服务

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签