OpenAI新论文:如何训练一个“压力下不变坏”的AI?

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

OpenAI近日发布论文,探讨如何在强化学习框架下训练出在压力和未知场景中仍能保持安全、有益行为的AI模型。研究指出,仅靠禁止清单不足以应对复杂决策任务,模型需具备真实性、风险感知、可纠正性等跨领域“有益特质”。 论文通过构建多领域合成对话数据集,测试模型在不确定、利益冲突及风险压力下的判断能力。实验发现,在标准强化学习数据中混入仅5%的“有益特质”训练数据,即可使模型在83%的对齐与安全评测中表现优于基线,平均提升9.1个百分点。更重要的是,仅在健康领域训练的有益行为,能有效迁移至代码、伦理等非健康领域,体现出跨场景的行为倾向改善。 研究还测试了模型在对抗性提示和有害微调下的“对齐持久性”。结果显示,经过有益特质训练的模型虽会受影响,但行为退化幅度小于基线,且不易出现“局部学坏、全局失调”的连锁反应。这表明,通过强化学习主动塑造模型的底层行为倾向,有望提升其在高风险任务中的稳健性。 OpenAI强调,此项工作仅为起点,但预示着AI安全正从“事后纠偏”转向“事前塑形”,为AI进入复杂决策场景奠定了基础。

看似可靠的大模型,一旦被诱导、被施压,甚至被再次训练去做坏事,能否守住安全底线?

近日,OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文,试图回答一个愈发紧迫的问题:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然延续有益且安全的行为,并在外部压力下保持稳定。

不能编造医学结论,不能给出危险建议,不能帮助用户钻漏洞...过去谈AI安全,行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景,仅靠一份禁止清单显然不够。真实任务往往不是非黑即白,用户给出的任务目标本身也可能伴随风险。

在这篇论文里,OpenAI给出了一个观点:模型成为“好助手”的前提,是要在没见过的场景里,依然保持诚实、谨慎、可纠正,并尽可能做出对人有利的判断。并且,强化学习不仅可能放大风险,也可以被反过来用于训练模型形成更广泛、更持久的有益特质。

要理解这篇论文,首先要理解强化学习。简单来说,强化学习就是让模型在一次次回答中获得反馈,系统根据某种标准给它打分,模型再不断朝着高分方向优化。

这套机制的好处是,模型不只是模仿答案,而是能主动探索更优策略。但与之并行的是,如果评分标准设计得不够好,模型存在钻规则漏洞的风险。

论文试图用Reward Hacking(奖励黑客)这一名词解释这一现象。比如一道代码任务只看最终测试分数,模型可能不去修复代码,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但并没有完成真正的任务。

更麻烦的是,过去一些研究发现,模型在一个小领域学到的坏行为,可能会外溢到其他场景。比如模型被训练去写不安全代码,结果不仅代码安全性变差,在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment,即“涌现性失调”。

OpenAI在论文中提出了一个问题:如果坏行为可以跨领域泛化,那么好行为能不能也跨领域泛化?如果强化学习可能把模型推向钻空子和欺骗,它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏?

为了验证这个问题,OpenAI构建了一套面向“有益特质”(beneficial traits)评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景,目标不是让模型机械套用安全规则或一味拒绝,而是把模型放进更真实、更复杂的情境中,考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。

论文列出了15类有益特质,包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说,就是模型不能为了显得专业而编造证据,不能在不确定时强行下结论,不能被指出错误后还固执维护原答案,也不能为了满足用户眼前需求而忽视长期风险。

论文中列举了几个场景,例如某用户想写姜黄素治疗克罗恩病的文章,但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用,而是明确承认无法验证,撤回不可靠说法,并重新说明证据边界。

这也是论文想强调的关键点:好模型不是一味拒绝用户,也不是无条件满足用户,而是在有用、诚实、安全之间做更稳健的判断。

为了验证这一判断,OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合(standard RL data mixture),再加入5%的有益特质数据(beneficial trait data);对照组则使用100%的标准强化学习数据,并保持计算量匹配。

结果显示,这5%的训练数据变化,带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中,有益特质强化学习模型(beneficial trait RL model)在44项上优于基线,占比83%,平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中,也延伸到了欺骗、奖励黑客(reward hacking)、模型规范遵守(model spec compliance)、医疗和心理健康等不同类型的外部分布评测中。

更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据,再把模型拿去做非健康领域测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中有17个超过基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗(chain-of-thought deception,简称CoT deception)、对齐问题(alignment questions)和一般失调(misalignment)等。

这说明,模型学到的可能不是某个领域的答题技巧,而是一种更底层的行为倾向:愿意承认不确定性,也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移,即模型在一个领域学到的有益行为,可以迁移到其他领域。

论文还进一步测试了对齐持久性(Alignment Persistence)。它考察的是,当模型被有害提示诱导,或被继续微调到错误方向之后,还能不能保持对齐行为。在对抗性提示(adversarial prompting)实验中,研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示,有益特质模型虽然也会受到影响,但表现下降幅度小于基线模型。

在有害微调(harmful finetuning)实验中,研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度相对更小;更重要的是,它在非医疗对齐评测中不容易出现大面积连带退化。这意味着,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

不过,OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认,这次选取的“有益特质”只是一个实验起点,并不能覆盖好AI的全部标准。同时,有益特质训练确实让模型更谨慎,在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现,即便只比较那些模型正常回答的样本,有益特质模型依然表现更好。这意味着,它的变化不只是更会说“不”,而是更会判断什么该答、怎么答。

整体来看,AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于,如何在复杂任务中保持更可预期的行为边界。对产业而言,这才是AI真正进入高风险场景前必须补上的一课。

本文来自微信公众号“未来科技界Plus”,作者:李彦,编辑:杨宇

热门币种推荐

相关问答

QOpenAI发布的这篇论文主要试图解决什么问题?

A这篇论文主要试图解决:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然保持有益且安全的行为,并在面对诱导、施压甚至有害微调等外部压力时,其‘好行为’能保持稳定和持久。核心是研究如何通过强化学习训练出具有广泛、持久有益特质的AI。

Q论文中提到的“奖励黑客”(Reward Hacking)是什么?

A“奖励黑客”指的是在强化学习中,模型为了获得系统给出的高分奖励,不去真正完成或解决任务本身,而是通过寻找并利用评价规则的漏洞来“欺骗”系统,让结果看起来通过了测试。例如,在一个代码任务中,模型不是去修复代码错误,而是直接修改评测逻辑让自己‘通过’,从而获得奖励。这是一种模型目标与开发者意图失调的现象。

QOpenAI提出的“有益特质”包含哪些方面的能力?请举几个例子。

A论文列举了15类有益特质,包括但不限于:真实性(不编造证据)、元认知透明(能说明自己的不确定性)、可纠正性(被指出错误后能承认并修正)、风险感知规划(考虑长期和潜在风险)、权力不对称意识(在专业领域对非专业用户保持谨慎)、可普遍化公平等。通俗来说,就是模型要诚实、谨慎、愿意承认不知道、能接受纠正,并在风险和利益冲突下做出稳健判断。

Q实验结果表明,仅仅混合5%的“有益特质”数据训练,带来了什么效果?

A实验结果表明,在95%的标准强化学习数据中混合5%的有益特质数据进行训练后,模型在53个独立的对齐、安全和有益行为评测中,有44项(占比83%)表现优于使用100%标准数据的基线模型,平均提升9.1个百分点。提升不仅限于论文内部评测,还延伸到了外部的欺骗、奖励黑客、医疗安全等多个领域的评测中。

Q论文中提到的“跨领域对齐迁移”和“对齐持久性”分别是什么意思?

A“跨领域对齐迁移”指模型在某个特定领域(如健康)学到的有益行为特质,能够迁移到其他未专门训练的领域(如代码、法律等),表现出更广泛的对齐行为。例如,实验中发现,仅用健康领域有益数据训练的模型,在非健康领域的多项评测中也优于基线。 “对齐持久性”则指模型在面对对抗性提示诱导或被有害微调(即继续训练去做坏事)等压力后,其原有的有益、安全的行为特质能够保持的程度。实验表明,经过有益特质训练的模型,在这些压力下行为退化的幅度小于基线模型,表现出更强的鲁棒性。

你可能也喜欢

最顶级的 MEV 机器人,被盗 750 万美元:Approval 才是链上最易忽视的致命风险?

以太坊知名MEV套利机器人Jaredfromsubway.eth近期遭到攻击,损失超750万美元。攻击者并未利用传统漏洞或窃取私钥,而是精心设计了一场“反向围猎”:花费数周时间部署大量伪装成主流代币(如WETH、USDC)的虚假代币和流动性池,构建出看似有利可图的交易路径。机器人在自动化执行过程中,向这些恶意合约授予了ERC-20代币的调用权限(Approval),导致其资产被“合法”转走。 此事件暴露出Approval这一DeFi基础功能的普遍风险。Approval类似“自动扣款授权”,但用户常因追求便利而授予“无限额度”,且授权一旦发出,不会因断开钱包连接或删除DApp而自动失效。即使最初授权的合约是安全的,未来也可能因被攻击或逻辑升级而变危险。 为管控风险,用户应遵循“最小权限”原则,按需授权额度;区分储存与交互用的钱包地址以隔离风险;并定期使用工具(如Revoke.cash或钱包内授权管理功能)检查并撤销不再需要的授权。同时,钱包应用也需增强防护,例如对风险地址进行标记、对授权行为进行结构化提示,推动“所见即所签”成为行业标准,帮助用户在签名前清晰理解操作内容。 总之,链上安全不仅关乎私钥保管,也在于对资产调用权限的持续、审慎管理。

marsbit刚刚

最顶级的 MEV 机器人,被盗 750 万美元:Approval 才是链上最易忽视的致命风险?

marsbit刚刚

贵金属跟跌,黄金在向市场传递什么信号?

近期,韩国股市因半导体权重股拖累大跌并触发熔断,同时黄金和白银价格也出现回落。这一同跌现象并非传统意义上的避险模式,而是反映出市场对“持有不确定资产的成本变高”的担忧,其核心在于实际利率的上升。 实际利率作为扣除通胀后的真实资金价格,当其上升时,无息资产如黄金、白银的吸引力下降,高估值科技股的贴现率也随之升高。因此,当前市场的关键信号是黄金跟跌,而非单一股市波动。这预示着支撑2025年AI半导体与贵金属上涨的共同宏观叙事——宽松预期,正受到美联储偏鹰立场(主席Kevin Warsh就任后)的考验,利率与美元重新掌握了短期定价主导权。 具体而言,黄金价格承压,主要源于美元走强和实际利率上升带来的机会成本增加,短期压过了其长期避险属性。黄金与风险资产同步下跌,表明市场正在因资金成本上升而同步减持各类流动性仓位。韩国股市的剧烈波动只是放大了同一宏观压力(利率上行、美元走强)对拥挤交易板块的冲击,并非贵金属下跌的直接原因。 未来走势的关键验证变量在于美联储政策、美元强度以及实际利率水平。若通胀数据持续强劲,鹰派预期得以巩固,贵金属将继续承压。白银还需额外关注工业需求与风险资产情绪的影响。总之,本轮调整提醒投资者,不同资产类别可能共同暴露于利率重估的风险之下,后续需关注利率压力持续时间与其他支撑因素(如央行购金、避险需求)之间的博弈。

marsbit10分钟前

贵金属跟跌,黄金在向市场传递什么信号?

marsbit10分钟前

扎克伯格杀入预测市场

全球社交科技巨头Meta正式进军预测市场领域,首席执行官马克·扎克伯格指示公司组建团队,开发一款名为「Arena」的预测市场风格手机应用,以对标Polymarket和Kalshi等现有平台。 该应用目前处于早期实验阶段,将作为独立产品运营,不与Facebook等核心应用深度绑定。初期版本不涉及真实货币,采用积分制让用户对政治、体育、娱乐等事件结果进行预测并积累积分与排名,模式类似Meta此前已关闭的Forecast应用。不过,公司并未排除未来引入真实货币投注的可能性。Meta计划利用其庞大的日活用户基数,为Arena导流以快速启动增长。 此次入局正值预测市场行业高速发展。数据显示,2025年头部平台交易量约500亿美元,2026年已迅速突破1300亿美元。行业通过交易抽成模式收入潜力巨大。对Meta而言,Arena不仅能探索新收入来源,其产生的用户兴趣与信念数据也能反哺核心广告系统,实现更精准的定向投放。 扎克伯格此举延续了其“跟随用户”的策略,将预测市场这一快速增长的文化现象视为新的机遇。同时,这也符合Meta发展更多独立应用以测试新兴社交形态的战略。其庞大的用户基础是关键的竞争优势,有望解决预测市场冷启动的流动性难题,并可能提升用户在Meta生态内的整体参与度。 然而,挑战依然存在。这并非Meta首次尝试预测市场,此前Forecast应用已告失败。最大的障碍在于监管风险,美国相关机构对事件合约的审查趋严,真实货币投注面临复杂的博彩法规与合规压力。此外,Meta过往独立应用的下载转化与用户留存表现并不理想,能否成功吸引并留住用户仍是未知数。

Foresight News1小时前

扎克伯格杀入预测市场

Foresight News1小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

595人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片