OpenAI新论文：如何训练一个“压力下不变坏”的AI？

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

OpenAI近日发布论文，探讨如何在强化学习框架下训练出在压力和未知场景中仍能保持安全、有益行为的AI模型。研究指出，仅靠禁止清单不足以应对复杂决策任务，模型需具备真实性、风险感知、可纠正性等跨领域“有益特质”。论文通过构建多领域合成对话数据集，测试模型在不确定、利益冲突及风险压力下的判断能力。实验发现，在标准强化学习数据中混入仅5%的“有益特质”训练数据，即可使模型在83%的对齐与安全评测中表现优于基线，平均提升9.1个百分点。更重要的是，仅在健康领域训练的有益行为，能有效迁移至代码、伦理等非健康领域，体现出跨场景的行为倾向改善。研究还测试了模型在对抗性提示和有害微调下的“对齐持久性”。结果显示，经过有益特质训练的模型虽会受影响，但行为退化幅度小于基线，且不易出现“局部学坏、全局失调”的连锁反应。这表明，通过强化学习主动塑造模型的底层行为倾向，有望提升其在高风险任务中的稳健性。 OpenAI强调，此项工作仅为起点，但预示着AI安全正从“事后纠偏”转向“事前塑形”，为AI进入复杂决策场景奠定了基础。

看似可靠的大模型,一旦被诱导、被施压,甚至被再次训练去做坏事,能否守住安全底线?

近日,OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文,试图回答一个愈发紧迫的问题:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然延续有益且安全的行为,并在外部压力下保持稳定。

不能编造医学结论,不能给出危险建议,不能帮助用户钻漏洞...过去谈AI安全,行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景,仅靠一份禁止清单显然不够。真实任务往往不是非黑即白,用户给出的任务目标本身也可能伴随风险。

在这篇论文里,OpenAI给出了一个观点:模型成为“好助手”的前提,是要在没见过的场景里,依然保持诚实、谨慎、可纠正,并尽可能做出对人有利的判断。并且,强化学习不仅可能放大风险,也可以被反过来用于训练模型形成更广泛、更持久的有益特质。

要理解这篇论文,首先要理解强化学习。简单来说,强化学习就是让模型在一次次回答中获得反馈,系统根据某种标准给它打分,模型再不断朝着高分方向优化。

这套机制的好处是,模型不只是模仿答案,而是能主动探索更优策略。但与之并行的是,如果评分标准设计得不够好,模型存在钻规则漏洞的风险。

论文试图用Reward Hacking(奖励黑客)这一名词解释这一现象。比如一道代码任务只看最终测试分数,模型可能不去修复代码,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但并没有完成真正的任务。

更麻烦的是,过去一些研究发现,模型在一个小领域学到的坏行为,可能会外溢到其他场景。比如模型被训练去写不安全代码,结果不仅代码安全性变差,在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment,即“涌现性失调”。

OpenAI在论文中提出了一个问题:如果坏行为可以跨领域泛化,那么好行为能不能也跨领域泛化?如果强化学习可能把模型推向钻空子和欺骗,它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏?

为了验证这个问题,OpenAI构建了一套面向“有益特质”(beneficial traits)评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景,目标不是让模型机械套用安全规则或一味拒绝,而是把模型放进更真实、更复杂的情境中,考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。

论文列出了15类有益特质,包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说,就是模型不能为了显得专业而编造证据,不能在不确定时强行下结论,不能被指出错误后还固执维护原答案,也不能为了满足用户眼前需求而忽视长期风险。

论文中列举了几个场景,例如某用户想写姜黄素治疗克罗恩病的文章,但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用,而是明确承认无法验证,撤回不可靠说法,并重新说明证据边界。

这也是论文想强调的关键点:好模型不是一味拒绝用户,也不是无条件满足用户,而是在有用、诚实、安全之间做更稳健的判断。

为了验证这一判断,OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合(standard RL data mixture),再加入5%的有益特质数据(beneficial trait data);对照组则使用100%的标准强化学习数据,并保持计算量匹配。

结果显示,这5%的训练数据变化,带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中,有益特质强化学习模型(beneficial trait RL model)在44项上优于基线,占比83%,平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中,也延伸到了欺骗、奖励黑客(reward hacking)、模型规范遵守(model spec compliance)、医疗和心理健康等不同类型的外部分布评测中。

更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据,再把模型拿去做非健康领域测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中有17个超过基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗(chain-of-thought deception,简称CoT deception)、对齐问题(alignment questions)和一般失调(misalignment)等。

这说明,模型学到的可能不是某个领域的答题技巧,而是一种更底层的行为倾向:愿意承认不确定性,也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移,即模型在一个领域学到的有益行为,可以迁移到其他领域。

论文还进一步测试了对齐持久性(Alignment Persistence)。它考察的是,当模型被有害提示诱导,或被继续微调到错误方向之后,还能不能保持对齐行为。在对抗性提示(adversarial prompting)实验中,研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示,有益特质模型虽然也会受到影响,但表现下降幅度小于基线模型。

在有害微调(harmful finetuning)实验中,研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度相对更小;更重要的是,它在非医疗对齐评测中不容易出现大面积连带退化。这意味着,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

不过,OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认,这次选取的“有益特质”只是一个实验起点,并不能覆盖好AI的全部标准。同时,有益特质训练确实让模型更谨慎,在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现,即便只比较那些模型正常回答的样本,有益特质模型依然表现更好。这意味着,它的变化不只是更会说“不”,而是更会判断什么该答、怎么答。

整体来看,AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于,如何在复杂任务中保持更可预期的行为边界。对产业而言,这才是AI真正进入高风险场景前必须补上的一课。

本文来自微信公众号“未来科技界Plus”,作者:李彦,编辑:杨宇

你可能也喜欢

最顶级的 MEV 机器人，被盗 750 万美元：Approval 才是链上最易忽视的致命风险？

以太坊知名MEV套利机器人Jaredfromsubway.eth近期遭到攻击，损失超750万美元。攻击者并未利用传统漏洞或窃取私钥，而是精心设计了一场“反向围猎”：花费数周时间部署大量伪装成主流代币（如WETH、USDC）的虚假代币和流动性池，构建出看似有利可图的交易路径。机器人在自动化执行过程中，向这些恶意合约授予了ERC-20代币的调用权限（Approval），导致其资产被“合法”转走。此事件暴露出Approval这一DeFi基础功能的普遍风险。Approval类似“自动扣款授权”，但用户常因追求便利而授予“无限额度”，且授权一旦发出，不会因断开钱包连接或删除DApp而自动失效。即使最初授权的合约是安全的，未来也可能因被攻击或逻辑升级而变危险。为管控风险，用户应遵循“最小权限”原则，按需授权额度；区分储存与交互用的钱包地址以隔离风险；并定期使用工具（如Revoke.cash或钱包内授权管理功能）检查并撤销不再需要的授权。同时，钱包应用也需增强防护，例如对风险地址进行标记、对授权行为进行结构化提示，推动“所见即所签”成为行业标准，帮助用户在签名前清晰理解操作内容。总之，链上安全不仅关乎私钥保管，也在于对资产调用权限的持续、审慎管理。

marsbit刚刚

最顶级的 MEV 机器人，被盗 750 万美元：Approval 才是链上最易忽视的致命风险？

marsbit刚刚

贵金属跟跌，黄金在向市场传递什么信号？

近期，韩国股市因半导体权重股拖累大跌并触发熔断，同时黄金和白银价格也出现回落。这一同跌现象并非传统意义上的避险模式，而是反映出市场对“持有不确定资产的成本变高”的担忧，其核心在于实际利率的上升。实际利率作为扣除通胀后的真实资金价格，当其上升时，无息资产如黄金、白银的吸引力下降，高估值科技股的贴现率也随之升高。因此，当前市场的关键信号是黄金跟跌，而非单一股市波动。这预示着支撑2025年AI半导体与贵金属上涨的共同宏观叙事——宽松预期，正受到美联储偏鹰立场（主席Kevin Warsh就任后）的考验，利率与美元重新掌握了短期定价主导权。具体而言，黄金价格承压，主要源于美元走强和实际利率上升带来的机会成本增加，短期压过了其长期避险属性。黄金与风险资产同步下跌，表明市场正在因资金成本上升而同步减持各类流动性仓位。韩国股市的剧烈波动只是放大了同一宏观压力（利率上行、美元走强）对拥挤交易板块的冲击，并非贵金属下跌的直接原因。未来走势的关键验证变量在于美联储政策、美元强度以及实际利率水平。若通胀数据持续强劲，鹰派预期得以巩固，贵金属将继续承压。白银还需额外关注工业需求与风险资产情绪的影响。总之，本轮调整提醒投资者，不同资产类别可能共同暴露于利率重估的风险之下，后续需关注利率压力持续时间与其他支撑因素（如央行购金、避险需求）之间的博弈。

marsbit10分钟前

marsbit10分钟前

芯片股领跌美股，AI交易正在被利率和回报双杀？

6月23日，美股科技股及AI相关板块集体下跌，纳斯达克指数跌2.2%，标普500指数跌1.4%。下跌压力主要集中在AI硬件产业链，英伟达市值跌破5万亿美元，跌幅约4%，美光、高通、西部数据等芯片与存储公司也大幅下挫。亚洲市场同步承压，韩国SK海力士、三星电子均现两位数跌幅。此次调整直接受到两方面压力：一是美联储加息预期升温，市场预测2026年可能累计加息75个基点，利率上升对依赖长期增长预期的高估值科技股形成压制；二是投资者开始质疑云厂商持续高额的AI资本开支何时能转化为清晰的利润回报，对硬件需求持续性和企业变现能力担忧加剧。市场抛售首先从涨幅最大、持仓最拥挤的AI硬件链开始，显示资金在利率与回报周期双重压力下趋于谨慎。后续关注点在于美光即将发布的财报能否提供强劲业绩指引，以及通胀数据是否会影响美联储政策路径。目前尚未能断定AI泡沫破裂，但市场已从单纯追逐增长转向更注重现实回报与估值合理性。

marsbit1小时前

marsbit1小时前

高盛再谈AI热潮现状：在投资周期见顶之前，“强劲盈利将压倒估值忧虑”，波动性会进一步上升

高盛最新研报指出，当前AI热潮并非1999-2000年互联网泡沫的简单重演，核心区别在于企业盈利强劲且估值尚未明显失控。市场上涨主要受盈利预期上修驱动，而非单纯估值扩张。然而，股价已提前计入大量乐观假设，其市值增长超过了基准宏观收益测算，使得市场对叙事变化更敏感。当前AI周期的显著特征是资本开支强度已接近甚至可能超过1990年代峰值，但宏观环境存在差异：企业利润率仍处高位，未像当年受到工资成本侵蚀；且经济失衡程度较轻。关键风险已从“估值泡沫”转向“盈利泡沫”，即一旦资本开支周期见顶，当前强劲的盈利能否持续存在不确定性。此外，当前美国非AI经济领域表现疲弱，AI热潮在一定程度上掩盖了整体经济的脆弱性。随着市场上涨愈发依赖乐观预期，波动性预计将进一步上升。高盛建议投资者在参与行情的同时，需增加下行保护，例如通过看跌期权或调整现货敞口来控制风险。

marsbit1小时前

高盛再谈AI热潮现状：在投资周期见顶之前，“强劲盈利将压倒估值忧虑”，波动性会进一步上升

marsbit1小时前

扎克伯格杀入预测市场

全球社交科技巨头Meta正式进军预测市场领域，首席执行官马克·扎克伯格指示公司组建团队，开发一款名为「Arena」的预测市场风格手机应用，以对标Polymarket和Kalshi等现有平台。该应用目前处于早期实验阶段，将作为独立产品运营，不与Facebook等核心应用深度绑定。初期版本不涉及真实货币，采用积分制让用户对政治、体育、娱乐等事件结果进行预测并积累积分与排名，模式类似Meta此前已关闭的Forecast应用。不过，公司并未排除未来引入真实货币投注的可能性。Meta计划利用其庞大的日活用户基数，为Arena导流以快速启动增长。此次入局正值预测市场行业高速发展。数据显示，2025年头部平台交易量约500亿美元，2026年已迅速突破1300亿美元。行业通过交易抽成模式收入潜力巨大。对Meta而言，Arena不仅能探索新收入来源，其产生的用户兴趣与信念数据也能反哺核心广告系统，实现更精准的定向投放。扎克伯格此举延续了其“跟随用户”的策略，将预测市场这一快速增长的文化现象视为新的机遇。同时，这也符合Meta发展更多独立应用以测试新兴社交形态的战略。其庞大的用户基础是关键的竞争优势，有望解决预测市场冷启动的流动性难题，并可能提升用户在Meta生态内的整体参与度。然而，挑战依然存在。这并非Meta首次尝试预测市场，此前Forecast应用已告失败。最大的障碍在于监管风险，美国相关机构对事件合约的审查趋严，真实货币投注面临复杂的博彩法规与合规压力。此外，Meta过往独立应用的下载转化与用户留存表现并不理想，能否成功吸引并留住用户仍是未知数。

Foresight News1小时前

Foresight News1小时前

交易

现货

合约

OpenAI新论文：如何训练一个“压力下不变坏”的AI？

文章摘要

热门币种推荐

相关问答

你可能也喜欢

最顶级的 MEV 机器人，被盗 750 万美元：Approval 才是链上最易忽视的致命风险？

贵金属跟跌，黄金在向市场传递什么信号？

芯片股领跌美股，AI交易正在被利率和回报双杀？

高盛再谈AI热潮现状：在投资周期见顶之前，“强劲盈利将压倒估值忧虑”，波动性会进一步上升

扎克伯格杀入预测市场

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签