OpenAI新论文：如何训练一个“压力下不变坏”的AI？

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

OpenAI近日发布论文，探讨如何在强化学习框架下训练出在压力和未知场景中仍能保持安全、有益行为的AI模型。研究指出，仅靠禁止清单不足以应对复杂决策任务，模型需具备真实性、风险感知、可纠正性等跨领域“有益特质”。论文通过构建多领域合成对话数据集，测试模型在不确定、利益冲突及风险压力下的判断能力。实验发现，在标准强化学习数据中混入仅5%的“有益特质”训练数据，即可使模型在83%的对齐与安全评测中表现优于基线，平均提升9.1个百分点。更重要的是，仅在健康领域训练的有益行为，能有效迁移至代码、伦理等非健康领域，体现出跨场景的行为倾向改善。研究还测试了模型在对抗性提示和有害微调下的“对齐持久性”。结果显示，经过有益特质训练的模型虽会受影响，但行为退化幅度小于基线，且不易出现“局部学坏、全局失调”的连锁反应。这表明，通过强化学习主动塑造模型的底层行为倾向，有望提升其在高风险任务中的稳健性。 OpenAI强调，此项工作仅为起点，但预示着AI安全正从“事后纠偏”转向“事前塑形”，为AI进入复杂决策场景奠定了基础。

看似可靠的大模型,一旦被诱导、被施压,甚至被再次训练去做坏事,能否守住安全底线?

近日,OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文,试图回答一个愈发紧迫的问题:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然延续有益且安全的行为,并在外部压力下保持稳定。

不能编造医学结论,不能给出危险建议,不能帮助用户钻漏洞...过去谈AI安全,行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景,仅靠一份禁止清单显然不够。真实任务往往不是非黑即白,用户给出的任务目标本身也可能伴随风险。

在这篇论文里,OpenAI给出了一个观点:模型成为“好助手”的前提,是要在没见过的场景里,依然保持诚实、谨慎、可纠正,并尽可能做出对人有利的判断。并且,强化学习不仅可能放大风险,也可以被反过来用于训练模型形成更广泛、更持久的有益特质。

要理解这篇论文,首先要理解强化学习。简单来说,强化学习就是让模型在一次次回答中获得反馈,系统根据某种标准给它打分,模型再不断朝着高分方向优化。

这套机制的好处是,模型不只是模仿答案,而是能主动探索更优策略。但与之并行的是,如果评分标准设计得不够好,模型存在钻规则漏洞的风险。

论文试图用Reward Hacking(奖励黑客)这一名词解释这一现象。比如一道代码任务只看最终测试分数,模型可能不去修复代码,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但并没有完成真正的任务。

更麻烦的是,过去一些研究发现,模型在一个小领域学到的坏行为,可能会外溢到其他场景。比如模型被训练去写不安全代码,结果不仅代码安全性变差,在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment,即“涌现性失调”。

OpenAI在论文中提出了一个问题:如果坏行为可以跨领域泛化,那么好行为能不能也跨领域泛化?如果强化学习可能把模型推向钻空子和欺骗,它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏?

为了验证这个问题,OpenAI构建了一套面向“有益特质”(beneficial traits)评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景,目标不是让模型机械套用安全规则或一味拒绝,而是把模型放进更真实、更复杂的情境中,考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。

论文列出了15类有益特质,包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说,就是模型不能为了显得专业而编造证据,不能在不确定时强行下结论,不能被指出错误后还固执维护原答案,也不能为了满足用户眼前需求而忽视长期风险。

论文中列举了几个场景,例如某用户想写姜黄素治疗克罗恩病的文章,但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用,而是明确承认无法验证,撤回不可靠说法,并重新说明证据边界。

这也是论文想强调的关键点:好模型不是一味拒绝用户,也不是无条件满足用户,而是在有用、诚实、安全之间做更稳健的判断。

为了验证这一判断,OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合(standard RL data mixture),再加入5%的有益特质数据(beneficial trait data);对照组则使用100%的标准强化学习数据,并保持计算量匹配。

结果显示,这5%的训练数据变化,带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中,有益特质强化学习模型(beneficial trait RL model)在44项上优于基线,占比83%,平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中,也延伸到了欺骗、奖励黑客(reward hacking)、模型规范遵守(model spec compliance)、医疗和心理健康等不同类型的外部分布评测中。

更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据,再把模型拿去做非健康领域测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中有17个超过基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗(chain-of-thought deception,简称CoT deception)、对齐问题(alignment questions)和一般失调(misalignment)等。

这说明,模型学到的可能不是某个领域的答题技巧,而是一种更底层的行为倾向:愿意承认不确定性,也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移,即模型在一个领域学到的有益行为,可以迁移到其他领域。

论文还进一步测试了对齐持久性(Alignment Persistence)。它考察的是,当模型被有害提示诱导,或被继续微调到错误方向之后,还能不能保持对齐行为。在对抗性提示(adversarial prompting)实验中,研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示,有益特质模型虽然也会受到影响,但表现下降幅度小于基线模型。

在有害微调(harmful finetuning)实验中,研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度相对更小;更重要的是,它在非医疗对齐评测中不容易出现大面积连带退化。这意味着,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

不过,OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认,这次选取的“有益特质”只是一个实验起点,并不能覆盖好AI的全部标准。同时,有益特质训练确实让模型更谨慎,在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现,即便只比较那些模型正常回答的样本,有益特质模型依然表现更好。这意味着,它的变化不只是更会说“不”,而是更会判断什么该答、怎么答。

整体来看,AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于,如何在复杂任务中保持更可预期的行为边界。对产业而言,这才是AI真正进入高风险场景前必须补上的一课。

本文来自微信公众号“未来科技界Plus”,作者:李彦,编辑:杨宇

你可能也喜欢

稳定币薪资，为何成为跨国打工人首选？

在全球薪资体系中，跨国劳动者常面临隐性汇率风险。例如，印度、阿根廷等地的自由职业者收入以美元结算，但日常支出需使用本币。若收入到账后立即兑换成本币，一旦本币贬值，购买力将缩水。过去一年，印度卢比对美元贬值超10%，阿根廷比索贬值达25%，导致劳动者资产大幅损耗。稳定币薪资方案可有效解决这一问题。劳动者能以美元稳定币形式留存部分收入，规避本币贬值风险，同时享受美元资产的保值优势。与传统跨境汇款相比，稳定币转账成本低、速度快，避免了高额手续费和银行限制。此外，自托管稳定币钱包允许用户自主持有美元等价资产，无需银行审批，并可对接链上理财服务。虽然存在私钥管理风险且缺乏存款保险，但其灵活性与低成本正吸引越来越多高通胀国家的劳动者选择美元或稳定币结算薪资。这一趋势正推动行业变革，甚至获得国际货币基金组织等机构的认可。稳定币薪资实现了支付、存储、理财、消费等功能的整合，体现了货币应有的自由与灵活。

Foresight News5分钟前

Foresight News5分钟前

别只盯着裁员，以太坊基金会新架构更值得细品

以太坊基金会（EF）近期进行了重组，裁员约20%（54人），并重新调整了组织架构。新架构将资源向核心领域集中，特别是协议层（57人）和接入层（34人），重点投入于协议演进、安全、隐私、客户端和规范等底层技术。关键方向包括：由Vitalik Buterin和Justin Drake领衔的架构组、后量子安全、zkEVM、形式化验证等。此次重组伴随着约40%的预算削减，目标是使基金会从高消耗模式转向更可持续的“捐赠基金”式运营。同时，EF正推动生态责任分散化，鼓励如EthLabs等外部组织承担应用推广、开发者工具等非核心工作，以构建更富韧性的多节点生态。核心信号是EF正收缩边界，专注于最难且不可替代的硬核技术问题，力求在复杂性增加的情况下，通过方法创新和路线图聚焦，确保以太坊的长期安全和演进。

Foresight News33分钟前

Foresight News33分钟前

研报解读：CPO 爆发时，Coherent 在下什么棋

JP摩根分析师Samik Chatterjee在投资者会议上重申了对Coherent的增持评级，认为市场低估了其增长潜力。核心逻辑围绕三条业务线展开。首先，数据中心对1.6T光收发器的需求持续强劲，价格环境健康。针对市场对CPO技术可能替代传统收发器的担忧，分析师认为CPO集成方案反而会增加对高端光学器件的需求。其次，在CPO和光路交换市场，Coherent凭借其全面的光学组件产品组合（如激光器、隔离器等）占据优势。每个CPO芯片中，公司可获取的价值远高于传统收发器。其液晶技术的OCS解决方案在可靠性和功耗上优于MEMS方案，目标市场规模达40亿美元。第三，公司计划两年内将磷化铟器件产能提升四倍，并向上游整合。作为全球两大高质量泵浦激光器供应商之一，公司正从销售器件转向提供完整的线卡或系统，单套方案售价可提升十倍以上。毛利率方面，公司目标大于42%，并有上调可能，动力来自高端产品溢价、成本结构改善及新产品放量。此外，工业领域业务保持稳定增长，半导体制程设备订单增加，3D传感领域也存在新机会。总体而言，AI推高算力需求，进而驱动高速光互联需求。Coherent在光通信芯片领域处于关键位置，CPO等新机会、工业业务的稳定增长以及毛利率改善空间共同支撑了其积极前景。

marsbit56分钟前

marsbit56分钟前

Dan Koe新文：逃离打工人宿命，如何在AI替代潮中生存下来？

本文探讨在AI技术浪潮下，如何摆脱传统“打工人”宿命，构建自己的事业以实现生存与成长。文章指出，真正的危机并非AI本身，而是将自身幸福完全寄托于他人。作者认为，许多工作因缺乏挑战和自主性，易使人陷入重复与无聊，从而成为“薪水奴隶”。为在AI时代保持竞争力，个人需掌握五个核心要素：能动性（主动行动）、品味（价值判断）、说服力（影响他人）、坚持（耐受挫折）和迭代（持续优化）。这些能力无法通过单纯学习获得，必须在实践中锻炼。文章建议，突破的关键在于转变身份，成为“不可被雇佣的人”。具体路径包括：1）彻底改变环境，重塑行为与身份；2）选择能提供真实反馈的载体（如创业），在试错中成长；3）掌握“代码”或“媒体”（内容创作）两项杠杆技能，其中媒体因价值主观、更依赖人的洞察力而更具优势。最后，作者提出一个可操作的起点：每天抽出15分钟，通过三个步骤启动个人事业：1）挖掘自身独特的兴趣与能力作为“原始素材”；2）找到自己与主流观点不同的“反共识”洞察；3）立即发布第一条内容，获取真实反馈并开始迭代。核心在于行动起来，在创作与实践中学习，逐步建立不依赖雇主的独立事业。

marsbit1小时前

marsbit1小时前

裁员20%后，EF新结构有哪些重点？

以太坊基金会（EF）于6月23日宣布完成组织重组，裁减约20%的员工（54名），并将核心工作重新划分为五大集群：协议层、接入层、用户层、社区层和机构层。此次调整旨在落实其2026年《Mandate》中的CROPS原则（抗审查、开源自由、隐私、安全及抗捕获），使基金会更精简、聚焦于维护以太坊的“自我主权”与核心价值。协议层负责底层协议研究与升级，如应对MEV和提升隐私；接入层确保用户拥有无需信任中介的访问路径；用户、社区和机构层则分别聚焦真实用户需求、维护独立社区形象及对接机构与监管。EF未公布具体预算分配，但强调这不是财务危机下的裁员，离职员工将获得优于法定标准的遣散费及转岗支持。尽管官方称此次调整为使命聚焦，但外界将其置于EF近期高层变动、市场对治理效率的质疑以及生态碎片化等背景下解读。重组后的资源流向、研发优先级及生态资助变化仍待后续披露，其实际影响取决于EF如何在压缩规模的同时，平衡协议发展、生态支持与应对监管等多重挑战。

marsbit1小时前

marsbit1小时前

交易

现货

合约

OpenAI新论文：如何训练一个“压力下不变坏”的AI？

文章摘要

热门币种推荐

相关问答

你可能也喜欢

稳定币薪资，为何成为跨国打工人首选？

别只盯着裁员，以太坊基金会新架构更值得细品

研报解读：CPO 爆发时，Coherent 在下什么棋

Dan Koe新文：逃离打工人宿命，如何在AI替代潮中生存下来？

裁员20%后，EF新结构有哪些重点？

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签