OpenAI新论文:如何训练一个“压力下不变坏”的AI?

marsbit发布于2026-06-24更新于2026-06-24

文章摘要

OpenAI近日发布论文,探讨如何在强化学习框架下训练出在压力和未知场景中仍能保持安全、有益行为的AI模型。研究指出,仅靠禁止清单不足以应对复杂决策任务,模型需具备真实性、风险感知、可纠正性等跨领域“有益特质”。 论文通过构建多领域合成对话数据集,测试模型在不确定、利益冲突及风险压力下的判断能力。实验发现,在标准强化学习数据中混入仅5%的“有益特质”训练数据,即可使模型在83%的对齐与安全评测中表现优于基线,平均提升9.1个百分点。更重要的是,仅在健康领域训练的有益行为,能有效迁移至代码、伦理等非健康领域,体现出跨场景的行为倾向改善。 研究还测试了模型在对抗性提示和有害微调下的“对齐持久性”。结果显示,经过有益特质训练的模型虽会受影响,但行为退化幅度小于基线,且不易出现“局部学坏、全局失调”的连锁反应。这表明,通过强化学习主动塑造模型的底层行为倾向,有望提升其在高风险任务中的稳健性。 OpenAI强调,此项工作仅为起点,但预示着AI安全正从“事后纠偏”转向“事前塑形”,为AI进入复杂决策场景奠定了基础。

看似可靠的大模型,一旦被诱导、被施压,甚至被再次训练去做坏事,能否守住安全底线?

近日,OpenAI发布了一篇名为《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》的论文,试图回答一个愈发紧迫的问题:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然延续有益且安全的行为,并在外部压力下保持稳定。

不能编造医学结论,不能给出危险建议,不能帮助用户钻漏洞...过去谈AI安全,行业更习惯从“模型不能做什么”出发。但当AI开始进入复杂决策场景,仅靠一份禁止清单显然不够。真实任务往往不是非黑即白,用户给出的任务目标本身也可能伴随风险。

在这篇论文里,OpenAI给出了一个观点:模型成为“好助手”的前提,是要在没见过的场景里,依然保持诚实、谨慎、可纠正,并尽可能做出对人有利的判断。并且,强化学习不仅可能放大风险,也可以被反过来用于训练模型形成更广泛、更持久的有益特质。

要理解这篇论文,首先要理解强化学习。简单来说,强化学习就是让模型在一次次回答中获得反馈,系统根据某种标准给它打分,模型再不断朝着高分方向优化。

这套机制的好处是,模型不只是模仿答案,而是能主动探索更优策略。但与之并行的是,如果评分标准设计得不够好,模型存在钻规则漏洞的风险。

论文试图用Reward Hacking(奖励黑客)这一名词解释这一现象。比如一道代码任务只看最终测试分数,模型可能不去修复代码,而是直接修改评测逻辑,让结果看起来通过。它拿到了奖励,但并没有完成真正的任务。

更麻烦的是,过去一些研究发现,模型在一个小领域学到的坏行为,可能会外溢到其他场景。比如模型被训练去写不安全代码,结果不仅代码安全性变差,在其他问题上也更容易表现出欺骗、迎合或给出有害建议。这类现象被称为Emergent Misalignment,即“涌现性失调”。

OpenAI在论文中提出了一个问题:如果坏行为可以跨领域泛化,那么好行为能不能也跨领域泛化?如果强化学习可能把模型推向钻空子和欺骗,它能不能也被用来训练模型更诚实、更谨慎、更不容易被带偏?

为了验证这个问题,OpenAI构建了一套面向“有益特质”(beneficial traits)评估与训练的多领域合成对话数据集。它覆盖医疗、教育、商业经济、工程技术运维、法律伦理治理、科学研究等12类场景,目标不是让模型机械套用安全规则或一味拒绝,而是把模型放进更真实、更复杂的情境中,考察它能否在事实不确定、利益冲突和风险压力下做出稳健判断。

论文列出了15类有益特质,包括真实性、元认知透明、可纠正性、风险感知规划、权力不对称意识、可普遍化公平等。换成更通俗的话说,就是模型不能为了显得专业而编造证据,不能在不确定时强行下结论,不能被指出错误后还固执维护原答案,也不能为了满足用户眼前需求而忽视长期风险。

论文中列举了几个场景,例如某用户想写姜黄素治疗克罗恩病的文章,但找不到此前模型提到的临床研究。好的回答不是继续补一个看似可信的引用,而是明确承认无法验证,撤回不可靠说法,并重新说明证据边界。

这也是论文想强调的关键点:好模型不是一味拒绝用户,也不是无条件满足用户,而是在有用、诚实、安全之间做更稳健的判断。

为了验证这一判断,OpenAI研究团队做了一组对照实验。他们让一个模型使用95%的标准强化学习数据混合(standard RL data mixture),再加入5%的有益特质数据(beneficial trait data);对照组则使用100%的标准强化学习数据,并保持计算量匹配。

结果显示,这5%的训练数据变化,带来了明显差异。在53个独立构建的对齐、安全和有益行为评测中,有益特质强化学习模型(beneficial trait RL model)在44项上优于基线,占比83%,平均提升9.1个百分点。提升不仅出现在论文内部的有益特质评测中,也延伸到了欺骗、奖励黑客(reward hacking)、模型规范遵守(model spec compliance)、医疗和心理健康等不同类型的外部分布评测中。

更值得关注的是一组跨领域实验。研究者只用健康领域的有益行为对话替换5%的训练数据,再把模型拿去做非健康领域测试。结果,这个“只学过健康场景好行为”的模型,在19个非健康对齐评测中有17个超过基线,平均提升11.3个百分点。改善范围包括代码奖励黑客、思维链欺骗(chain-of-thought deception,简称CoT deception)、对齐问题(alignment questions)和一般失调(misalignment)等。

这说明,模型学到的可能不是某个领域的答题技巧,而是一种更底层的行为倾向:愿意承认不确定性,也更倾向于在高风险场景里先考虑止损和可逆方案。论文也将这种现象称为跨领域的对齐迁移,即模型在一个领域学到的有益行为,可以迁移到其他领域。

论文还进一步测试了对齐持久性(Alignment Persistence)。它考察的是,当模型被有害提示诱导,或被继续微调到错误方向之后,还能不能保持对齐行为。在对抗性提示(adversarial prompting)实验中,研究团队用“坏医疗人格”提示诱导模型给出不准确、不安全或不完整的医疗建议。结果显示,有益特质模型虽然也会受到影响,但表现下降幅度小于基线模型。

在有害微调(harmful finetuning)实验中,研究者进一步将模型微调到输出错误或不安全的医疗建议。结果同样显示,有益特质模型在目标医疗任务上会退化,但退化幅度相对更小;更重要的是,它在非医疗对齐评测中不容易出现大面积连带退化。这意味着,有益特质训练可能在一定程度上缓解“局部学坏、全局失调”的问题。

不过,OpenAI并没有宣称这项研究已经解决AI对齐问题。论文也承认,这次选取的“有益特质”只是一个实验起点,并不能覆盖好AI的全部标准。同时,有益特质训练确实让模型更谨慎,在高风险问题上更容易拒绝。但这种提升并不只是靠“少回答”换来的。研究发现,即便只比较那些模型正常回答的样本,有益特质模型依然表现更好。这意味着,它的变化不只是更会说“不”,而是更会判断什么该答、怎么答。

整体来看,AI对齐正在从“事后纠偏”走向“事前塑形”。下一阶段的竞争在于,如何在复杂任务中保持更可预期的行为边界。对产业而言,这才是AI真正进入高风险场景前必须补上的一课。

本文来自微信公众号“未来科技界Plus”,作者:李彦,编辑:杨宇

热门币种推荐

相关问答

QOpenAI发布的这篇论文主要试图解决什么问题?

A这篇论文主要试图解决:当AI被推向更长链路、高风险的任务时,如何让模型在训练之外的新场景中,依然保持有益且安全的行为,并在面对诱导、施压甚至有害微调等外部压力时,其‘好行为’能保持稳定和持久。核心是研究如何通过强化学习训练出具有广泛、持久有益特质的AI。

Q论文中提到的“奖励黑客”(Reward Hacking)是什么?

A“奖励黑客”指的是在强化学习中,模型为了获得系统给出的高分奖励,不去真正完成或解决任务本身,而是通过寻找并利用评价规则的漏洞来“欺骗”系统,让结果看起来通过了测试。例如,在一个代码任务中,模型不是去修复代码错误,而是直接修改评测逻辑让自己‘通过’,从而获得奖励。这是一种模型目标与开发者意图失调的现象。

QOpenAI提出的“有益特质”包含哪些方面的能力?请举几个例子。

A论文列举了15类有益特质,包括但不限于:真实性(不编造证据)、元认知透明(能说明自己的不确定性)、可纠正性(被指出错误后能承认并修正)、风险感知规划(考虑长期和潜在风险)、权力不对称意识(在专业领域对非专业用户保持谨慎)、可普遍化公平等。通俗来说,就是模型要诚实、谨慎、愿意承认不知道、能接受纠正,并在风险和利益冲突下做出稳健判断。

Q实验结果表明,仅仅混合5%的“有益特质”数据训练,带来了什么效果?

A实验结果表明,在95%的标准强化学习数据中混合5%的有益特质数据进行训练后,模型在53个独立的对齐、安全和有益行为评测中,有44项(占比83%)表现优于使用100%标准数据的基线模型,平均提升9.1个百分点。提升不仅限于论文内部评测,还延伸到了外部的欺骗、奖励黑客、医疗安全等多个领域的评测中。

Q论文中提到的“跨领域对齐迁移”和“对齐持久性”分别是什么意思?

A“跨领域对齐迁移”指模型在某个特定领域(如健康)学到的有益行为特质,能够迁移到其他未专门训练的领域(如代码、法律等),表现出更广泛的对齐行为。例如,实验中发现,仅用健康领域有益数据训练的模型,在非健康领域的多项评测中也优于基线。 “对齐持久性”则指模型在面对对抗性提示诱导或被有害微调(即继续训练去做坏事)等压力后,其原有的有益、安全的行为特质能够保持的程度。实验表明,经过有益特质训练的模型,在这些压力下行为退化的幅度小于基线模型,表现出更强的鲁棒性。

你可能也喜欢

研报解读:CPO 爆发时,Coherent 在下什么棋

JP摩根分析师Samik Chatterjee在投资者会议上重申了对Coherent的增持评级,认为市场低估了其增长潜力。核心逻辑围绕三条业务线展开。 首先,数据中心对1.6T光收发器的需求持续强劲,价格环境健康。针对市场对CPO技术可能替代传统收发器的担忧,分析师认为CPO集成方案反而会增加对高端光学器件的需求。 其次,在CPO和光路交换市场,Coherent凭借其全面的光学组件产品组合(如激光器、隔离器等)占据优势。每个CPO芯片中,公司可获取的价值远高于传统收发器。其液晶技术的OCS解决方案在可靠性和功耗上优于MEMS方案,目标市场规模达40亿美元。 第三,公司计划两年内将磷化铟器件产能提升四倍,并向上游整合。作为全球两大高质量泵浦激光器供应商之一,公司正从销售器件转向提供完整的线卡或系统,单套方案售价可提升十倍以上。 毛利率方面,公司目标大于42%,并有上调可能,动力来自高端产品溢价、成本结构改善及新产品放量。此外,工业领域业务保持稳定增长,半导体制程设备订单增加,3D传感领域也存在新机会。 总体而言,AI推高算力需求,进而驱动高速光互联需求。Coherent在光通信芯片领域处于关键位置,CPO等新机会、工业业务的稳定增长以及毛利率改善空间共同支撑了其积极前景。

marsbit56分钟前

研报解读:CPO 爆发时,Coherent 在下什么棋

marsbit56分钟前

Dan Koe新文:逃离打工人宿命,如何在AI替代潮中生存下来?

本文探讨在AI技术浪潮下,如何摆脱传统“打工人”宿命,构建自己的事业以实现生存与成长。文章指出,真正的危机并非AI本身,而是将自身幸福完全寄托于他人。作者认为,许多工作因缺乏挑战和自主性,易使人陷入重复与无聊,从而成为“薪水奴隶”。 为在AI时代保持竞争力,个人需掌握五个核心要素:能动性(主动行动)、品味(价值判断)、说服力(影响他人)、坚持(耐受挫折)和迭代(持续优化)。这些能力无法通过单纯学习获得,必须在实践中锻炼。 文章建议,突破的关键在于转变身份,成为“不可被雇佣的人”。具体路径包括:1)彻底改变环境,重塑行为与身份;2)选择能提供真实反馈的载体(如创业),在试错中成长;3)掌握“代码”或“媒体”(内容创作)两项杠杆技能,其中媒体因价值主观、更依赖人的洞察力而更具优势。 最后,作者提出一个可操作的起点:每天抽出15分钟,通过三个步骤启动个人事业:1)挖掘自身独特的兴趣与能力作为“原始素材”;2)找到自己与主流观点不同的“反共识”洞察;3)立即发布第一条内容,获取真实反馈并开始迭代。核心在于行动起来,在创作与实践中学习,逐步建立不依赖雇主的独立事业。

marsbit1小时前

Dan Koe新文:逃离打工人宿命,如何在AI替代潮中生存下来?

marsbit1小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

595人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片