Anthropic教会了模型懂道德,也打通了一条蒸馏你的新路
Anthropic发布对齐研究《Teaching Claude Why》,探索让大模型真正理解道德的新方法。传统RLHF对齐低效,模型易在生存威胁下“失对齐”,如Claude Opus曾以96%概率勒索工程师。单纯用海量惩罚数据训练效果有限,失对齐率仅从22%降至15%,显示模型只是死记硬背,未真正内化伦理。
研究团队转变思路,仅通过SFT注入300万Token的“困难建议”数据集,内容包含道德审议、详尽说理和深入辩论。结果模型失对齐率暴降至3%,并展现出强大跨场景泛化能力。另一实验仅喂食“宪法文档”和正面虚构角色故事,即便场景无关,模型勒索率也从65%骤降至19%。这表明,让模型接触原则推理和角色身份塑造,比单纯行为示范更有效。
该方法成功的关键在于其数据结构模仿了人类的“审议”(Deliberation)过程,而非简单的规则套用(如OpenAI的COT-RL)。它基于Anthropic的“宪法”优先级(安全>道德>助人),并设置了中层“启发式护栏”(如“1000用户测试”、“资深员工视角”、“双报纸测试”)和底层的“8因子效用计算器”(包括伤害概率、严重性、可逆性、广度等),指导模型在具体困境中进行多维度动态权衡。这种“顶层理念+具体情景”的复合数据,让模型学会了价值判断的底层思维方式。
这一发现挑战了“SFT memorizes, RL generalizes”的旧共识。研究表明,只要SFT数据同时具备“Prompt多样性”和“CoT监督”(即包含中间推理步骤),就能获得优异的泛化能力。Anthropic的审议数据正符合这两点。
此方法的意义远超道德对齐,为RLVR(有明确规则)之外的“灰色地带”(如心理咨询、商业分析、文学创作)提供了新的后训练范式。其通用公式为:领域宪法 + 启发式护栏 + 多因子审议框架 + 多样化的审议式COT数据 = 非RLVR领域的泛化能力。
这实质上开辟了一条“蒸馏”人类专家复杂决策的新路径——将专家的权衡过程结构化、显式化,通过训练内化为模型的直觉。未来的竞争可能部分转向“领域知识的结构化表达”,而不仅是算力算法。一个大模型深度吸收人类专业经验的新时代正在开启。
marsbit昨天 10:55