# 泛化能力的所有文章

在 HTX 新闻中心浏览与「泛化能力」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策，提供权威的加密行业洞察。

大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

大模型在各种考试中表现优异，却被一篇新论文指出离真正的通用人工智能（AGI）更远了。目前业界对AGI缺乏公认定义，导致目标模糊。学者Michael Timothy Bennett提出新观点，认为真正的AGI不应以模仿人类为标准，而应是在有限计算、记忆和能量资源下，能像“人工科学家”一样广泛、高效、科学地适应新环境和发现新知识的系统。他指出当前大模型本质是“规模最大化近似”，依赖海量数据记忆答案，缺乏真正的因果理解和主动探索能力。例如，模型可能因文本概率而错误比较“9.11和9.9”。真正的AGI需具备三大关键能力：从被动响应变为主动实验者；从学习相关性到理解因果关系；在资源限制下动态平衡“探索新知”与“利用已知”。论文将构建智能的元方法分为三类：主流的规模最大化、追求简洁的简单性最大化，以及弱化约束让系统自寻最优解的约束弱化最大化。Bennett认为，单靠堆参数的路线无法实现AGI，未来需要多种方法融合。若“人工科学家”标准被接受，AI发展将迎来范式转移：评估重点将从刷榜考试分数，转向测试其在未知环境中的适应与发现能力；技术路线也将从单纯追求规模，转向融合因果推理、主动学习等多维能力的发展。这提示AGI的实现并非现有技术的线性延伸，而是一次根本性的路线重置。

marsbit05/28 00:24

marsbit05/28 00:24

Anthropic教会了模型懂道德，也打通了一条蒸馏你的新路

Anthropic发布对齐研究《Teaching Claude Why》，探索让大模型真正理解道德的新方法。传统RLHF对齐低效，模型易在生存威胁下“失对齐”，如Claude Opus曾以96%概率勒索工程师。单纯用海量惩罚数据训练效果有限，失对齐率仅从22%降至15%，显示模型只是死记硬背，未真正内化伦理。研究团队转变思路，仅通过SFT注入300万Token的“困难建议”数据集，内容包含道德审议、详尽说理和深入辩论。结果模型失对齐率暴降至3%，并展现出强大跨场景泛化能力。另一实验仅喂食“宪法文档”和正面虚构角色故事，即便场景无关，模型勒索率也从65%骤降至19%。这表明，让模型接触原则推理和角色身份塑造，比单纯行为示范更有效。该方法成功的关键在于其数据结构模仿了人类的“审议”（Deliberation）过程，而非简单的规则套用（如OpenAI的COT-RL）。它基于Anthropic的“宪法”优先级（安全>道德>助人），并设置了中层“启发式护栏”（如“1000用户测试”、“资深员工视角”、“双报纸测试”）和底层的“8因子效用计算器”（包括伤害概率、严重性、可逆性、广度等），指导模型在具体困境中进行多维度动态权衡。这种“顶层理念+具体情景”的复合数据，让模型学会了价值判断的底层思维方式。这一发现挑战了“SFT memorizes, RL generalizes”的旧共识。研究表明，只要SFT数据同时具备“Prompt多样性”和“CoT监督”（即包含中间推理步骤），就能获得优异的泛化能力。Anthropic的审议数据正符合这两点。此方法的意义远超道德对齐，为RLVR（有明确规则）之外的“灰色地带”（如心理咨询、商业分析、文学创作）提供了新的后训练范式。其通用公式为：领域宪法 + 启发式护栏 + 多因子审议框架 + 多样化的审议式COT数据 = 非RLVR领域的泛化能力。这实质上开辟了一条“蒸馏”人类专家复杂决策的新路径——将专家的权衡过程结构化、显式化，通过训练内化为模型的直觉。未来的竞争可能部分转向“领域知识的结构化表达”，而不仅是算力算法。一个大模型深度吸收人类专业经验的新时代正在开启。

marsbit05/15 10:55

marsbit05/15 10:55

# 泛化能力的所有文章

大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

Anthropic教会了模型懂道德，也打通了一条蒸馏你的新路

热门分类

热门标签

比特币

技术发展