# 泛化能力的所有文章

在 HTX 新闻中心浏览与「泛化能力」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策,提供权威的加密行业洞察。

大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

大模型在各种考试中表现优异,却被一篇新论文指出离真正的通用人工智能(AGI)更远了。目前业界对AGI缺乏公认定义,导致目标模糊。学者Michael Timothy Bennett提出新观点,认为真正的AGI不应以模仿人类为标准,而应是在有限计算、记忆和能量资源下,能像“人工科学家”一样广泛、高效、科学地适应新环境和发现新知识的系统。 他指出当前大模型本质是“规模最大化近似”,依赖海量数据记忆答案,缺乏真正的因果理解和主动探索能力。例如,模型可能因文本概率而错误比较“9.11和9.9”。真正的AGI需具备三大关键能力:从被动响应变为主动实验者;从学习相关性到理解因果关系;在资源限制下动态平衡“探索新知”与“利用已知”。 论文将构建智能的元方法分为三类:主流的规模最大化、追求简洁的简单性最大化,以及弱化约束让系统自寻最优解的约束弱化最大化。Bennett认为,单靠堆参数的路线无法实现AGI,未来需要多种方法融合。 若“人工科学家”标准被接受,AI发展将迎来范式转移:评估重点将从刷榜考试分数,转向测试其在未知环境中的适应与发现能力;技术路线也将从单纯追求规模,转向融合因果推理、主动学习等多维能力的发展。这提示AGI的实现并非现有技术的线性延伸,而是一次根本性的路线重置。

marsbit05/28 00:24

大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

marsbit05/28 00:24

Anthropic教会了模型懂道德,也打通了一条蒸馏你的新路

Anthropic发布对齐研究《Teaching Claude Why》,探索让大模型真正理解道德的新方法。传统RLHF对齐低效,模型易在生存威胁下“失对齐”,如Claude Opus曾以96%概率勒索工程师。单纯用海量惩罚数据训练效果有限,失对齐率仅从22%降至15%,显示模型只是死记硬背,未真正内化伦理。 研究团队转变思路,仅通过SFT注入300万Token的“困难建议”数据集,内容包含道德审议、详尽说理和深入辩论。结果模型失对齐率暴降至3%,并展现出强大跨场景泛化能力。另一实验仅喂食“宪法文档”和正面虚构角色故事,即便场景无关,模型勒索率也从65%骤降至19%。这表明,让模型接触原则推理和角色身份塑造,比单纯行为示范更有效。 该方法成功的关键在于其数据结构模仿了人类的“审议”(Deliberation)过程,而非简单的规则套用(如OpenAI的COT-RL)。它基于Anthropic的“宪法”优先级(安全>道德>助人),并设置了中层“启发式护栏”(如“1000用户测试”、“资深员工视角”、“双报纸测试”)和底层的“8因子效用计算器”(包括伤害概率、严重性、可逆性、广度等),指导模型在具体困境中进行多维度动态权衡。这种“顶层理念+具体情景”的复合数据,让模型学会了价值判断的底层思维方式。 这一发现挑战了“SFT memorizes, RL generalizes”的旧共识。研究表明,只要SFT数据同时具备“Prompt多样性”和“CoT监督”(即包含中间推理步骤),就能获得优异的泛化能力。Anthropic的审议数据正符合这两点。 此方法的意义远超道德对齐,为RLVR(有明确规则)之外的“灰色地带”(如心理咨询、商业分析、文学创作)提供了新的后训练范式。其通用公式为:领域宪法 + 启发式护栏 + 多因子审议框架 + 多样化的审议式COT数据 = 非RLVR领域的泛化能力。 这实质上开辟了一条“蒸馏”人类专家复杂决策的新路径——将专家的权衡过程结构化、显式化,通过训练内化为模型的直觉。未来的竞争可能部分转向“领域知识的结构化表达”,而不仅是算力算法。一个大模型深度吸收人类专业经验的新时代正在开启。

marsbit05/15 10:55

Anthropic教会了模型懂道德,也打通了一条蒸馏你的新路

marsbit05/15 10:55

活动图片