大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

marsbit發佈於 2026-05-28更新於 2026-05-28

文章摘要

大模型在各种考试中表现优异,却被一篇新论文指出离真正的通用人工智能(AGI)更远了。目前业界对AGI缺乏公认定义,导致目标模糊。学者Michael Timothy Bennett提出新观点,认为真正的AGI不应以模仿人类为标准,而应是在有限计算、记忆和能量资源下,能像“人工科学家”一样广泛、高效、科学地适应新环境和发现新知识的系统。 他指出当前大模型本质是“规模最大化近似”,依赖海量数据记忆答案,缺乏真正的因果理解和主动探索能力。例如,模型可能因文本概率而错误比较“9.11和9.9”。真正的AGI需具备三大关键能力:从被动响应变为主动实验者;从学习相关性到理解因果关系;在资源限制下动态平衡“探索新知”与“利用已知”。 论文将构建智能的元方法分为三类:主流的规模最大化、追求简洁的简单性最大化,以及弱化约束让系统自寻最优解的约束弱化最大化。Bennett认为,单靠堆参数的路线无法实现AGI,未来需要多种方法融合。 若“人工科学家”标准被接受,AI发展将迎来范式转移:评估重点将从刷榜考试分数,转向测试其在未知环境中的适应与发现能力;技术路线也将从单纯追求规模,转向融合因果推理、主动学习等多维能力的发展。这提示AGI的实现并非现有技术的线性延伸,而是一次根本性的路线重置。

如果有人告诉你,AGI(通用人工智能)已经实现了,你怎么判断他是在说真话,还是在吹牛?

在OpenAI与微软曝光的秘密协议里,这把尺子是财务报表——开发出能产生至少1000亿美元利润的AI系统就算AGI。而在黄仁勋嘴里,这把尺子是时间——五年内必现;马斯克更是屡次放出“明年达成”的预言。

行业大佬们各说各话,根源不在于谁在说谎,而在于AGI这个概念本身,根本就没有一把公认的尺子。正如AGI研究领域中一位有独立思考的研究者Bennett在论文中所说,AGI已被炒作和猜测还原成了“罗夏墨迹测试”——每个人看到的只是自己心里的想象,而非客观事实;而圣塔菲研究所科学家Melanie Mitchell也认为,这场辩论只能通过长期的科学研究来厘清。(附论文地址:https://arxiv.org/pdf/2503.23923)

这是AI行业当下最荒诞的困境:我们正在全速狂奔,去追逐一个连终点线都没画清楚的目标。

2025,谁在重画AGI的起跑线?

面对这种定义真空,学术界在2025年开始密集“补位”。Bengio等学者强调“多功能性”和“熟练度”;DeepMind提出“分布式AGI”,试图打破单体全能的迷思。

但澳大利亚国立大学的研究员Michael Timothy Bennett,在3月底提交到arXiv的一篇论文中,给出了一个极具挑衅性却也最切中肯綮的答案。

他指出,前人的定义绕来绕去,依然在跟“受过教育的成年人”较劲。Bennett采纳了学者Pei Wang对智能的定义——将智能视为有限资源下的适应能力——从根本上跳出了“像人”的框架,并将AGI定义为一种“人工科学家”。

他提出,真正的AGI应当是一个能在计算、记忆和能量等现实约束下,像人类科学家一样广泛、高效且科学地适应新环境和任务的系统。

这句话的潜台词是:评判AGI的标准,不该是它模仿人类有多像,而是它“发现新知”的能力有多强。

为什么急需一把新尺子?因为旧尺子——图灵测试和人类基准测试——已经被大模型刷爆了,但我们却离真正的通用智能越来越远。

2025年,如果你问一个顶尖大模型“9.11和9.9哪个大”,它依然可能信誓旦旦地告诉你9.11大,因为11大于9。在解决复杂的数学不等式证明时,大模型即便蒙对了答案,推理过程也往往是逻辑崩溃的。

Bennett一针见血地指出了病因:当前的大模型走的是“规模最大化的近似”路线——用海量数据和算力,把各种任务的近似答案提前存在网络权重里。一旦遇到没见过的分布外问题,就立刻露馅。

更致命的是,大模型没有“主动能力”。它无法主动做实验验证猜想,无法自主构建因果链条,更无法在“继续探索”与“利用已知”之间做权衡。

回到9.11和9.9的比较——大模型不是不会算术,而是它根本没有建立关于数字比较的因果模型。它只是在用概率去猜那个它见过的、最接近的文本片段。

“模仿能力”与“适应能力”之间的鸿沟,正是新AGI标准想要测量的核心。

智能的新刻度:拆解“人工科学家”

Bennett的这套标准之所以值得重视,是因为他把AGI从一个模糊的哲学命题,降维成了可量化的工程问题。

在他看来,一个真正的AGI,其行为模式应该完美对齐人类科学家的研究范式:

第一,从“提线木偶”到“主动实验者”。

今天的AI是彻头彻尾的被动学习者,只能“看”人类喂给它的数据。但科学家不是,如果一个科学家被锁在一个陌生房间里,他绝不会站在原地等信息,而是会去推门、拉把手、检查窗户——这就是“主动实验”。真正的AGI,必须能自主规划实验,通过主动交互获取关键信息。

第二,从“知其然”到“知其所以然”。

这是当前AI最大的短板。大模型是极端的“相关性学习器”,它知道“下雨”常伴随“地湿”,但不知道是谁导致了谁。只有理解了因果,才懂得在晴空万里但地面湿润时,推断出是洒水车经过而非即将下雨。没有因果理解,AI永远只能在训练数据的分布内打转,这与“通用”毫不相干。

第三,在“探索”与“利用”之间走钢丝。

如果只探索不利用,掌握再多知识也解决不了眼前问题;如果只利用不探索,环境一变就束手无策。AGI必须在资源受限下动态平衡这对矛盾——知道自己不知道什么,并据此分配算力。

此外,Bennett还加入了一个极具现实感的维度:能量限制。把“能量”写进定义,意味着他划清了一条底线:真正的智能不是拥有无限资源,而是在有限资源下优雅地适应。需要消耗一座核电站才能解决新问题的AI,只是昂贵的计算器,不是AGI。

通向AGI的路线重置:告别单一Scaling Law

基于上述框架,Bennett把当前构建智能系统的元方法拆解为三类:

Scale-maxing(规模最大化):当前主流的大模型路线,拼命堆参数、数据和算力。但瓶颈已经显现:样本和能量效率极低。

Simp-maxing(简单性最大化):追求模型结构的极致简洁,信奉奥卡姆剃刀。但简单性是形式的属性而非功能的属性——不同图灵机下的“最简”可能完全不同,使其难以摆脱主观性陷阱。

W-maxing(约束弱化最大化):尽可能弱化功能约束,让系统自行寻找最优解。实验表明,仅W-maxing就能在特定任务上实现110%-500%的泛化率提升,但它需要搜索无限的硬件形态空间,优化难度极高。

Bennett的结论极其清晰:尽管Scale-maxing目前占据绝对主导,但AGI绝不是靠单一路线的暴力美学能达成的,它必然是多种元方法的融合。

如果“人工科学家”的定义被广泛接受,AI行业将迎来一次深层的范式转移。

评判标准将彻底改变。我们不再需要看大模型在人类考试排行榜上又超了多少分,而是建立一套“适应性基准”:把AI扔进一个从未见过的物理环境,看它能否在有限交互内发现规律;给它一个新游戏,看它能否比人类更快理解规则;甚至让它去解决真实的科学问题,看它能否自主提出假说并设计实验验证。核心不再是“你知道多少”,而是“你能发现多少”。

技术路线也将随之转向。单纯的Scaling Law很快会触顶,因为被动接收的数据喂不出因果性。搜索与近似、规模最大化与约束弱化——AGI的达成必然是多种工具和元方法的融合,而非单一路线的延伸。

Bennett的论文之所以重要,不是因为他给出了AGI的终极答案,而是他把这面名为“智能”的模糊镜子擦干净了一角。他让我们看到,AGI的实现不是大模型的线性迭代,而是一次路线重置。

AGI到底该是什么样?答案不在那些越来越像人的对话,而在那些能够主动追问“为什么”、并亲手去验证答案的能力中。当AI真正走出“罗夏墨迹测试”的迷雾,它将不再只是模仿人类的样子,而是拥有科学家的精神。(本文首发钛媒体APP,作者 | 硅谷tech news,编辑 | 赵虹宇)

相關問答

Q文章认为当前衡量AGI的标准存在什么问题?

A文章认为当前AGI(通用人工智能)缺乏公认的、清晰的衡量标准,变成了“罗夏墨迹测试”,每个人看到的都是自己心中的想象,而非客观事实。旧有的测试(如图灵测试和人类基准测试)已被大模型通过,但这并不代表真正通用智能的实现。

Q论文作者Michael Timothy Bennett提出了怎样的AGI新定义或标准?

A论文作者Michael Timothy Bennett将AGI定义为一种“人工科学家”。即一个能在计算、记忆和能量等现实约束下,像人类科学家一样,能够广泛、高效且科学地适应新环境和任务的系统。评判标准从“模仿人类有多像”转向“发现新知的能力有多强”。

Q根据文章,当前主流的大模型(Scale-maxing路线)在实现AGI方面有哪些根本性缺陷?

A当前主流大模型(Scale-maxing路线)的根本性缺陷在于:1. 本质上是“规模最大化的近似”,靠海量数据提前存储答案,遇到未见过的分布外问题就会失效。2. 缺乏“主动能力”,无法主动实验、自主构建因果链、在探索与利用间做权衡。3. 是极端的“相关性学习器”,缺乏因果理解能力,无法“知其所以然”。

Q文章提到的“人工科学家”应具备哪三种核心行为模式或能力?

A文章提出的“人工科学家”应具备以下三种核心行为模式或能力:1. 从“提线木偶”到“主动实验者”:能自主规划并执行实验,通过主动交互获取关键信息。2. 从“知其然”到“知其所以然”:具备因果理解能力,而非仅依赖相关性。3. 在“探索”与“利用”之间走钢丝:能在资源受限下动态平衡对新知识的探索和对已知知识的利用。

Q如果“人工科学家”的定义被广泛接受,将对AI行业带来哪些改变?

A如果“人工科学家”的定义被广泛接受,将对AI行业带来两大核心改变:1. 评判标准彻底改变:不再依赖通过人类考试排行榜,而是建立一套“适应性基准”,测试AI在从未见过的环境或任务中发现规律、解决真实问题的能力。2. 技术路线转向:单一的Scaling Law(规模缩放法则)路线将触顶,实现AGI需要融合规模最大化、简单性最大化、约束弱化最大化等多种元方法。

你可能也喜歡

一家加密 VC 的判断:终点站到了,所有乘客请下车

一家以色列加密风投Collider的创始合伙人Avishay Ovadia指出,加密货币行业正在经历根本性转变:散户主导的时代已经结束,机构正大规模进入。 过去十年中,加密社区曾幻想“自下而上的大规模采用”,但现实是大量散户实为寻求高杠杆的赌徒,热衷于炒作MEME币并快速离场。与此同时,银行、支付巨头等传统金融机构并未离开,而是全面入场。他们并非拥抱去中心化理念,而是看中了区块链作为高效资金转移管道的实用价值,旨在追逐利润。贝莱德CEO拉里·芬克甚至将代币化称为重塑金融的两大趋势之一,预示着全球金融系统可能面临规模达140万亿美元的转型。 文章认为,加密行业已将基础设施和概念验证拱手让给传统机构。这些机构不会参与DAO或社区治理,而是在建立自己的“围墙花园”(如Canton、Zero等生态系统),利用区块链技术提升效率,同时剥离其加密意识形态,保留对用户、数据和利润的控制。 行业演变路径清晰:从早期的比特币密码朋克,到加密行业、区块链技术、Web3兴起与崩塌,再到2024年借助选举热度回归,如今最终步入“数字资产经济”阶段。加密不再是一个独立行业,而成为驱动金融科技的基础层。 这对纯粹主义者或许是背叛,但对务实者则是巨大机遇。万亿美元资金正等待部署,我们进入了“分销商时代”。资产代币化(如房地产、债券)将主要通过银行和支付巨头完成,而非去中心化公链。 作者建议从业者调整心态:创业者应停止闭门造车,深入了解传统金融机构的痛点和监管恐惧,打造能无缝嵌入其现有体系的产品;投资人应放弃过去炒作“低流通、高FDV”空气币的模式,转向寻找具有真实效用、收入、护城河和机构采用的项目。 结论是:游戏规则已变,机构成为新的核心渠道,将带来下一个十亿用户和百万亿美元资金。行业终点站已到,从业者需拥抱变化,在数字资产经济的新现实中寻找位置。

marsbit13 分鐘前

一家加密 VC 的判断:终点站到了,所有乘客请下车

marsbit13 分鐘前

早报 | Coinbase 与渣打银行合作扩展多币种法币通道;Sharplink 与 Forward 将纳入罗素指数;摩根大通将来或许会发行稳定币

**加密货币市场重要资讯摘要:** 过去24小时内,加密货币领域动态频发,监管、合规与市场发展并重。 **机构与合作进展:** * Coinbase宣布与渣打银行合作,将为其Prime平台机构客户扩展澳元、新加坡元、加元等多币种法币通道,以提升全球资本效率。 * 摩根大通首席执行官杰米·戴蒙表示,摩根大通未来或许会发行稳定币。 * Falcon Finance与Anchorage Digital Bank合作推出面向机构的合规稳定币fUSD,该产品符合相关法案框架,由美国国债等资产支持。 **市场动态与观点:** * 采用加密资产储备策略的公司Sharplink与Forward Industries将被纳入罗素2000和3000指数,为传统指数投资者提供间接的ETH和SOL敞口。 * 彭博社分析师指出,香港市场上一只2倍杠杆的SK海力士ETF年内资产规模暴增约10倍,已成为当地第三大ETF,成交活跃。 * Fundstrat联合创始人Tom Lee表示,坚信加密市场超级周期即将到来,以太坊将受益于华尔街资产代币化和AI Agent两大趋势。 * 知名交易员Killa指出,从历史经验看,当前市场亏损期的持续时间可能尚不足以确认熊市底部,市场或需更长时间筑底。 * 韩国虚拟资产市场交易额相对疲软,已降至韩国综合股价指数(KOSPI)交易额约8%的水平,比特币“韩国溢价”指标持续为负。 **监管与合规动向:** * 香港金融管理局针对内地投资者在港开立投资账户推出三项新监管措施,包括核查自2023年1月以来使用可疑或伪造文件开设的账户、清理长期无活动的“僵尸账户”,以及要求新开户者声明资金来源为境外合法所得。 * 去中心化预测市场平台Polymarket正计划推动用户进行身份验证(KYC),以应对日益增长的监管与制裁合规压力。 * 投资银行TD Cowen分析指出,由于美国政治环境变化,关键的加密市场结构法案(CLARITY Act)在今年通过的可能性正在降低。 * 中国最高人民法院表示,将研究虚拟货币、跨境金融等新型案件的裁判规则,并计划制定涉内幕交易、操纵市场民事赔偿的司法解释。 * 最高法还提及,将研究制定涉人工智能案件和数据产权司法保护的规范性文件。 **行业观察与创新:** * 福布斯报道指出,去中心化衍生品平台Hyperliquid上线SpaceX永续合约,引发了关于私人公司估值在缺乏监管框架下被链上市场“定价”的争议。 * a16z crypto发表观点称,目前许多所谓的“代币化”实践实际上更接近“数字化”,并未充分解锁链上可组合性的价值,大部分代币化资产并未活跃用于DeFi。 * 以太坊联合创始人Vitalik Buterin表示,将不再撰写常规博文,转而尝试创作关于去中心化治理主题的科幻小说。 **热门Meme币榜单(截至5月28日09:00):** * **ETH链前五:** HEX、SHIB、LINK、PEPE、mUSD * **Solana链前五:** TROLL、SAOS、neet、WORLDCUP、Buttcoin * **Base链前五:** toby、ELSA、cbETH、CYPR、ALB **值得阅读的文章:** * 《Bankless创始人:为什么我卖掉了所有的ETH》:作者阐述其作为以太坊长期支持者,决定清仓ETH的深层原因。 * 《谁能在Agents时代赚到钱?》:探讨当区块链的主要用户从人类转向AI智能体(Agents)时,价值捕获模式可能发生的变化。

链捕手1 小時前

早报 | Coinbase 与渣打银行合作扩展多币种法币通道;Sharplink 与 Forward 将纳入罗素指数;摩根大通将来或许会发行稳定币

链捕手1 小時前

坐拥万亿市场,房地产代币化为何火不起来?

房地产代币化虽被视作革新房地产投资的突破口,理论上能降低门槛、提升流动性,但在现实中进展缓慢,在全球房地产市场中占比不足0.1%。其核心问题并非技术,而是缺乏完善的法律、运营与合规体系,导致代币未能成为具备公信力的金融产品。 早期发展过于聚焦技术而忽略了投资者对资产信任的需求,导致产品所有权模糊、流动性仅停留在理论层面。基础设施存在明显短板,如缺乏具备法律效力的所有权框架、合规的流转机制以及与现有金融体系的互通,这些都需要大量时间、专业资源和监管配合。 机构投资者因此持观望态度,主要由于规则模糊、权益不明,且现有传统投资渠道已相对成熟。理想的成熟模式应具备低起投门槛、透明收益分配和真实二级市场流动性,但目前此类案例寥寥。 近期出现积极苗头,如阿联酋等地区监管逐步明晰,部分企业开始推出合规产品,行业讨论重心也转向解决资产所有权等核心问题。但房地产代币化的价值在于优化投资效率,而非创造新收益,它必须证明具备真实经济优势才能吸引主流资本。 未来行业将比拼实际运营成果而非发行数量,需依靠规模化合规平台和可审计的记录来赢得机构信任。技术已非瓶颈,基础设施与合规体系才是关键,其完善程度将决定这一愿景能否实现。

marsbit1 小時前

坐拥万亿市场,房地产代币化为何火不起来?

marsbit1 小時前

交易

現貨
合約
活动图片