大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

marsbit发布于2026-05-28更新于2026-05-28

文章摘要

大模型在各种考试中表现优异，却被一篇新论文指出离真正的通用人工智能（AGI）更远了。目前业界对AGI缺乏公认定义，导致目标模糊。学者Michael Timothy Bennett提出新观点，认为真正的AGI不应以模仿人类为标准，而应是在有限计算、记忆和能量资源下，能像“人工科学家”一样广泛、高效、科学地适应新环境和发现新知识的系统。他指出当前大模型本质是“规模最大化近似”，依赖海量数据记忆答案，缺乏真正的因果理解和主动探索能力。例如，模型可能因文本概率而错误比较“9.11和9.9”。真正的AGI需具备三大关键能力：从被动响应变为主动实验者；从学习相关性到理解因果关系；在资源限制下动态平衡“探索新知”与“利用已知”。论文将构建智能的元方法分为三类：主流的规模最大化、追求简洁的简单性最大化，以及弱化约束让系统自寻最优解的约束弱化最大化。Bennett认为，单靠堆参数的路线无法实现AGI，未来需要多种方法融合。若“人工科学家”标准被接受，AI发展将迎来范式转移：评估重点将从刷榜考试分数，转向测试其在未知环境中的适应与发现能力；技术路线也将从单纯追求规模，转向融合因果推理、主动学习等多维能力的发展。这提示AGI的实现并非现有技术的线性延伸，而是一次根本性的路线重置。

如果有人告诉你,AGI(通用人工智能)已经实现了,你怎么判断他是在说真话,还是在吹牛?

在OpenAI与微软曝光的秘密协议里,这把尺子是财务报表——开发出能产生至少1000亿美元利润的AI系统就算AGI。而在黄仁勋嘴里,这把尺子是时间——五年内必现;马斯克更是屡次放出“明年达成”的预言。

行业大佬们各说各话,根源不在于谁在说谎,而在于AGI这个概念本身,根本就没有一把公认的尺子。正如AGI研究领域中一位有独立思考的研究者Bennett在论文中所说,AGI已被炒作和猜测还原成了“罗夏墨迹测试”——每个人看到的只是自己心里的想象,而非客观事实;而圣塔菲研究所科学家Melanie Mitchell也认为,这场辩论只能通过长期的科学研究来厘清。(附论文地址:https://arxiv.org/pdf/2503.23923)

这是AI行业当下最荒诞的困境:我们正在全速狂奔,去追逐一个连终点线都没画清楚的目标。

2025,谁在重画AGI的起跑线?

面对这种定义真空,学术界在2025年开始密集“补位”。Bengio等学者强调“多功能性”和“熟练度”;DeepMind提出“分布式AGI”,试图打破单体全能的迷思。

但澳大利亚国立大学的研究员Michael Timothy Bennett,在3月底提交到arXiv的一篇论文中,给出了一个极具挑衅性却也最切中肯綮的答案。

他指出,前人的定义绕来绕去,依然在跟“受过教育的成年人”较劲。Bennett采纳了学者Pei Wang对智能的定义——将智能视为有限资源下的适应能力——从根本上跳出了“像人”的框架,并将AGI定义为一种“人工科学家”。

他提出,真正的AGI应当是一个能在计算、记忆和能量等现实约束下,像人类科学家一样广泛、高效且科学地适应新环境和任务的系统。

这句话的潜台词是:评判AGI的标准,不该是它模仿人类有多像,而是它“发现新知”的能力有多强。

为什么急需一把新尺子?因为旧尺子——图灵测试和人类基准测试——已经被大模型刷爆了,但我们却离真正的通用智能越来越远。

2025年,如果你问一个顶尖大模型“9.11和9.9哪个大”,它依然可能信誓旦旦地告诉你9.11大,因为11大于9。在解决复杂的数学不等式证明时,大模型即便蒙对了答案,推理过程也往往是逻辑崩溃的。

Bennett一针见血地指出了病因:当前的大模型走的是“规模最大化的近似”路线——用海量数据和算力,把各种任务的近似答案提前存在网络权重里。一旦遇到没见过的分布外问题,就立刻露馅。

更致命的是,大模型没有“主动能力”。它无法主动做实验验证猜想,无法自主构建因果链条,更无法在“继续探索”与“利用已知”之间做权衡。

回到9.11和9.9的比较——大模型不是不会算术,而是它根本没有建立关于数字比较的因果模型。它只是在用概率去猜那个它见过的、最接近的文本片段。

“模仿能力”与“适应能力”之间的鸿沟,正是新AGI标准想要测量的核心。

智能的新刻度:拆解“人工科学家”

Bennett的这套标准之所以值得重视,是因为他把AGI从一个模糊的哲学命题,降维成了可量化的工程问题。

在他看来,一个真正的AGI,其行为模式应该完美对齐人类科学家的研究范式:

第一,从“提线木偶”到“主动实验者”。

今天的AI是彻头彻尾的被动学习者,只能“看”人类喂给它的数据。但科学家不是,如果一个科学家被锁在一个陌生房间里,他绝不会站在原地等信息,而是会去推门、拉把手、检查窗户——这就是“主动实验”。真正的AGI,必须能自主规划实验,通过主动交互获取关键信息。

第二,从“知其然”到“知其所以然”。

这是当前AI最大的短板。大模型是极端的“相关性学习器”,它知道“下雨”常伴随“地湿”,但不知道是谁导致了谁。只有理解了因果,才懂得在晴空万里但地面湿润时,推断出是洒水车经过而非即将下雨。没有因果理解,AI永远只能在训练数据的分布内打转,这与“通用”毫不相干。

第三,在“探索”与“利用”之间走钢丝。

如果只探索不利用,掌握再多知识也解决不了眼前问题;如果只利用不探索,环境一变就束手无策。AGI必须在资源受限下动态平衡这对矛盾——知道自己不知道什么,并据此分配算力。

此外,Bennett还加入了一个极具现实感的维度:能量限制。把“能量”写进定义,意味着他划清了一条底线:真正的智能不是拥有无限资源,而是在有限资源下优雅地适应。需要消耗一座核电站才能解决新问题的AI,只是昂贵的计算器,不是AGI。

通向AGI的路线重置:告别单一Scaling Law

基于上述框架,Bennett把当前构建智能系统的元方法拆解为三类:

Scale-maxing(规模最大化):当前主流的大模型路线,拼命堆参数、数据和算力。但瓶颈已经显现:样本和能量效率极低。

Simp-maxing(简单性最大化):追求模型结构的极致简洁,信奉奥卡姆剃刀。但简单性是形式的属性而非功能的属性——不同图灵机下的“最简”可能完全不同,使其难以摆脱主观性陷阱。

W-maxing(约束弱化最大化):尽可能弱化功能约束,让系统自行寻找最优解。实验表明,仅W-maxing就能在特定任务上实现110%-500%的泛化率提升,但它需要搜索无限的硬件形态空间,优化难度极高。

Bennett的结论极其清晰:尽管Scale-maxing目前占据绝对主导,但AGI绝不是靠单一路线的暴力美学能达成的,它必然是多种元方法的融合。

如果“人工科学家”的定义被广泛接受,AI行业将迎来一次深层的范式转移。

评判标准将彻底改变。我们不再需要看大模型在人类考试排行榜上又超了多少分,而是建立一套“适应性基准”:把AI扔进一个从未见过的物理环境,看它能否在有限交互内发现规律;给它一个新游戏,看它能否比人类更快理解规则;甚至让它去解决真实的科学问题,看它能否自主提出假说并设计实验验证。核心不再是“你知道多少”,而是“你能发现多少”。

技术路线也将随之转向。单纯的Scaling Law很快会触顶,因为被动接收的数据喂不出因果性。搜索与近似、规模最大化与约束弱化——AGI的达成必然是多种工具和元方法的融合,而非单一路线的延伸。

Bennett的论文之所以重要,不是因为他给出了AGI的终极答案,而是他把这面名为“智能”的模糊镜子擦干净了一角。他让我们看到,AGI的实现不是大模型的线性迭代,而是一次路线重置。

AGI到底该是什么样?答案不在那些越来越像人的对话,而在那些能够主动追问“为什么”、并亲手去验证答案的能力中。当AI真正走出“罗夏墨迹测试”的迷雾,它将不再只是模仿人类的样子,而是拥有科学家的精神。(本文首发钛媒体APP,作者 | 硅谷tech news,编辑 | 赵虹宇)

你可能也喜欢

最新消息：唐纳德·特朗普就伊朗问题发表强硬声明！他叫停了攻击行动

美国总统唐纳德·特朗普表示，沙特阿拉伯、阿拉伯联合酋长国、卡塔尔和伊朗呼吁他推迟计划中的军事打击行动。特朗普称，针对伊朗的计划规模巨大且威力强劲，但在地区国家请求为外交谈判留出时间后，他暂缓了攻击计划。特朗普指出，地区盟友认为协议已接近达成，首阶段谈判重点在于安全保障和恢复霍尔木兹海峡通航。他表示，一旦就此达成一致，将开启关于伊朗核计划的谈判。霍尔木兹海峡是全球石油和液化天然气运输的关键通道，该地区的军事冲突被认为将对能源价格和全球贸易产生重大影响。此外，特朗普宣布将于明日开始与伊朗进行新一轮谈判。他还就日元汇率事件发表评论，称美国出于与日本的良好关系干预了市场，并强调华盛顿一贯支持东京，且美国也从相关规则中获得了经济利益。

cryptonews.ru16分钟前

cryptonews.ru16分钟前

意大利央行未发现稳定币在汇款中存在系统性优势

意大利银行的一项研究显示，稳定币在跨境汇款中并未展现出持续的成本与速度优势。其潜在优势被法币出入金手续费以及本地支付基础设施的处理流程所抵消。研究比较了通过200 USDC在意大利与巴西、阿根廷、日本、阿联酋和南非等10条双向通道进行汇款的成本与结算时间，并与标准汇款服务进行对比。结果显示，稳定币转账的总成本在0.3%到近9%之间波动，具体取决于汇款方向。在具备即时支付系统的通道中，结算可在20分钟内完成；若缺乏此类基础设施，则需一至两个工作日。主要成本和延迟源于货币兑换以及当地基础设施的质量。区块链网络手续费并非主要因素。尽管在大多数研究通道中，稳定币成本低于世界银行统计的全球平均汇款成本（6.65%），但与传统汇款服务商Wise相比，仅在七条可比通道中的三条具备成本优势。研究者认为，若稳定币能直接用于商品服务消费而无需兑换成当地货币，其优势将更为明显。同时指出，禁令性监管无法消除市场对稳定币的需求，而过严的规则只会增加零售用户的使用难度。此外，报告提及，稳定币总市值在7月已从5月峰值下跌超100亿美元，至约3100亿美元，创下自2022年5月Terra崩溃以来的最大月度跌幅。

cryptonews.ru1小时前

cryptonews.ru1小时前

比特币图表形态「头肩底」预示将上涨至67,200美元

尽管比特币在8月初缓慢下跌，但其价格图表上正在形成一个反转形态——“头肩底”模型。目前，比特币价格在63,200美元附近波动，构成该模型的右肩。分析师TechCharts的Axel Kibar指出，这是本月多头短期乐观的唯一现实理由。比特币仍处于上升起点，关键问题在于买家是否有足够动力推动价格突破至67,000美元。与此同时，ETH/BTC交易对已向上突破类似的反转底部。以太坊已确立上升趋势，正朝着0.0312的技术目标前进，表明大资金目前更青睐投资以太坊而非比特币。这种流动性轮动消耗了比特币的动能，使其缺乏快速启动所需的交易量。以太坊兑美元汇率正测试1,875美元支撑位，若能守住，则可能打开通往2,163美元的道路。以太坊的相对强势对整个市场是积极信号，但比特币持有者面临紧张局面。比特币需要快速上涨突破67,200美元以确认反转形态，否则该模式可能失效。根据Kibar的观点，若未来几天未能突破颈线，空头将重新掌控局面，推动比特币跌向60,000及58,000美元的支撑位。

cryptonews.ru1小时前

cryptonews.ru1小时前

比特币热潮正酣：塞勒尔新声明引发关于购买的猜测

纳斯达克上市公司MicroStrategy（代码：MSTR）的执行董事长迈克尔·塞勒于8月2日发布信息“Bitcoin Drive engaged”（比特币驱动已启动），再次引发市场对于该公司将在周一宣布新一轮比特币购买的猜测。其周日的帖子附带了该公司惯用的购买追踪图表，这符合塞勒通常在每周财报发布前暗示其金库变动的做法。塞勒的附图报告显示，MicroStrategy的比特币储备为843,775枚BTC，市值约532.5亿美元。平均购买成本为每枚75,653美元，未实现亏损为105.8亿美元（-16.58%）。截至8月2日，累计进行了113次购买操作。此前在7月27日，类似的周日信号曾预告了公司的公告，当时塞勒发文称“我们还需要一种颜色”，随后MicroStrategy披露了其更大的现金储备。这种时间上的巧合强化了市场对周一将发布新金库状况公告的预期。然而，该公司实时账本显示，在最近两次共计出售3,588枚BTC（包括1,363枚和2,225枚）后，其比特币储备已从847,363枚降至843,775枚。根据提交给美国证券交易委员会（SEC）的文件，这些出售是为了资助优先股支付并补充美元储备。最近的报告还显示，在截至7月26日的一周内，MicroStrategy没有购买任何比特币，同时将其美元储备增加至约37.5亿美元，这使其优先股股息和债务利息的预计覆盖期限延长至约2.1年。财务风险依然高企，该公司报告2026年第二季度运营亏损83.3亿美元，与上年同期140.3亿美元的运营利润形成急剧逆转。这些业绩包含了公司数字资产方面83.2亿美元的未实现亏损，而2025年第二季度为未实现利润140.5亿美元。管理层还可能通过额外出售比特币获得高达12.5亿美元，以补充用于支付优先股股息和债务利息的美元储备。因此，预计周一的披露将揭示“Bitcoin Drive”信息是否标志着资产积累的恢复，因为MicroStrategy需要在平衡其843,775枚BTC自有储备与不断增长的现金负债和积极的资本管理之间做出抉择。

cryptonews.ru1小时前

cryptonews.ru1小时前

人工智能公司股票像“迷因币”一样交易，而比特币价格几乎不变——一周回顾

本周市场焦点集中在人工智能（AI）股票的大幅波动，而比特币价格相对稳定，在62,500至64,000美元区间窄幅震荡。主要事件是Leopold Aschenbrenner管理的规模达200亿美元的“Situational Awareness”基金因巨额亏损被迫清仓，导致AI股票和韩国股市（KOSPI指数月内下跌35%）等市场剧烈波动。Citadel被指参与了其资产收购。有分析认为，类似LTCM、Archegos等历史事件显示，一次重大清盘可能标志着市场触底。加密货币市场方面，行业仍处熊市：BitMart宣布逐步关闭，Storj Labs申请破产，Coinbase等多家公司持续裁员。MicroStrategy则继续增持比特币并回购自身股票。DeFi领域，Trade.xyz在Hyperliquid上的成功可能带来中心化风险，而Solana上超过90%活跃钱包与Pump.fun交互的现象也引发类似担忧。 AI与加密结合的项目Bittensor ($TAO) 获得部分投资人关注，但需警惕其宣传风险。最后，文章再次警告了Coldcard硬件钱包存在的安全漏洞，并强调在自我托管资产时保持高度警惕和个人责任感的重要性。

cryptonews.ru1小时前

交易

现货

大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

文章摘要

2025,谁在重画AGI的起跑线?

智能的新刻度:拆解“人工科学家”

通向AGI的路线重置:告别单一Scaling Law

相关问答

你可能也喜欢

最新消息：唐纳德·特朗普就伊朗问题发表强硬声明！他叫停了攻击行动

意大利央行未发现稳定币在汇款中存在系统性优势

比特币图表形态「头肩底」预示将上涨至67,200美元

比特币热潮正酣：塞勒尔新声明引发关于购买的猜测

人工智能公司股票像“迷因币”一样交易，而比特币价格几乎不变——一周回顾

交易

热门分类

热门标签