AI 成绩单背后，藏着一位华人“出题人”

marsbit发布于2026-06-20更新于2026-06-20

文章摘要

AI领域重要的基准评测MMLU-Pro、MMMU、MMMU-Pro背后，都站着同一位“出题人”——加拿大滑铁卢大学助理教授陈文虎。随着大语言模型能力快速提升，旧的评测基准如MMLU逐渐“失灵”，顶尖模型得分趋近满分，难以区分高下。为此，陈文虎团队于2024年推出MMLU-Pro。它通过将选项扩至10个、增加推理题比例、剔除简单题等方式，使模型准确率相较旧基准显著下降16%-33%，成绩波动更小，有效拉开了模型间的真实差距。在多模态评测方面，陈文虎团队推出的MMMU基准包含1.15万道需结合图像与专业知识的复杂题目，即便是当时最强的GPT-4V和Gemini Ultra准确率也未超过60%。后续的MMMU-Pro则进一步堵住模型仅凭文本猜答案的漏洞，强制其进行真正的多模态理解。陈文虎的研究方向长期聚焦于复杂信息理解与推理。他曾于谷歌DeepMind参与Gemini多模态模型的研发与评估工作，这让他深谙模型能力增长路径与评估盲区。他创立的“老虎实验室”不仅做评测，也研发视频理解与生成等模型，这种“既做题也出题”的经历，使其能更精准地设计出触及模型能力边界的评估体系。如今，陈文虎已加入Meta超级智能实验室，继续专注于多模态预训练与评估工作。他的故事反映了在AI浪潮中，众多华人研究者正深度参与并塑造着行业发展的核心基础工作。

每次前沿模型发布,AI圈都会盯着几张熟悉的成绩单。

MMLU-Pro、MMMU、MMMU-Pro......这些名字对普通用户来说有些陌生,但对模型公司和研究者而言,它们几乎已经成了“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek们不断在这些基准上交卷。

“是骡子是马拉出来溜溜”,模型怎么样,往往都要靠这些分数来证明。

很多模型发布会上的性能对比图,离不开它们;HuggingFace上的一些排行榜,也建立在这些评测体系之上。甚至可以说,今天AI行业讨论模型能力时,使用的已经是一套由这些基准定义的共同语言。

但有意思的是,几乎所有人都在关注分数,却很少有人知道出题的人是谁。而MMLU-Pro、MMMU和MMMU-Pro背后,都能看到同一个名字——陈文虎。

他是加拿大滑铁卢大学计算机科学系助理教授,在谷歌学术上,他的论文被引用超过3万次。

他也是“老虎实验室(TIGERLab)”的创始人,这个实验室的英文全称是Text and Image GEnerative Research Lab,因为名字里有一个“虎”字,陈文虎为其起了一个很有辨识度的中文名——虎头帮。

01 旧考卷失灵之后

陈文虎最先被更多人注意到,是因为MMLU-Pro。

MMLU曾经是大语言模型能力评估中最常用的基准评测之一。它像一张综合试卷,覆盖多个学科,用来衡量模型在知识理解和推理任务上的表现。

在早期,这张卷子很有用。模型之间的差距能被分数拉开,行业也可以通过它观察大语言模型是不是真的在进步。

但问题很快出现了。

随着模型能力不断提升,MMLU逐渐变得“不够考”了。前沿模型的分数越来越高,彼此之间的差距越来越小。

到OpenAI发布o3之后,这个问题变得更加明显。o3在MMLU上的准确率已经接近100%,其他前沿模型也陆续交出逼近满分的成绩。

这听起来像是一个好消息,但对评估来说,反而意味着麻烦。

一张试卷如果大家都能考接近满分,就很难继续判断谁更强、强在哪里。它仍然可以证明模型已经具备某些能力,却不再适合衡量新的进步。

AI行业需要一张更难、也更不容易被“糊弄过去”的卷子。

2024年,陈文虎和团队推出了MMLU-Pro。

MMLU-Pro重新改造了这张考卷,而非简单把题库扩大。

它包含12032道题,覆盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相比原版MMLU,它把选项从4个扩展到10个,降低模型靠猜测蒙对的概率;同时加入更多偏推理的问题,清理掉原题库中相对简单、存在歧义或者区分度不足的题目。

效果很直接。

论文结果显示,模型在MMLU-Pro上的准确率相比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时,成绩波动也从原MMLU的4%到5%,下降到约2%。

也就是说,这张新卷子不仅更难,也更稳定。

它让那些在旧考卷上看起来都很优秀的模型,重新被拉开了差距。模型到底是真会推理,还是只是更擅长应付旧题,也因此更容易被看出来。

02 好用的基准评测

MMLU-Pro很快被行业拿去用了。

MMLU-Pro随后进入NeurIPS2024数据集与基准评测赛道,也被EleutherAI的语言模型评测框架lm-evaluation-harness集成。对开源模型社区来说,这意味着它不再只是一篇论文里的数据集,而是进入了常用评测工具链。

很多模型发布时,开始报告MMLU-Pro分数。HuggingFace上的一些排行榜,也把它纳入评估体系。

如果说MMLU-Pro解决的是语言模型评估里的“旧考卷失灵”,那么MMMU则把陈文虎和TIGERLab推到了多模态评测的中心。

多模态模型的问题更复杂。

语言模型答题,主要处理文字。多模态模型则要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。它不只是要读懂题干,还要真正看懂图像里的内容,并把视觉信息、文本信息和学科知识放在一起推理。

MMMU基准评测包含1.15万道多模态问题,来自大学考试、测验和教材,覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域,进一步细分为30个学科和183个子领域。

这些题目不是简单问模型“图里有什么”,它要求模型像学生做专业题一样,把图像信息和学科知识结合起来。

MMMU发布时,研究团队测试了14个开源多模态模型,以及GPT-4V、GeminiUltra等代表性闭源模型。即便是当时最强的闭源模型,GPT-4V和GeminiUltra也只达到56%和59%的准确率。

这组数字说明,多模态模型看起来进步很快,但在真正需要专业理解和推理的问题上,仍然有大量空间。

后来,陈文虎团队又推出了MMMU-Pro,进一步堵住模型绕过视觉信息的空间。它过滤掉只靠文本模型也能回答的问题,扩展候选项,并引入vision-only设置,把问题嵌入图像中,要求模型同时完成视觉读取和文本理解。

简单说,就是不让模型“只看文字猜答案”。

这类工作听起来颇有点琐碎之感,但它们很关键。因为多模态模型未来要进入医疗、教育、科研、设计、工程等场景,仅仅能描述图片是不够的。它必须能判断、推理、解释,也必须能在复杂视觉信息中找到真正有用的部分。

03 “考卷”背后的人

陈文虎后来做MMLU-Pro和MMMU,来自于他一直以来的研究方向。

他的研究兴趣本来就与复杂信息理解、知识问答和推理有关。

他本科毕业于华中科技大学,之后到德国亚琛工业大学攻读硕士,再到加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间,他已经开始围绕复杂问答、表格推理、知识证据定位等方向做研究。

这类任务有一个共同点:答案往往不在单一文本里。

它可能藏在一张表格里,也可能需要结合一段文字和一张图片,还可能需要模型先检索信息,再整合、计算和推理。模型不能只会复述已有知识。

陈文虎参与过的HybridQA、TabFact、ProgramofThoughts、MAmmoTH等项目,都和这条线有关。

这也解释了他为什么会对模型评估里的漏洞敏感。

好的基准评测不是简单把题目搞得越来越难,而是要预判模型最容易在哪里“蒙对题”“看起来会”。

模型可能记住了题库,也可以靠选项猜答案,还可能用文字绕过视觉信息......好的评估得把这些漏洞补好。

博士毕业后,陈文虎进入谷歌研究院,随后在2021年至2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历也很重要。长期接触前沿模型研发,让他更清楚模型能力是如何增长的,也更容易看见评估中可能存在的偏差和盲区。

2022年秋季,陈文虎加入滑铁卢大学计算机科学学院,担任助理教授。同年,他入选CanadaCIFARAIChair。之后,他创办“老虎实验室(也就是虎头帮)”,继续围绕基础模型、多模态能力和基准评测展开研究。

虎头帮并不只是做基准评测,也在做模型和系统研究。

在视频方向上,UniVideo试图把视频理解、生成和编辑放进同一个框架,让模型不只是生成一段画面,也能理解内容、响应指令并完成修改。Vamba瞄准长视频理解,解决一小时级别视频带来的显存、计算和训练效率问题。与Meta生成式AI团队合作的MoCha,则把重点放在说话虚拟角色生成上,通过语音和文字描述生成高质量人物视频。

一个从来不做题的出题人是不可能出好题的。自己下场做模型,反过来也让他们更适合做评估。

因为真正好的评估,往往来自对模型能力边界的理解。只有知道模型是怎么做出来的,知道它在真实任务里会遇到什么问题,才更容易设计出能测出差距、也能暴露问题的题目。

如今,陈文虎进入Meta超级智能实验室,工作继续集中在多模态预训练数据和评估,并服务于Meta基础模型。

AI行业并不缺少被看见的人。AI行业里,聚光灯通常会落在创业者、明星研究员和大模型公司的负责人身上。新产品发布、融资消息、开源模型和团队调整,往往最容易吸引外界关注,也让这些名字更容易进入公众视野。

但今天的AI领域,华人人才的参与已经远不止这些最显眼的位置。

本文来自微信公众号“字母AI”,作者:小金牙

你可能也喜欢

光芯片，集体扩产

近日，全球光芯片产业链密集出现扩产、投资与供应链绑定动作，以满足AI数据中心对光互连能力激增的需求。美国方面，Coherent获政府资助扩建德州6英寸磷化铟（InP）产线，产能将提升至4倍，NVIDIA已对其战略投资并锁定未来产能。Lumentum在北卡罗来纳州新建激光器工厂，Nokia则在宾夕法尼亚扩建光子芯片先进测试与封装产能。日本材料商JX Advanced Metals计划大幅投资，将InP衬底产能提升7-10倍。欧洲方面，IQE与Tower Semiconductor达成InP外延片供应协议，推动硅光平台与III-V材料集成；ST计划在法国大幅提升300mm硅光产能；Sivers Semiconductors与格芯合作开发集成激光器的硅光方案。国内光芯片产业链同样迅猛发展。东山精密旗下索尔思光电宣布投资12亿美元在常州扩建光芯片及光模块产能。三安光电已具备6英寸InP光芯片量产能力，云南锗业亦启动磷化铟单晶片扩产项目。产业链正从模块组装向材料、芯片、封测等全环节延伸。行业分析指出，无论未来采用可插拔、CPO（共封装光学）还是其他架构，AI算力增长对带宽的需求将持续推高光芯片用量。目前CPO面临技术挑战，可能放缓落地，但光源路线呈现多元化（如硅光+连续波激光器、VCSEL、MicroLED等），将在不同应用场景分层并存。这场全球扩产竞赛实质是各国对AI数据中心光互连时代的关键布局，光子产业链已进入白热化竞争阶段。

marsbit39分钟前

marsbit39分钟前

稳定币终于找到真实收益：链上再保险 Re 详解｜对话 Re 创始人 Karan Saroya

本文介绍了链上再保险平台Re如何为稳定币提供真实收益。Re吸收链上稳定币作为资本，为美国保险公司提供再保险抵押，收取的保费收益返还给存款人，目前承保业务达5亿美元，目标7个月内突破10亿美元。核心机制在于利用监管允许的杠杆：每1美元抵押可支撑5-7美元保费，使底层资本能获得约12%-14%的年化收益。存款人获得凭证代币后，还可通过DeFi协议进行循环质押，进一步提升收益率。 Re通过智能合约极大提升了传统再保险的运营效率，仅用不到12人即可运作，挑战了需万人员工的传统巨头。其架构是“DeFi Mullet”：前端是受监管的再保险公司，后端连接链上资本市场。平台还发行了RE治理代币，参考劳合社模型，让持币者参与关键决策。讨论指出，这为万亿美元级的稳定币资金提供了与加密市场无关的真实收益来源，将链上资本引入了实体经济，标志着DeFi从基础设施建设转向真实需求驱动的阶段。未来，随着更多稳定币上链，链上资本市场或将成为主流。

链捕手2小时前

稳定币终于找到真实收益：链上再保险 Re 详解｜对话 Re 创始人 Karan Saroya

链捕手2小时前

1996还是1999？沃什的第一场考验是“如何看AI”

美联储新任主席沃什面临的核心挑战是判断当前AI繁荣的本质，这将决定其政策走向。经济学界存在两种对立观点：一方认为AI将带来生产率红利，供给能追上需求，美联储可静观其变；另一方则认为生产率收益尚远，需求冲击已至，需提前干预以防通胀失控。沃什本人倾向于前者，认为应避免过早扼杀增长，其逻辑类似于1996年格林斯潘面对经济扩张时的“静观其变”。然而，当前环境与1990年代大不相同：面临关税压力、财政赤字扩张和全球化红利消退，沃什等待通胀回落的风险更高。芝加哥联储主席古尔斯比提出反驳，认为这场“人人可见”的AI繁荣会促使人们提前透支未来财富，反而可能导致经济过热，需提前加息。但美联储理事沃勒指出，如果家庭借贷受限，“预期透支”效应将减弱。此外，沃什希望减少美联储的前瞻指引，但该机制正是在1999年为平稳市场而建立。若经济走向不利，他将陷入两难：要么使用自己希望废除的指引，要么承受市场动荡的风险。最终，一切取决于对当前形势的根本判断：这究竟是带来温和增长的1996年，还是需要提前收紧的1999年？

marsbit3小时前

marsbit3小时前

以太坊2026年Q1报告：费用下降，用户与交易量创历史新高

以太坊2026年第一季度数据显示，网络活动与价值指标呈现分化趋势。主网月活用户、交易笔数和吞吐量均创历史新高，但网络交易费用、总锁仓价值（TVL）和ETH市值却出现环比下降。报告将此归因于Fusaka升级提高了数据容量，降低了区块空间成本，从而以牺牲短期费用为代价换取了用户规模和交易量的显著增长。报告重点指出，以太坊的核心叙事正从DeFi公链转向全球金融结算层。在代币化资产领域，以太坊占据主导地位，稳定币、代币化基金（如BlackRock的BUIDL）、大宗商品（主要是黄金）和股票的链上市值总计超过2000亿美元。尽管稳定币规模环比微降，但代币化基金和大宗商品增长迅猛，显示出传统金融机构加速采用。报告认为，以太坊正通过主动降低费用来扩大网络规模和应用场景，巩固其作为开放、中立金融基础设施的地位。虽然短期价值捕获受压，但长期旨在通过成为默认的资产代币化与结算层，从更广泛的金融活动中获取价值。

marsbit4小时前

marsbit4小时前

英特尔 CEO 陈立武首次播客访谈：我们的目标是“5-10 年 10 倍”，押注先进封装、玻璃基板和人工钻石

英特尔CEO陈立武在接受播客访谈时，提出了“5-10年实现10倍回报”的股东回报目标，并系统阐述了其领导下的转型战略。面对传统工艺微缩接近物理极限的挑战，他将突破点聚焦于先进封装技术（如EMIB）、新型基板材料（如玻璃基板）以及氮化镓、碳化硅和人工合成钻石等半导体新材料，旨在通过材料科学与封装创新延续性能增长。陈立武将转型过程分为“爬、走、跑”三个阶段。目前英特尔处于夯实基础的“爬行”阶段，首要任务是稳固资产负债表、聚焦简化产品线、并倾听客户需求。他特别指出，智能体AI和推理场景的爆发正带动CPU需求强劲回升。在代工业务方面，他强调这是一门“信任的生意”，核心是提升良率、缺陷密度和周期时间等基础能力，以服务客户并保障美国本土供应链安全。他同时透露，与埃隆·马斯克合作的Terafab项目进展顺利，双方正共同应对AI算力增长带来的半导体基础设施挑战。陈立武认为，市场目前低估了英特尔的长期潜力。他预计到2030-2032年，外界将真正看到其在PC基本盘之外，于边缘计算、物理AI与智能体AI等新兴市场的价值。通过整合XPU（混合架构）、先进封装与代工能力，为不同工作负载提供定制化芯片解决方案，是其为英特尔锚定的长期战略方向。

marsbit4小时前

英特尔 CEO 陈立武首次播客访谈：我们的目标是“5-10 年 10 倍”，押注先进封装、玻璃基板和人工钻石

marsbit4小时前

交易

现货

合约

AI 成绩单背后，藏着一位华人“出题人”

文章摘要

01

旧考卷失灵之后

02

好用的基准评测

03

“考卷”背后的人

热门币种推荐

相关问答

你可能也喜欢

光芯片，集体扩产

稳定币终于找到真实收益：链上再保险 Re 详解｜对话 Re 创始人 Karan Saroya

1996还是1999？沃什的第一场考验是“如何看AI”

以太坊2026年Q1报告：费用下降，用户与交易量创历史新高

英特尔 CEO 陈立武首次播客访谈：我们的目标是“5-10 年 10 倍”，押注先进封装、玻璃基板和人工钻石

交易

热门文章

如何购买EDGE

相关讨论

热门问答

热门分类

热门标签