AI成绩单背后，藏着一位华人“出题人”

marsbit发布于2026-06-19更新于2026-06-19

文章摘要

每次前沿AI模型发布，业界都会关注MMLU-Pro、MMMU等基准测试的成绩单。这些评测已成为衡量模型能力的“标准科目”，但其背后的关键人物却鲜为人知——华人学者陈文虎。陈文虎是加拿大滑铁卢大学助理教授，“老虎实验室”（TIGERLab）创始人。随着模型能力快速提升，旧评测体系如MMLU逐渐“失灵”，模型分数趋同，难以区分高下。为此，陈文虎团队推出了MMLU-Pro，通过增加选项、强化推理题、清理简单题目等方式，使新基准更难、更稳定，有效拉开了模型间的差距。在多模态领域，陈文虎团队创建的MMMU基准包含1.15万道需结合图像与专业知识进行推理的题目，即便顶尖模型初期准确率也仅约60%。后续的MMMU-Pro进一步堵住模型“只看文字猜答案”的漏洞，强调真正的多模态理解能力。陈文虎的研究始终围绕复杂信息理解与推理。他拥有产业界研发经验，曾参与谷歌Gemini项目，如今在Meta超级智能实验室继续专注于多模态评估。他相信，好的评估源于对模型能力边界的深刻理解，而“老虎实验室”同时进行模型研发，正是为了更懂如何出题。在AI行业的光环常聚焦于明星公司与产品之时，陈文虎的工作在底层塑造着行业评估模型的共同语言，展现了华人才智在关键基础环节的深远影响。

文 | 字母AI

每次前沿模型发布，AI圈都会盯着几张熟悉的成绩单。

MMLU-Pro、MMMU、MMMU-Pro……这些名字对普通用户来说有些陌生，但对模型公司和研究者而言，它们几乎已经成了“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek们不断在这些基准上交卷。

“是骡子是马拉出来溜溜”，模型怎么样，往往都要靠这些分数来证明。

很多模型发布会上的性能对比图，离不开它们；HuggingFace上的一些排行榜，也建立在这些评测体系之上。甚至可以说，今天AI行业讨论模型能力时，使用的已经是一套由这些基准定义的共同语言。

但有意思的是，几乎所有人都在关注分数，却很少有人知道出题的人是谁。而MMLU-Pro、MMMU和MMMU-Pro背后，都能看到同一个名字——陈文虎。

他是加拿大滑铁卢大学计算机科学系助理教授，在谷歌学术上，他的论文被引用超过3万次。

他也是“老虎实验室（TIGERLab）”的创始人，这个实验室的英文全称是Text and Image GEnerative Research Lab，因为名字里有一个“虎”字，陈文虎为其起了一个很有辨识度的中文名——虎头帮。

旧考卷失灵之后

陈文虎最先被更多人注意到，是因为MMLU-Pro。

MMLU曾经是大语言模型能力评估中最常用的基准评测之一。它像一张综合试卷，覆盖多个学科，用来衡量模型在知识理解和推理任务上的表现。

在早期，这张卷子很有用。模型之间的差距能被分数拉开，行业也可以通过它观察大语言模型是不是真的在进步。

但问题很快出现了。

随着模型能力不断提升，MMLU逐渐变得“不够考”了。前沿模型的分数越来越高，彼此之间的差距越来越小。

到OpenAI发布o3之后，这个问题变得更加明显。o3在MMLU上的准确率已经接近100%，其他前沿模型也陆续交出逼近满分的成绩。

这听起来像是一个好消息，但对评估来说，反而意味着麻烦。

一张试卷如果大家都能考接近满分，就很难继续判断谁更强、强在哪里。它仍然可以证明模型已经具备某些能力，却不再适合衡量新的进步。

AI行业需要一张更难、也更不容易被“糊弄过去”的卷子。

2024年，陈文虎和团队推出了MMLU-Pro。

MMLU-Pro重新改造了这张考卷，而非简单把题库扩大。

它包含12032道题，覆盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相比原版MMLU，它把选项从4个扩展到10个，降低模型靠猜测蒙对的概率；同时加入更多偏推理的问题，清理掉原题库中相对简单、存在歧义或者区分度不足的题目。

效果很直接。

论文结果显示，模型在MMLU-Pro上的准确率相比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时，成绩波动也从原MMLU的4%到5%，下降到约2%。

也就是说，这张新卷子不仅更难，也更稳定。

它让那些在旧考卷上看起来都很优秀的模型，重新被拉开了差距。模型到底是真会推理，还是只是更擅长应付旧题，也因此更容易被看出来。

好用的基准评测

MMLU-Pro很快被行业拿去用了。

MMLU-Pro随后进入NeurIPS2024数据集与基准评测赛道，也被EleutherAI的语言模型评测框架lm-evaluation-harness集成。对开源模型社区来说，这意味着它不再只是一篇论文里的数据集，而是进入了常用评测工具链。

很多模型发布时，开始报告MMLU-Pro分数。HuggingFace上的一些排行榜，也把它纳入评估体系。

如果说MMLU-Pro解决的是语言模型评估里的“旧考卷失灵”，那么MMMU则把陈文虎和TIGERLab推到了多模态评测的中心。

多模态模型的问题更复杂。

语言模型答题，主要处理文字。多模态模型则要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。它不只是要读懂题干，还要真正看懂图像里的内容，并把视觉信息、文本信息和学科知识放在一起推理。

MMMU基准评测包含1.15万道多模态问题，来自大学考试、测验和教材，覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域，进一步细分为30个学科和183个子领域。

这些题目不是简单问模型“图里有什么”，它要求模型像学生做专业题一样，把图像信息和学科知识结合起来。

MMMU发布时，研究团队测试了14个开源多模态模型，以及GPT-4V、GeminiUltra等代表性闭源模型。即便是当时最强的闭源模型，GPT-4V和GeminiUltra也只达到56%和59%的准确率。

这组数字说明，多模态模型看起来进步很快，但在真正需要专业理解和推理的问题上，仍然有大量空间。

后来，陈文虎团队又推出了MMMU-Pro，进一步堵住模型绕过视觉信息的空间。它过滤掉只靠文本模型也能回答的问题，扩展候选项，并引入vision-only设置，把问题嵌入图像中，要求模型同时完成视觉读取和文本理解。

简单说，就是不让模型“只看文字猜答案”。

这类工作听起来颇有点琐碎之感，但它们很关键。因为多模态模型未来要进入医疗、教育、科研、设计、工程等场景，仅仅能描述图片是不够的。它必须能判断、推理、解释，也必须能在复杂视觉信息中找到真正有用的部分。

“考卷”背后的人

陈文虎后来做MMLU-Pro和MMMU，来自于他一直以来的研究方向。

他的研究兴趣本来就与复杂信息理解、知识问答和推理有关。

他本科毕业于华中科技大学，之后到德国亚琛工业大学攻读硕士，再到加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间，他已经开始围绕复杂问答、表格推理、知识证据定位等方向做研究。

这类任务有一个共同点：答案往往不在单一文本里。

它可能藏在一张表格里，也可能需要结合一段文字和一张图片，还可能需要模型先检索信息，再整合、计算和推理。模型不能只会复述已有知识。

陈文虎参与过的HybridQA、TabFact、ProgramofThoughts、MAmmoTH等项目，都和这条线有关。

这也解释了他为什么会对模型评估里的漏洞敏感。

好的基准评测不是简单把题目搞得越来越难，而是要预判模型最容易在哪里“蒙对题”“看起来会”。

模型可能记住了题库，也可以靠选项猜答案，还可能用文字绕过视觉信息……好的评估得把这些漏洞补好。

博士毕业后，陈文虎进入谷歌研究院，随后在2021年至2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历也很重要。长期接触前沿模型研发，让他更清楚模型能力是如何增长的，也更容易看见评估中可能存在的偏差和盲区。

2022年秋季，陈文虎加入滑铁卢大学计算机科学学院，担任助理教授。同年，他入选CanadaCIFARAIChair。之后，他创办“老虎实验室（也就是虎头帮）”，继续围绕基础模型、多模态能力和基准评测展开研究。

虎头帮并不只是做基准评测，也在做模型和系统研究。

在视频方向上，UniVideo试图把视频理解、生成和编辑放进同一个框架，让模型不只是生成一段画面，也能理解内容、响应指令并完成修改。Vamba瞄准长视频理解，解决一小时级别视频带来的显存、计算和训练效率问题。与Meta生成式AI团队合作的MoCha，则把重点放在说话虚拟角色生成上，通过语音和文字描述生成高质量人物视频。

一个从来不做题的出题人是不可能出好题的。自己下场做模型，反过来也让他们更适合做评估。

因为真正好的评估，往往来自对模型能力边界的理解。只有知道模型是怎么做出来的，知道它在真实任务里会遇到什么问题，才更容易设计出能测出差距、也能暴露问题的题目。

如今，陈文虎进入Meta超级智能实验室，工作继续集中在多模态预训练数据和评估，并服务于Meta基础模型。

AI行业并不缺少被看见的人。AI行业里，聚光灯通常会落在创业者、明星研究员和大模型公司的负责人身上。新产品发布、融资消息、开源模型和团队调整，往往最容易吸引外界关注，也让这些名字更容易进入公众视野。

但今天的AI领域，华人人才的参与已经远不止这些最显眼的位置。

你可能也喜欢

Strategy的STRC下跌揭示了比特币挂钩信贷产品背后的风险

Strategy（前身为MicroStrategy）的优先股STRC在近期市场压力中大幅下跌，一度跌至82.53美元，远低于其100美元的参考面值。公司CEO将此归因于杠杆清算引发的强制抛售，而非公司基本面违约。这一事件凸显了与比特币挂钩的信用产品（如旨在产生收益的优先股）在运用杠杆时所隐藏的风险。当市场波动时，杠杆可能加速抛售，即使发行方并未违约。这表明比特币国库策略的金融化正变得更为复杂，相关产品并非无风险，其表现取决于发行方信誉、市场流动性和资本结构承受波动的能力。此次抛售应被视为对杠杆风险的警示，而非违约信号。

bitcoinist3小时前

bitcoinist3小时前

澳大利亚最高法院在Block Earner加密收益产品案中为ASIC赢得重大胜利

澳大利亚高等法院近日一致裁定，支持该国证券监管机构ASIC对加密公司Block Earner的上诉，认定其已停运的固定收益产品“Earner”属于金融产品及衍生品。该产品在2022年3月至11月期间运营，未持有必要的澳大利亚金融服务牌照。此判决为ASIC将传统金融法规应用于加密收益类产品确立了重要先例。法院强调，判断关键在于产品的经济实质而非其技术标签。这意味着，在澳大利亚，任何提供结构化回报或具有衍生品经济特征的加密产品都可能需要遵守相应的金融牌照规定。尽管本案涉及历史产品，但其确立的法律原则具有现实约束力，为ASIC未来监管类似加密投资产品提供了明确依据。案件现已发回联邦法院全庭审理以确定具体处罚。该裁决向加密行业发出明确信号：提供由他人资产部署产生收益的产品将面临严格的合规审查。对消费者而言，这也提醒了加密收益产品与单纯持有现货的风险差异。澳大利亚加密市场预计将迎来更清晰的监管界限，相关企业需评估现有及计划中产品的合规性。

bitcoinist6小时前

澳大利亚最高法院在Block Earner加密收益产品案中为ASIC赢得重大胜利

bitcoinist6小时前

Blockchain.com通过与Ondo Finance合作扩展代币化股票访问渠道

Blockchain.com通过与Ondo Finance的合作，将其钱包生态系统中的代币化美国股票和ETF访问权限扩展给符合条件的用户。这一合作为用户提供了在熟悉的加密钱包界面内接触受监管的现实世界资产的途径，而非依赖传统券商模式。 Ondo Finance在代币化现实资产（RWA）市场中已成为知名参与者，专注于将国债、收益产品和股票等传统金融产品上链。此次与Blockchain.com的整合为Ondo提供了一个面向大量钱包用户的分发渠道，解决了代币化资产的分发与可及性问题。该举措主要面向美国以外的全球用户，为其提供接触美国股市的加密原生替代方案，这些用户可能已在使用稳定币和加密钱包作为金融基础设施。随着RWA市场竞争日益激烈，股票和ETF因其易于理解和全球需求旺盛而成为焦点。然而，代币化股票仍需解决托管、赎回、法律权利和监管处理等问题。Blockchain.com和Ondo押注于钱包原生访问方式，旨在使这些资产像普通加密货币一样简单易用，同时确保底层资产的合法性。

bitcoinist8小时前

Blockchain.com通过与Ondo Finance合作扩展代币化股票访问渠道

bitcoinist8小时前

CPU杀回牌桌，一场1700亿美元的“上位”大戏开启

英伟达在2026年台北电脑展上首次发布独立CPU产品线Vera CPU，标志着其业务重心从GPU向更广阔的计算领域扩展。CEO黄仁勋指出，在AI智能体时代，CPU已成为数据中心性能的关键瓶颈。与此同时，AMD将服务器CPU市场规模预测大幅上调至1200亿美元以上，行业预测其潜在市场规模将在2030年达到约1700亿美元。市场格局正在发生变化。2026年一季度，AMD在服务器CPU收入份额上逼近英特尔，显示出高核数产品的强大溢价能力。分析指出，AI发展正从训练转向推理和智能体阶段，后者需要频繁进行复杂控制流、工具调用和数据处理，这些任务严重依赖CPU而非GPU。在智能体任务中，GPU利用率可能低于50%，而CPU工作量占比可达七成以上。这导致CPU与GPU的配比从过去的1:8显著收敛至1:4甚至1:1。需求变化直接推动了十多年来首次大规模涨价，英特尔和AMD服务器CPU价格普遍上涨10%-15%，且出现产能紧张。市场分化为配合GPU的高核数CPU和用于智能体任务编排的中核数批量CPU两类需求。英伟达基于ARM架构的Vera CPU入局，进一步凸显了CPU的战略地位。这对中国CPU产业链既是机遇也是挑战。国产CPU厂商如海光信息、华为鲲鹏等，既受益于全球AI需求增长，也面临信创政策带来的国产替代窗口期。行业共识是，AI大规模落地的关键已从单芯片性能转向CPU与GPU的协同能力。

marsbit8小时前

marsbit8小时前

TechFlow 情报局：AMD AI 总监公开批评 Claude Code"变得更笨更懒"，特朗普称霍尔木兹将全面停火但海峡仍有 80 枚水雷待清

**科技与地缘动态摘要** **AI与芯片领域** * **技术竞争与审查**：韩国SK Telecom因与Anthropic的合作面临美国出口管制审查。与此同时，中国Z.AI发布了不依赖英伟达芯片、性能对标Claude Opus的GLM-5.2大模型，引发关于技术围堵效果的讨论。 * **安全与伦理问题**：Google Gemini被曝在诈骗场景中提供误导建议，引发AI安全担忧。GitHub上发现上万个分发木马的仓库，开源供应链安全敲响警钟。 * **行业动态**：亚马逊正洽谈对外出售其自研AI芯片，意图进军市场。苹果据悉将为特殊版iPhone独享台积电最新制程工艺。0G Labs宣布其链上AI推理总量突破重要里程碑。 * **争议与监管**：AMD AI总监公开批评Claude Code性能下降。多名亚马逊工程师因批评公司AI数据中心扩张的环境影响遭内部调查。微软、亚马逊云服务或面临欧盟严厉反垄断审查。 **加密/Web3动态** * 韩国交易所Bithumb上线ReProtocol (RE)交易对，而Upbit则移除了KernelDAO (KERNEL)交易对。 **地缘与财经** * **霍尔木兹海峡局势**：尽管美伊达成协议，但霍尔木兹海峡主航道仍有约80枚水雷未清除，导致近8000万桶满载石油的油轮滞留，等待“安全信号”。伊朗取消了赴瑞士外交行程，和谈前景不明。特朗普称协议是伊朗“无条件投降”，并宣称总统拥有无限权力。 * **美股表现**：美股半导体板块大涨，英特尔因与苹果合作传闻暴涨10.6%，而SpaceX股价下跌3.5%。 **核心观察** 当前局势呈现鲜明对比：地缘政治达成临时“和平”，但实际风险（水雷）与不确定性（伊朗行程取消）犹存，导致经济活动（油轮通航）停滞。与此同时，科技领域的竞争与重构却在加速进行，从芯片自主研发、AI模型突破到供应链安全，科技公司正以另一种方式重塑全球格局。

marsbit8小时前

TechFlow 情报局：AMD AI 总监公开批评 Claude Code"变得更笨更懒"，特朗普称霍尔木兹将全面停火但海峡仍有 80 枚水雷待清

marsbit8小时前

交易

现货

合约

AI成绩单背后，藏着一位华人“出题人”

文章摘要

旧考卷失灵之后

好用的基准评测

“考卷”背后的人

热门币种推荐

相关问答

你可能也喜欢

Strategy的STRC下跌揭示了比特币挂钩信贷产品背后的风险

澳大利亚最高法院在Block Earner加密收益产品案中为ASIC赢得重大胜利

Blockchain.com通过与Ondo Finance合作扩展代币化股票访问渠道

CPU杀回牌桌，一场1700亿美元的“上位”大戏开启

TechFlow 情报局：AMD AI 总监公开批评 Claude Code"变得更笨更懒"，特朗普称霍尔木兹将全面停火但海峡仍有 80 枚水雷待清

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签