AI 成绩单背后,藏着一位华人“出题人”

marsbitОпубликовано 2026-06-20Обновлено 2026-06-20

Введение

AI领域重要的基准评测MMLU-Pro、MMMU、MMMU-Pro背后,都站着同一位“出题人”——加拿大滑铁卢大学助理教授陈文虎。 随着大语言模型能力快速提升,旧的评测基准如MMLU逐渐“失灵”,顶尖模型得分趋近满分,难以区分高下。为此,陈文虎团队于2024年推出MMLU-Pro。它通过将选项扩至10个、增加推理题比例、剔除简单题等方式,使模型准确率相较旧基准显著下降16%-33%,成绩波动更小,有效拉开了模型间的真实差距。 在多模态评测方面,陈文虎团队推出的MMMU基准包含1.15万道需结合图像与专业知识的复杂题目,即便是当时最强的GPT-4V和Gemini Ultra准确率也未超过60%。后续的MMMU-Pro则进一步堵住模型仅凭文本猜答案的漏洞,强制其进行真正的多模态理解。 陈文虎的研究方向长期聚焦于复杂信息理解与推理。他曾于谷歌DeepMind参与Gemini多模态模型的研发与评估工作,这让他深谙模型能力增长路径与评估盲区。他创立的“老虎实验室”不仅做评测,也研发视频理解与生成等模型,这种“既做题也出题”的经历,使其能更精准地设计出触及模型能力边界的评估体系。 如今,陈文虎已加入Meta超级智能实验室,继续专注于多模态预训练与评估工作。他的故事反映了在AI浪潮中,众多华人研究者正深度参与并塑造着行业发展的核心基础工作。

每次前沿模型发布,AI圈都会盯着几张熟悉的成绩单。

MMLU-Pro、MMMU、MMMU-Pro......这些名字对普通用户来说有些陌生,但对模型公司和研究者而言,它们几乎已经成了“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek们不断在这些基准上交卷。

“是骡子是马拉出来溜溜”,模型怎么样,往往都要靠这些分数来证明。

很多模型发布会上的性能对比图,离不开它们;HuggingFace上的一些排行榜,也建立在这些评测体系之上。甚至可以说,今天AI行业讨论模型能力时,使用的已经是一套由这些基准定义的共同语言。

但有意思的是,几乎所有人都在关注分数,却很少有人知道出题的人是谁。而MMLU-Pro、MMMU和MMMU-Pro背后,都能看到同一个名字——陈文虎。

他是加拿大滑铁卢大学计算机科学系助理教授,在谷歌学术上,他的论文被引用超过3万次。

他也是“老虎实验室(TIGERLab)”的创始人,这个实验室的英文全称是Text and Image GEnerative Research Lab,因为名字里有一个“虎”字,陈文虎为其起了一个很有辨识度的中文名——虎头帮。

01

旧考卷失灵之后

陈文虎最先被更多人注意到,是因为MMLU-Pro。

MMLU曾经是大语言模型能力评估中最常用的基准评测之一。它像一张综合试卷,覆盖多个学科,用来衡量模型在知识理解和推理任务上的表现。

在早期,这张卷子很有用。模型之间的差距能被分数拉开,行业也可以通过它观察大语言模型是不是真的在进步。

但问题很快出现了。

随着模型能力不断提升,MMLU逐渐变得“不够考”了。前沿模型的分数越来越高,彼此之间的差距越来越小。

到OpenAI发布o3之后,这个问题变得更加明显。o3在MMLU上的准确率已经接近100%,其他前沿模型也陆续交出逼近满分的成绩。

这听起来像是一个好消息,但对评估来说,反而意味着麻烦。

一张试卷如果大家都能考接近满分,就很难继续判断谁更强、强在哪里。它仍然可以证明模型已经具备某些能力,却不再适合衡量新的进步。

AI行业需要一张更难、也更不容易被“糊弄过去”的卷子。

2024年,陈文虎和团队推出了MMLU-Pro。

MMLU-Pro重新改造了这张考卷,而非简单把题库扩大。

它包含12032道题,覆盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相比原版MMLU,它把选项从4个扩展到10个,降低模型靠猜测蒙对的概率;同时加入更多偏推理的问题,清理掉原题库中相对简单、存在歧义或者区分度不足的题目。

效果很直接。

论文结果显示,模型在MMLU-Pro上的准确率相比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时,成绩波动也从原MMLU的4%到5%,下降到约2%。

也就是说,这张新卷子不仅更难,也更稳定。

它让那些在旧考卷上看起来都很优秀的模型,重新被拉开了差距。模型到底是真会推理,还是只是更擅长应付旧题,也因此更容易被看出来。

02

好用的基准评测

MMLU-Pro很快被行业拿去用了。

MMLU-Pro随后进入NeurIPS2024数据集与基准评测赛道,也被EleutherAI的语言模型评测框架lm-evaluation-harness集成。对开源模型社区来说,这意味着它不再只是一篇论文里的数据集,而是进入了常用评测工具链。

很多模型发布时,开始报告MMLU-Pro分数。HuggingFace上的一些排行榜,也把它纳入评估体系。

如果说MMLU-Pro解决的是语言模型评估里的“旧考卷失灵”,那么MMMU则把陈文虎和TIGERLab推到了多模态评测的中心。

多模态模型的问题更复杂。

语言模型答题,主要处理文字。多模态模型则要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。它不只是要读懂题干,还要真正看懂图像里的内容,并把视觉信息、文本信息和学科知识放在一起推理。

MMMU基准评测包含1.15万道多模态问题,来自大学考试、测验和教材,覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域,进一步细分为30个学科和183个子领域。

这些题目不是简单问模型“图里有什么”,它要求模型像学生做专业题一样,把图像信息和学科知识结合起来。

MMMU发布时,研究团队测试了14个开源多模态模型,以及GPT-4V、GeminiUltra等代表性闭源模型。即便是当时最强的闭源模型,GPT-4V和GeminiUltra也只达到56%和59%的准确率。

这组数字说明,多模态模型看起来进步很快,但在真正需要专业理解和推理的问题上,仍然有大量空间。

后来,陈文虎团队又推出了MMMU-Pro,进一步堵住模型绕过视觉信息的空间。它过滤掉只靠文本模型也能回答的问题,扩展候选项,并引入vision-only设置,把问题嵌入图像中,要求模型同时完成视觉读取和文本理解。

简单说,就是不让模型“只看文字猜答案”。

这类工作听起来颇有点琐碎之感,但它们很关键。因为多模态模型未来要进入医疗、教育、科研、设计、工程等场景,仅仅能描述图片是不够的。它必须能判断、推理、解释,也必须能在复杂视觉信息中找到真正有用的部分。

03

“考卷”背后的人

陈文虎后来做MMLU-Pro和MMMU,来自于他一直以来的研究方向。

他的研究兴趣本来就与复杂信息理解、知识问答和推理有关。

他本科毕业于华中科技大学,之后到德国亚琛工业大学攻读硕士,再到加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间,他已经开始围绕复杂问答、表格推理、知识证据定位等方向做研究。

这类任务有一个共同点:答案往往不在单一文本里。

它可能藏在一张表格里,也可能需要结合一段文字和一张图片,还可能需要模型先检索信息,再整合、计算和推理。模型不能只会复述已有知识。

陈文虎参与过的HybridQA、TabFact、ProgramofThoughts、MAmmoTH等项目,都和这条线有关。

这也解释了他为什么会对模型评估里的漏洞敏感。

好的基准评测不是简单把题目搞得越来越难,而是要预判模型最容易在哪里“蒙对题”“看起来会”。

模型可能记住了题库,也可以靠选项猜答案,还可能用文字绕过视觉信息......好的评估得把这些漏洞补好。

博士毕业后,陈文虎进入谷歌研究院,随后在2021年至2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历也很重要。长期接触前沿模型研发,让他更清楚模型能力是如何增长的,也更容易看见评估中可能存在的偏差和盲区。

2022年秋季,陈文虎加入滑铁卢大学计算机科学学院,担任助理教授。同年,他入选CanadaCIFARAIChair。之后,他创办“老虎实验室(也就是虎头帮)”,继续围绕基础模型、多模态能力和基准评测展开研究。

虎头帮并不只是做基准评测,也在做模型和系统研究。

在视频方向上,UniVideo试图把视频理解、生成和编辑放进同一个框架,让模型不只是生成一段画面,也能理解内容、响应指令并完成修改。Vamba瞄准长视频理解,解决一小时级别视频带来的显存、计算和训练效率问题。与Meta生成式AI团队合作的MoCha,则把重点放在说话虚拟角色生成上,通过语音和文字描述生成高质量人物视频。

一个从来不做题的出题人是不可能出好题的。自己下场做模型,反过来也让他们更适合做评估。

因为真正好的评估,往往来自对模型能力边界的理解。只有知道模型是怎么做出来的,知道它在真实任务里会遇到什么问题,才更容易设计出能测出差距、也能暴露问题的题目。

如今,陈文虎进入Meta超级智能实验室,工作继续集中在多模态预训练数据和评估,并服务于Meta基础模型。

AI行业并不缺少被看见的人。AI行业里,聚光灯通常会落在创业者、明星研究员和大模型公司的负责人身上。新产品发布、融资消息、开源模型和团队调整,往往最容易吸引外界关注,也让这些名字更容易进入公众视野。

但今天的AI领域,华人人才的参与已经远不止这些最显眼的位置。

本文来自微信公众号“字母AI”,作者:小金牙

Трендовые криптовалюты

Связанные с этим вопросы

Q文章中提到,为什么在AI模型评估中,需要从MMLU转向MMLU-Pro?

A因为随着模型能力不断提升,MMLU逐渐变得不够用了。前沿模型在MMLU上的分数越来越高,彼此差距越来越小,甚至出现接近满分的情况。这使得它难以继续判断模型的强弱和进步。MMLU-Pro通过增加选项数量、清理简单歧义题、加入更多推理问题,让评估变得更难、更稳定,从而重新拉开模型间的差距。

Q陈文虎推出的MMMU基准评测主要针对什么类型的模型?它有什么特点?

AMMMU主要针对多模态模型。它的特点是包含来自大学考试、测验和教材的1.15万道多模态问题,覆盖多个专业领域,要求模型必须结合图像、文本和学科知识进行推理,而不仅仅是描述图片内容。这使得它能更有效地评估多模态模型在复杂专业任务上的真实能力。

Q文中说陈文虎“自己下场做模型”,这对于他设计基准评测有什么帮助?

A这让他更理解模型的能力边界和在实际任务中可能遇到的问题。只有知道模型是如何构建的,以及它在真实任务中的表现和短板,才能设计出更能测出模型真实差距、暴露其弱点和“作弊”方式的基准评测。这种实践经验让他的评估工具更具针对性。

Q陈文虎创办的“老虎实验室”(TIGERLab)除了做基准评测,还在哪些研究方向上有探索?

A老虎实验室也在进行模型和系统研究。例如,在视频方向上,有UniVideo(统一视频理解与生成框架)、Vamba(长视频理解)、以及与Meta合作的MoCha(说话虚拟角色生成)。这些研究探索了多模态AI在不同具体任务上的应用和能力提升。

Q文章结尾提到陈文虎现在在哪里工作?其主要工作内容是什么?

A他目前进入了Meta的超级智能实验室工作。其主要工作内容集中在多模态预训练数据和评估方面,服务于Meta的基础模型研发。

Похожее

Бегство 8.5 миллионов USDT за ночь: можно ли доверять высокодоходным стейблкоин-казначействам?

В статье сообщается, что на фоне аудиторского скандала в MainStreet в секторе доходных стейблкоинов произошла масштабная паника. На платформе Altura пользователи вывели более 8.5 миллионов USDT за 24 часа, что привело к решению об упорядоченном закрытии её сейфов. Хотя Altura заявляет об отсутствии прямых связей с MainStreet, инцидент высветил ключевую уязвимость: даже при отсутствии фактических убытков в активах, продукты могут столкнуться с давлением ликвидности из-за коллективной потери доверия. Основное противоречие заключается в несоответствии между ожиданиями пользователей о мгновенном выводе средств и длительными сроками погашения базовых активов (например, частных кредитов и RWA). Этот случай показывает, что в DeFi-секторе уверенность рынка является критическим фактором, определяющим способность платформ выдерживать скоординированные оттоки средств, и подчеркивает важность прозрачности и управления ликвидностью.

marsbit9 мин. назад

Бегство 8.5 миллионов USDT за ночь: можно ли доверять высокодоходным стейблкоин-казначействам?

marsbit9 мин. назад

Диалог с основателем NDV Джейсоном Хуаном: Развенчание пузыря ИИ и мифа MicroStrategy, поиск конечного туза в рукаве крипторынка

Интервью с основателем NDV Джейсоном Хуаном: обсуждение падения Bitcoin, долгового давления MicroStrategy и поиск дна на крипторынке. Джейсон считает, что текущее падение Bitcoin вызвано циклической продажей, коррекцией на фондовом рынке и долговыми проблемами MicroStrategy. Он полагает, что настоящее дно рынка еще не достигнуто и потребуется крупное событие уровня краха FTX, чтобы вызвать всеобщее отчаяние. Его фонд показал доходность около 20% в этом году, обогнав Bitcoin. Помимо криптоактивов, фонд торговал нефтью, золотом и серебром. Джейсон избегает акций AI, так как не видит своего преимущества в этой области, и выражает опасения по поводу пузырей на рынках акций и полупроводников. Он сохраняет долгосрочный оптимизм в отношении стейблкоинов, считая их одним из наиболее практичных и перспективных инноваций в криптосфере с большим потенциалом роста. В краткосрочной перспективе он ожидает дальнейшего падения Bitcoin, возможно, ниже $48 000, и крайне негативно оценивает перспективы Ethereum. Истинное дно, по его мнению, наступит после масштабной паники, когда интерес к рынку полностью иссякнет.

marsbit33 мин. назад

Диалог с основателем NDV Джейсоном Хуаном: Развенчание пузыря ИИ и мифа MicroStrategy, поиск конечного туза в рукаве крипторынка

marsbit33 мин. назад

Диалог с основателем NDV Джейсоном Хуаном: проколоть пузырь ИИ и миф MicroStrategy, найти последний козырь на крипторынке

В интервью с основателем NDV Джейсоном Хуаном обсуждаются текущее падение биткоина, продажа активов MicroStrategy, макроэкономические риски и возможности в криптоиндустрии. Джейсон считает, что первая волна падения связана с циклическими продажами биткоина, а сейчас к ней добавились коррекция на фондовом рынке, снижение ликвидности и долговое давление на MicroStrategy. Он полагает, что истинное дно рынка ещё не достигнуто; для него обычно требуется катастрофическое событие масштаба краха FTX, вызывающее всеобщее отчаяние. В инвестиционной стратегии его фонд в этом году получил около 20% доходности, торгуя не только криптоактивами, но и нефтью, золотом и серебром. Он осторожен в отношении акций ИИ, отмечая перегрев на рынках полупроводников и потенциальный пузырь вокруг IPO SpaceX. Несмотря на краткосрочный пессимизм, Джейсон видит долгосрочную ценность в стейблкоинах, считая их одним из самых практичных и перспективных инноваций в криптосфере. Он подробно разбирает проблемы бизнес-модели MicroStrategy, которая из-за падения курса биткоина и стоимости акций столкнулась с негативной долговой спиралью, вынудившей её начать продажу BTC, что спровоцировало упреждающие продажи на рынке. Джейсон также делится взглядами на инфляцию, отмечая, что рост цен на сырьё (например, нефть) продолжает оказывать давление, а ИИ пока не привёл к дефляции в потребительском секторе. В заключение он выражает сильный пессимизм в отношении Ethereum, а для биткоина прогнозирует дальнейшее значительное падение с последующим сильным отскоком в течение года. Истинное дно, по его мнению, наступит лишь после масштабного события, которое вызовет повсеместную панику и полное безразличие к рынку.

链捕手40 мин. назад

Диалог с основателем NDV Джейсоном Хуаном: проколоть пузырь ИИ и миф MicroStrategy, найти последний козырь на крипторынке

链捕手40 мин. назад

Настроения на фондовом рынке США (24 июня): Обвал на южнокорейском рынке потрясает глобальные чипы, Micron упал более чем на 10%, долгосрочная определенность поставок подверглась "суровому испытанию"

24 июня корейский фондовый индекс KOSPI обвалился на 10%, акции SK Hynix и Samsung упали более чем на 12%. Это произошло из-за слухов о возможном замедлении SK Hynix в расширении производства памяти HBM4. Шок от корейского рынка мгновенно распространился на американский рынок полупроводников: Micron упала на 13,18%, SanDisk — на 13,64%, Marvell — на 8%, а индекс Philadelphia Semiconductor потерял 7,87%. NASDAQ снизился на 2,21%. Давление продаж было направлено не на сам спрос на ИИ, а на переоценку излишнего оптимизма относительно мощностей по производству чипов памяти. Слухи о замедлении HBM4 поставили под сомнение определенность всего цикла инфраструктуры ИИ. Защитные секторы, такие как IBM, Accenture и Walmart, показали относительную устойчивость. Ключевыми моментами на этой неделе станут данные по индексу PCE в четверг, которые повлияют на ожидания по ставкам ФРС, и отчет Micron. Отчет компании покажет, удается ли сохранить маржу HBM на уровне 81%, а также даст руководству указания по производственным мощностям на 2027 год. Любые консервативные комментарии могут спровоцировать новое падение. С точки зрения рынка, это падение указывает на переход цикла арбитража ИИ от ажиотажа к рациональному ценообразованию. Резкий разрыв между практически неизменным Dow Jones и упавшим более чем на 2% NASDAQ означает, что сектор ИИ теряет свою ведущую роль. Определенность долгосрочного предложения, которая ранее поддерживала рынок, теперь значительно снизилась.

marsbit49 мин. назад

Настроения на фондовом рынке США (24 июня): Обвал на южнокорейском рынке потрясает глобальные чипы, Micron упал более чем на 10%, долгосрочная определенность поставок подверглась "суровому испытанию"

marsbit49 мин. назад

Эпоха ИИ: Какие KOL и сообщества не будут полностью вытеснены?

Интервью с инвестором BitWu о вызовах и возможностях в эпоху AI и Web3 BitWu, известный инвестор и создатель контента в сфере криптовалют, делится взглядами на изменение рынка, роль AI и будущее Web3-игр и сообществ. По его мнению, после шума 2021 года индустрия вступает в более зрелую фазу, где на первый план выходят выживание, дисциплина и долгосрочные системы. **Ключевые изменения в восприятии рынка:** От поиска быстрой прибыли BitWu перешел к стратегии «сначала выжить, затем наращивать». Он подчеркивает важность проверки структур, а не слепой веры в нарративы, и необходимость построения личной инвестиционной системы, особенно после опыта потерь в медвежьих рынках. **Главные риски для новичков:** Самая частая ошибка — приписывать успех бычьего рынка собственному таланту, что ведет к последующим потерям. Также опасны отсутствие управления капиталом и сосредоточение только на прибыли без оценки рисков. Основной навык для развития — умение идентифицировать риски. **Отличия текущего цикла:** Если в 2021 году рынком управляли розничные инвесторы и истории, то сейчас криптосфера становится частью глобальной финансовой инфраструктуры, с акцентом на институциональные продукты, такие как ETF, стабильные монеты и RWA. Заработать становится сложнее, требуя глубокого понимания как крипто, так и традиционных финансов. **Перспективные направления на 2-3 года:** BitWu выделяет три области: 1) **Стабильные монеты** — уже работающее решение с реальным спросом; 2) **RWA** (токенизация реальных активов) — мост между традиционными финансами и блокчейном; 3) **AI** — особенно агенты, которым крипто может предоставить финансовую инфраструктуру (идентичность, платежи, управление активами). AI может превратить крипто из спекулятивного актива в «финансовые рельсы для машин». **Будущее KOL и сообществ:** KOL, которые лишь пересказывают информацию, будут заменены AI. Ценность сохранят те, кто обладает уникальным опытом, суждением и доверием, полученным в результате реальных испытаний на рынке. Что касается сообществ, то пустые группы, созданные ради аирдропов, исчезнут. Будут цениться сообщества, построенные на доверии, общей долгосрочной цели и реальных, в том числе оффлайн, связях между участниками. **Провал и будущее Web3-игр:** Основная ошибка прошлого — подмена игрового процесса моделью «играй, чтобы заработать» (Play-to-Earn), что приводило к экономическим пузырям и краху. Успешная игра будущего должна быть, в первую очередь, **увлекательной**. Ключевые драйверы: **AI** (для динамичных миров и NPC), **социальное взаимодействие** и **UGC** (контент от пользователей). Инвестируя, BitWu теперь смотрит на команду, способную создать по-настоящему интересный и долгоживущий игровой мир, а не на сложные токеномики.

marsbit1 ч. назад

Эпоха ИИ: Какие KOL и сообщества не будут полностью вытеснены?

marsbit1 ч. назад

Торговля

Спот
Фьючерсы

Популярные статьи

Как купить EDGE

Добро пожаловать на HTX.com! Мы сделали приобретение edgeX (EDGE) простым и удобным. Следуйте нашему пошаговому руководству и отправляйтесь в свое крипто-путешествие.Шаг 1: Создайте аккаунт на HTXИспользуйте свой адрес электронной почты или номер телефона, чтобы зарегистрироваться и бесплатно создать аккаунт на HTX. Пройдите удобную регистрацию и откройте для себя весь функционал.Создать аккаунтШаг 2: Перейдите в Купить криптовалюту и выберите свой способ оплатыКредитная/Дебетовая Карта: Используйте свою карту Visa или Mastercard для мгновенной покупки edgeX (EDGE).Баланс: Используйте средства с баланса вашего аккаунта HTX для простой торговли.Третьи Лица: Мы добавили популярные способы оплаты, такие как Google Pay и Apple Pay, для повышения удобства.P2P: Торгуйте напрямую с другими пользователями на HTX.Внебиржевая Торговля (OTC): Мы предлагаем индивидуальные услуги и конкурентоспособные обменные курсы для трейдеров.Шаг 3: Хранение edgeX (EDGE)После приобретения вами edgeX (EDGE) храните их в своем аккаунте на HTX. В качестве альтернативы вы можете отправить их куда-либо с помощью перевода в блокчейне или использовать для торговли с другими криптовалютами.Шаг 4: Торговля edgeX (EDGE)С легкостью торгуйте edgeX (EDGE) на спотовом рынке HTX. Просто зайдите в свой аккаунт, выберите торговую пару, совершайте сделки и следите за ними в режиме реального времени. Мы предлагаем удобный интерфейс как для начинающих, так и для опытных трейдеров.

734 просмотров всегоОпубликовано 2026.03.31Обновлено 2026.06.02

Как купить EDGE

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на EDGE (EDGE) представлены ниже.

活动图片