AI 成绩单背后,藏着一位华人“出题人”

marsbitPublié le 2026-06-20Dernière mise à jour le 2026-06-20

Résumé

AI领域重要的基准评测MMLU-Pro、MMMU、MMMU-Pro背后,都站着同一位“出题人”——加拿大滑铁卢大学助理教授陈文虎。 随着大语言模型能力快速提升,旧的评测基准如MMLU逐渐“失灵”,顶尖模型得分趋近满分,难以区分高下。为此,陈文虎团队于2024年推出MMLU-Pro。它通过将选项扩至10个、增加推理题比例、剔除简单题等方式,使模型准确率相较旧基准显著下降16%-33%,成绩波动更小,有效拉开了模型间的真实差距。 在多模态评测方面,陈文虎团队推出的MMMU基准包含1.15万道需结合图像与专业知识的复杂题目,即便是当时最强的GPT-4V和Gemini Ultra准确率也未超过60%。后续的MMMU-Pro则进一步堵住模型仅凭文本猜答案的漏洞,强制其进行真正的多模态理解。 陈文虎的研究方向长期聚焦于复杂信息理解与推理。他曾于谷歌DeepMind参与Gemini多模态模型的研发与评估工作,这让他深谙模型能力增长路径与评估盲区。他创立的“老虎实验室”不仅做评测,也研发视频理解与生成等模型,这种“既做题也出题”的经历,使其能更精准地设计出触及模型能力边界的评估体系。 如今,陈文虎已加入Meta超级智能实验室,继续专注于多模态预训练与评估工作。他的故事反映了在AI浪潮中,众多华人研究者正深度参与并塑造着行业发展的核心基础工作。

每次前沿模型发布,AI圈都会盯着几张熟悉的成绩单。

MMLU-Pro、MMMU、MMMU-Pro......这些名字对普通用户来说有些陌生,但对模型公司和研究者而言,它们几乎已经成了“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek们不断在这些基准上交卷。

“是骡子是马拉出来溜溜”,模型怎么样,往往都要靠这些分数来证明。

很多模型发布会上的性能对比图,离不开它们;HuggingFace上的一些排行榜,也建立在这些评测体系之上。甚至可以说,今天AI行业讨论模型能力时,使用的已经是一套由这些基准定义的共同语言。

但有意思的是,几乎所有人都在关注分数,却很少有人知道出题的人是谁。而MMLU-Pro、MMMU和MMMU-Pro背后,都能看到同一个名字——陈文虎。

他是加拿大滑铁卢大学计算机科学系助理教授,在谷歌学术上,他的论文被引用超过3万次。

他也是“老虎实验室(TIGERLab)”的创始人,这个实验室的英文全称是Text and Image GEnerative Research Lab,因为名字里有一个“虎”字,陈文虎为其起了一个很有辨识度的中文名——虎头帮。

01

旧考卷失灵之后

陈文虎最先被更多人注意到,是因为MMLU-Pro。

MMLU曾经是大语言模型能力评估中最常用的基准评测之一。它像一张综合试卷,覆盖多个学科,用来衡量模型在知识理解和推理任务上的表现。

在早期,这张卷子很有用。模型之间的差距能被分数拉开,行业也可以通过它观察大语言模型是不是真的在进步。

但问题很快出现了。

随着模型能力不断提升,MMLU逐渐变得“不够考”了。前沿模型的分数越来越高,彼此之间的差距越来越小。

到OpenAI发布o3之后,这个问题变得更加明显。o3在MMLU上的准确率已经接近100%,其他前沿模型也陆续交出逼近满分的成绩。

这听起来像是一个好消息,但对评估来说,反而意味着麻烦。

一张试卷如果大家都能考接近满分,就很难继续判断谁更强、强在哪里。它仍然可以证明模型已经具备某些能力,却不再适合衡量新的进步。

AI行业需要一张更难、也更不容易被“糊弄过去”的卷子。

2024年,陈文虎和团队推出了MMLU-Pro。

MMLU-Pro重新改造了这张考卷,而非简单把题库扩大。

它包含12032道题,覆盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相比原版MMLU,它把选项从4个扩展到10个,降低模型靠猜测蒙对的概率;同时加入更多偏推理的问题,清理掉原题库中相对简单、存在歧义或者区分度不足的题目。

效果很直接。

论文结果显示,模型在MMLU-Pro上的准确率相比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时,成绩波动也从原MMLU的4%到5%,下降到约2%。

也就是说,这张新卷子不仅更难,也更稳定。

它让那些在旧考卷上看起来都很优秀的模型,重新被拉开了差距。模型到底是真会推理,还是只是更擅长应付旧题,也因此更容易被看出来。

02

好用的基准评测

MMLU-Pro很快被行业拿去用了。

MMLU-Pro随后进入NeurIPS2024数据集与基准评测赛道,也被EleutherAI的语言模型评测框架lm-evaluation-harness集成。对开源模型社区来说,这意味着它不再只是一篇论文里的数据集,而是进入了常用评测工具链。

很多模型发布时,开始报告MMLU-Pro分数。HuggingFace上的一些排行榜,也把它纳入评估体系。

如果说MMLU-Pro解决的是语言模型评估里的“旧考卷失灵”,那么MMMU则把陈文虎和TIGERLab推到了多模态评测的中心。

多模态模型的问题更复杂。

语言模型答题,主要处理文字。多模态模型则要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。它不只是要读懂题干,还要真正看懂图像里的内容,并把视觉信息、文本信息和学科知识放在一起推理。

MMMU基准评测包含1.15万道多模态问题,来自大学考试、测验和教材,覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域,进一步细分为30个学科和183个子领域。

这些题目不是简单问模型“图里有什么”,它要求模型像学生做专业题一样,把图像信息和学科知识结合起来。

MMMU发布时,研究团队测试了14个开源多模态模型,以及GPT-4V、GeminiUltra等代表性闭源模型。即便是当时最强的闭源模型,GPT-4V和GeminiUltra也只达到56%和59%的准确率。

这组数字说明,多模态模型看起来进步很快,但在真正需要专业理解和推理的问题上,仍然有大量空间。

后来,陈文虎团队又推出了MMMU-Pro,进一步堵住模型绕过视觉信息的空间。它过滤掉只靠文本模型也能回答的问题,扩展候选项,并引入vision-only设置,把问题嵌入图像中,要求模型同时完成视觉读取和文本理解。

简单说,就是不让模型“只看文字猜答案”。

这类工作听起来颇有点琐碎之感,但它们很关键。因为多模态模型未来要进入医疗、教育、科研、设计、工程等场景,仅仅能描述图片是不够的。它必须能判断、推理、解释,也必须能在复杂视觉信息中找到真正有用的部分。

03

“考卷”背后的人

陈文虎后来做MMLU-Pro和MMMU,来自于他一直以来的研究方向。

他的研究兴趣本来就与复杂信息理解、知识问答和推理有关。

他本科毕业于华中科技大学,之后到德国亚琛工业大学攻读硕士,再到加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间,他已经开始围绕复杂问答、表格推理、知识证据定位等方向做研究。

这类任务有一个共同点:答案往往不在单一文本里。

它可能藏在一张表格里,也可能需要结合一段文字和一张图片,还可能需要模型先检索信息,再整合、计算和推理。模型不能只会复述已有知识。

陈文虎参与过的HybridQA、TabFact、ProgramofThoughts、MAmmoTH等项目,都和这条线有关。

这也解释了他为什么会对模型评估里的漏洞敏感。

好的基准评测不是简单把题目搞得越来越难,而是要预判模型最容易在哪里“蒙对题”“看起来会”。

模型可能记住了题库,也可以靠选项猜答案,还可能用文字绕过视觉信息......好的评估得把这些漏洞补好。

博士毕业后,陈文虎进入谷歌研究院,随后在2021年至2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历也很重要。长期接触前沿模型研发,让他更清楚模型能力是如何增长的,也更容易看见评估中可能存在的偏差和盲区。

2022年秋季,陈文虎加入滑铁卢大学计算机科学学院,担任助理教授。同年,他入选CanadaCIFARAIChair。之后,他创办“老虎实验室(也就是虎头帮)”,继续围绕基础模型、多模态能力和基准评测展开研究。

虎头帮并不只是做基准评测,也在做模型和系统研究。

在视频方向上,UniVideo试图把视频理解、生成和编辑放进同一个框架,让模型不只是生成一段画面,也能理解内容、响应指令并完成修改。Vamba瞄准长视频理解,解决一小时级别视频带来的显存、计算和训练效率问题。与Meta生成式AI团队合作的MoCha,则把重点放在说话虚拟角色生成上,通过语音和文字描述生成高质量人物视频。

一个从来不做题的出题人是不可能出好题的。自己下场做模型,反过来也让他们更适合做评估。

因为真正好的评估,往往来自对模型能力边界的理解。只有知道模型是怎么做出来的,知道它在真实任务里会遇到什么问题,才更容易设计出能测出差距、也能暴露问题的题目。

如今,陈文虎进入Meta超级智能实验室,工作继续集中在多模态预训练数据和评估,并服务于Meta基础模型。

AI行业并不缺少被看见的人。AI行业里,聚光灯通常会落在创业者、明星研究员和大模型公司的负责人身上。新产品发布、融资消息、开源模型和团队调整,往往最容易吸引外界关注,也让这些名字更容易进入公众视野。

但今天的AI领域,华人人才的参与已经远不止这些最显眼的位置。

本文来自微信公众号“字母AI”,作者:小金牙

Cryptos en tendance

Questions liées

Q文章中提到,为什么在AI模型评估中,需要从MMLU转向MMLU-Pro?

A因为随着模型能力不断提升,MMLU逐渐变得不够用了。前沿模型在MMLU上的分数越来越高,彼此差距越来越小,甚至出现接近满分的情况。这使得它难以继续判断模型的强弱和进步。MMLU-Pro通过增加选项数量、清理简单歧义题、加入更多推理问题,让评估变得更难、更稳定,从而重新拉开模型间的差距。

Q陈文虎推出的MMMU基准评测主要针对什么类型的模型?它有什么特点?

AMMMU主要针对多模态模型。它的特点是包含来自大学考试、测验和教材的1.15万道多模态问题,覆盖多个专业领域,要求模型必须结合图像、文本和学科知识进行推理,而不仅仅是描述图片内容。这使得它能更有效地评估多模态模型在复杂专业任务上的真实能力。

Q文中说陈文虎“自己下场做模型”,这对于他设计基准评测有什么帮助?

A这让他更理解模型的能力边界和在实际任务中可能遇到的问题。只有知道模型是如何构建的,以及它在真实任务中的表现和短板,才能设计出更能测出模型真实差距、暴露其弱点和“作弊”方式的基准评测。这种实践经验让他的评估工具更具针对性。

Q陈文虎创办的“老虎实验室”(TIGERLab)除了做基准评测,还在哪些研究方向上有探索?

A老虎实验室也在进行模型和系统研究。例如,在视频方向上,有UniVideo(统一视频理解与生成框架)、Vamba(长视频理解)、以及与Meta合作的MoCha(说话虚拟角色生成)。这些研究探索了多模态AI在不同具体任务上的应用和能力提升。

Q文章结尾提到陈文虎现在在哪里工作?其主要工作内容是什么?

A他目前进入了Meta的超级智能实验室工作。其主要工作内容集中在多模态预训练数据和评估方面,服务于Meta的基础模型研发。

Lectures associées

850 millions d'USDT s'enfuient dans la nuit, peut-on encore faire confiance aux coffres de stablecoins à haut rendement ?

Un retrait massif de 8,5 millions d’USDT en 24 heures a touché Altura, une plateforme de produits à rendement sur stablecoins, déclenchant la fermeture ordonnée de ses coffres. Cet événement, lié à une crise de confiance générale dans le secteur après la rupture de l’audit de MainStreet par la société Accountable, montre que même sans exposition directe aux actifs problématiques, les produits similaires peuvent subir des pressions de retrait. Le cœur du problème réside dans la liquidité : bien qu’Altura affirme ne détenir aucun actif lié à MainStreet et que ses fonds propres soient sains, ses investissements (crédits privés, actifs réels RWA) ont des cycles de liquidation plus longs que les retraits instantanés attendus par les utilisateurs en DeFi. La simple perception d’un risque de liquidité peut ainsi provoquer une ruée, les premiers retirants étant servis immédiatement tandis que les autres doivent attendre. Cet épisode souligne un défi clé pour les produits à rendement sur stablecoins : l’écart entre la promesse de liquidité immédiate et la réalité des actifs sous-jacents, qui nécessitent des délais de désinvestissement. La confiance du marché, fragile, peut rapidement s’éroder, rendant cruciale la transparence sur les réserves et les périodes de liquidation, au-delà de la simple santé des actifs.

marsbitIl y a 7 mins

850 millions d'USDT s'enfuient dans la nuit, peut-on encore faire confiance aux coffres de stablecoins à haut rendement ?

marsbitIl y a 7 mins

Conversation avec Jason Huang, fondateur de NDV : Perce la bulle de l'IA et le mythe de MicroStrategy, à la recherche de l'atout ultime du marché crypto

Dans cet épisode du podcast Wu Shuo, Jason Huang, fondateur de NDV, analyse la récente baisse du Bitcoin. Il attribue la correction à la pression de vente cyclique quadriennale, accentuée par le recul des marchés actions, la contraction de la liquidité et les difficultés financières de MicroStrategy. Selon lui, le marché n'a pas encore touché le fond, car un vrai creux baissier nécessite généralement un événement majeur de type "FTX", générant un sentiment de désespoir généralisé. Il explique que la vente symbolique de 32 bitcoins par MicroStrategy a déclenché une réaction en chaîne, le marché anticipant une pression de vente plus importante sur les 800 000 BTC détenus par l'entreprise. Son fonds a généré environ 20% de rendement cette année, en surperformance par rapport au Bitcoin, grâce à des positions courtes et des investissements dans les matières premières (pétrole, or, argent). Bien qu'utilisateur intensif d'IA, Jason Huang évite d'investir dans les actions du secteur, par manque d'avantage informationnel, et considère que les transactions sur les semi-conducteurs sont trop concentrées. Il reste prudent sur les marchés actions en général, pointant des signes de surchauffe. À long terme, il est optimiste sur les stablecoins, qu'il considère comme l'innovation la plus utile et tangible de la cryptosphère, avec un potentiel de croissance encore important. Pour le Bitcoin, il prévoit une possible baisse supplémentaire (en dessous de 48 000$), suivie d'un rebond, mais estime que le vrai fond sera atteint lors d'un événement catastrophique provoquant une panique généralisée. Il se montre en revanche très pessimiste quant à l'Ethereum.

marsbitIl y a 26 mins

Conversation avec Jason Huang, fondateur de NDV : Perce la bulle de l'IA et le mythe de MicroStrategy, à la recherche de l'atout ultime du marché crypto

marsbitIl y a 26 mins

Entretien avec Jason Huang, fondateur de NDV : Percer la bulle de l'IA et le mythe de MicroStrategy, à la recherche de l'atout ultime sur le marché des cryptomonnaies

Dans ce podcast, Jason Huang, fondateur de NDV, analyse la récente baisse du Bitcoin. Il attribue la correction à la pression de vente cyclique quadriennale, combinée au recul des marchés actions, à la contraction des liquidités et aux difficultés financières de MicroStrategy (MSTR). Huang estime que le marché n'a pas encore touché le fond, un véritable creux nécessitant généralement un événement majeur de type "FTX" pour provoquer une capitulation totale. Il explique que la vente symbolique de 32 BTC par MSTR a déclenché une course anticipative des investisseurs, craignant une pression de vente massive sur ses 80 000+ BTC. Pour résoudre ses dettes et dividendes, MSTR devra probablement vendre davantage ou trouver un acheteur privé, ce qui pourrait marquer un plancher temporaire. Son fonds a généré environ 20% de rendement cette année, en surperformance face au BTC, grâce à des positions courtes et des investissements dans les matières premières (pétrole, or, argent). Il évite délibérément les actions AI par manque d'avantage informationnel et perçoit des bulles dans les semi-conducteurs et le récit autour de SpaceX. Malgré son pessimisme à court terme, Huang reste optimiste sur la valeur à long terme des stablecoins, qu'il considère comme l'innovation la plus utile et tangible de la crypto. Pour le Bitcoin, il prévoit une baisse potentielle en dessous de 48 000 $ avant un rebond, tandis qu'il se montre très sceptique quant à l'avenir de l'Ethereum. Le véritable fond, selon lui, sera atteint lorsque le désespoir sera généralisé et que plus personne ne voudra parler du marché.

链捕手Il y a 32 mins

Entretien avec Jason Huang, fondateur de NDV : Percer la bulle de l'IA et le mythe de MicroStrategy, à la recherche de l'atout ultime sur le marché des cryptomonnaies

链捕手Il y a 32 mins

Tendances du marché boursier américain (24 juin) : La chute du marché coréen ébranle les puces mondiales, Micron chute de plus de 10%, la certitude de l'offre à long terme soumise à un 'test brutal'

**Titre : Les marchés américains sous pression (24 juin) : La chute du marché coréen secoue les puces mondiales, Micron chute de plus de 10%, la certitude de l'offre à long terme mise à rude épreuve** **Résumé en français :** Le marché sud-coréen a subi un choc majeur lundi, le KOSPI plongeant de 10%, entraîné par les titres de SK Hynix et Samsung (-12%). Cette chute, attribuée à des rumeurs d'un ralentissement potentiel de l'expansion de la production de HBM4 par SK Hynix, s'est propagée aux valeurs technologiques américaines. Le secteur des semi-conducteurs a été le plus durement touché à Wall Street. Micron Technology a chuté de plus de 13%, SanDisk de près de 14%, et l'indice Philadelphia Semiconductor a reculé de 7.87%. Le Nasdaq a perdu 2.21%, tandis que le Dow Jones résistait mieux (-0.09%). Les valeurs défensives (IBM, Walmart, Johnson & Johnson) ont affiché des performances positives. La pression sur les actions ne semble pas liée à une remise en cause de la demande d'IA elle-même, mais plutôt à une réévaluation des anticipations trop optimistes concernant les capacités de production de puces mémoires, en particulier la mémoire HBM essentielle pour l'IA. L'annonce potentielle d'un ralentissement chez un acteur clé a semé le doute sur la solidité du cycle d'investissement en infrastructure IA. Les regards se tournent désormais vers deux événements clés de jeudi : les données sur l'inflation PCE aux États-Unis, qui influenceront les anticipations de politique monétaire de la Fed, et les résultats trimestriels de Micron. Les investisseurs scruteront les marges de la division HBM de Micron et ses prévisions de capacité pour 2027. Toute prudence dans les commentaires pourrait déclencher une nouvelle vague de vente. Cette correction marque un tournant vers une tarification plus rationnelle du cycle de l'IA. La certitude d'une offre à long terme suffisante, jusque-là intégrée dans les valorisations, est désormais fortement remise en question, transformant la perception d'entreprises comme Micron, de "garant de l'infrastructure IA" en valeur plus cyclique.

marsbitIl y a 47 mins

Tendances du marché boursier américain (24 juin) : La chute du marché coréen ébranle les puces mondiales, Micron chute de plus de 10%, la certitude de l'offre à long terme soumise à un 'test brutal'

marsbitIl y a 47 mins

À l'ère de l'IA, quels KOL et communautés ne seront pas complètement remplacés ?

À l’ère de l’IA, quels types de KOL (influenceurs) et communautés éviteront d’être remplacés ? Dans un entretien, l’investisseur BitWu partage ses perspectives sur l’évolution de la crypto, les erreurs courantes des nouveaux venus et les opportunités futures. Il souligne que les KOLs qui se contentent de relayer des informations seront progressivement remplacés par l’IA, plus rapide et moins coûteuse. En revanche, ceux qui apportent leur expérience personnelle, leur jugement et leur crédibilité accumulée resteront pertinents. Concernant les communautés, leur importance grandira, mais elles se différencieront. Les communautés purement opportunistes (airdrops, gains rapides) disparaîtront au profit de celles fondées sur la confiance, un objectif commun et des relations durables, notamment via des interactions en présentiel. BitWu met également en lumière les changements dans le cycle actuel par rapport à 2021 : le marché crypto évolue d’un espace spéculatif vers une infrastructure financière globale, intégrant des thèmes comme l’IA, les stablecoins et les RWA (Real World Assets). Pour les jeux Web3, l’échec passé est dû à une focalisation excessive sur le "Play-to-Earn" au détriment du plaisir de jeu. À l’avenir, la combinaison de l’IA, des aspects sociaux et de la création de contenu par les utilisateurs (UGC) sera essentielle pour créer des mondes de jeu vivants et engageants. Enfin, il conseille aux nouveaux venus de développer avant tout leur capacité à identifier les risques, et non de surestimer leurs gains en période de hausse. La gestion du capital et une approche disciplinée sont cruciales pour survivre et prospérer sur le long terme.

marsbitIl y a 1 h

À l'ère de l'IA, quels KOL et communautés ne seront pas complètement remplacés ?

marsbitIl y a 1 h

Trading

Spot
Futures

Articles tendance

Comment acheter EDGE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter edgeX (EDGE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément edgeX (EDGE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos edgeX (EDGE)Après avoir acheté vos edgeX (EDGE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des edgeX (EDGE)Tradez facilement edgeX (EDGE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

465 vues totalesPublié le 2026.03.31Mis à jour le 2026.06.02

Comment acheter EDGE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de EDGE (EDGE) sont présentées ci-dessous.

活动图片