Derrière les bulletins de notes de l'IA, se cache un concepteur de "sujets d'examen" chinois

marsbitPublicado a 2026-06-20Actualizado a 2026-06-20

Resumen

Le domaine de l'IA suit de près les scores des grands modèles sur des benchmarks comme MMLU-Pro et MMMU, devenus des références pour évaluer les capacités de raisonnement et de compréhension multimodale. Derrière ces outils d'évaluation influents se trouve Wenhu Chen, professeur assistant à l'Université de Waterloo et fondateur du TIGERLab. Face aux limites des anciens benchmarks comme MMLU, où les modèles de pointe atteignaient des scores quasi parfaits, Chen a dirigé le développement de MMLU-Pro. Cette nouvelle base de données, plus difficile et stable avec des questions à choix multiples élargis, permet de mieux distinguer les véritables capacités de raisonnement des modèles. Dans le domaine multimodal, les benchmarks MMMU et MMMU-Pro, également créés par son équipe, évaluent rigoureusement la capacité des modèles à combiner informations visuelles complexes et connaissances disciplinaires pour résoudre des problèmes avancés. Cette expertise en évaluation découle des recherches de Chen sur la compréhension d'informations complexes et le raisonnement, renforcée par son expérience chez Google DeepMind sur Gemini. Aujourd'hui au Meta Super-Intelligence Lab, il continue ses travaux sur l'évaluation et l'entraînement de modèles multimodaux. Son parcours illustre le rôle crucial, bien que moins visible, des chercheurs dans la construction des fondations méthodologiques qui guident les progrès de l'IA.

À chaque fois qu'un modèle de pointe est publié, le monde de l'IA a les yeux rivés sur quelques tableaux de classement familiers.

MMLU-Pro, MMMU, MMMU-Pro... Ces noms peuvent sembler étrangers aux utilisateurs ordinaires, mais pour les entreprises de modèles et les chercheurs, ils sont devenus quasiment des "matières standard". GPT, Claude, Gemini, Llama, Qwen, DeepSeek rendent continuellement leurs copies à ces références.

"C'est à l'épreuve qu'on juge la valeur d'un cheval" - la qualité d'un modèle dépend souvent de ces scores pour en apporter la preuve.

De nombreux graphiques de comparaison des performances lors des lancements de modèles en dépendent ; certains classements sur HuggingFace sont également établis sur ces systèmes d'évaluation. On peut même dire qu'aujourd'hui, lorsqu'on discute des capacités des modèles d'IA, l'industrie utilise déjà un langage commun défini par ces benchmarks.

Mais ce qui est intéressant, c'est que presque tout le monde se concentre sur les scores, mais rares sont ceux qui savent qui conçoit les sujets. Et derrière MMLU-Pro, MMMU et MMMU-Pro, on peut voir le même nom - Chen Wenhu.

Il est professeur assistant au département d'informatique de l'Université de Waterloo au Canada. Sur Google Scholar, ses articles ont été cités plus de 30 000 fois.

Il est également le fondateur du "TIGERLab". Le nom complet de ce laboratoire en anglais est Text and Image GEnerative Research Lab. Comme son nom contient un "Tiger" (tigre), Chen Wenhu lui a donné un nom chinois très reconnaissable - Hu Tou Bang (La Bande à la Tête de Tigre).

01

Après la panne des anciens examens

Chen Wenhu a d'abord été remarqué par plus de monde grâce à MMLU-Pro.

MMLU était auparavant l'une des références (benchmarks) les plus utilisées pour évaluer les capacités des grands modèles de langage. C'est comme un examen complet, couvrant plusieurs disciplines, utilisé pour mesurer les performances du modèle dans des tâches de compréhension des connaissances et de raisonnement.

Au début, ce test était très utile. L'écart entre les modèles pouvait être mis en évidence par les scores, et l'industrie pouvait également l'utiliser pour observer si les grands modèles de langage progressaient vraiment.

Mais un problème est rapidement apparu.

Avec l'amélioration constante des capacités des modèles, MMLU est progressivement devenu "trop facile". Les scores des modèles de pointe devenaient de plus en plus élevés, et les écarts entre eux de plus en plus réduits.

Avec la sortie de l'o3 d'OpenAI, ce problème est devenu encore plus évident. La précision de l'o3 sur MMLU approchait déjà les 100%, et d'autres modèles de pointe ont également obtenu des résultats proches de la perfection.

Cela peut sembler être une bonne nouvelle, mais pour l'évaluation, cela signifie plutôt des ennuis.

Si un examen atteint des scores presque parfaits pour tout le monde, il devient difficile de continuer à juger qui est le plus fort et en quoi. Il peut toujours prouver que le modèle possède certaines capacités, mais il ne convient plus pour mesurer les nouveaux progrès.

L'industrie de l'IA avait besoin d'un examen plus difficile et moins susceptible d'être "trompé".

En 2024, Chen Wenhu et son équipe ont lancé MMLU-Pro.

MMLU-Pro a repensé cet examen plutôt que de simplement élargir la base de questions.

Il contient 12 032 questions, couvrant 14 domaines comme les mathématiques, la physique, la chimie, le droit, l'ingénierie, la psychologie, la santé, etc. Comparé à la version originale de MMLU, il étend les choix de 4 à 10, réduisant la probabilité que le modèle devine correctement ; il inclut également plus de questions axées sur le raisonnement, et nettoie les questions relativement simples, ambigües ou ayant un pouvoir discriminant insuffisant de l'ancienne base de données.

L'effet est direct.

Les résultats du papier montrent que la précision des modèles sur MMLU-Pro a baissé de 16% à 33% par rapport à l'original MMLU. Pour un même modèle testé sous 24 styles d'invites (prompts) différents, la fluctuation des résultats est également passée d'environ 4% à 5% sur l'ancien MMLU, à environ 2%.

En d'autres termes, ce nouvel examen est non seulement plus difficile, mais aussi plus stable.

Il a permis de rouvrir l'écart entre les modèles qui semblaient tous excellents sur l'ancien examen. Il est ainsi plus facile de voir si le modèle est vraiment capable de raisonner, ou s'il est simplement plus habile à traiter les anciennes questions.

02

Des références utiles

MMLU-Pro a rapidement été adopté par l'industrie.

MMLU-Pro a ensuite été intégré à la piste "Datasets and Benchmarks" de la conférence NeurIPS 2024, et a également été intégré dans le framework d'évaluation de modèles de langage lm-evaluation-harness d'EleutherAI. Pour la communauté des modèles open source, cela signifie qu'il n'est plus seulement un ensemble de données dans un article de recherche, mais qu'il est entré dans la chaîne d'outils d'évaluation couramment utilisée.

De nombreux modèles, lors de leur publication, ont commencé à rapporter leurs scores MMLU-Pro. Certains classements sur HuggingFace l'ont également inclus dans leur système d'évaluation.

Si MMLU-Pro résout le problème de la "panne des anciens examens" dans l'évaluation des modèles de langage, alors MMMU a placé Chen Wenhu et TIGERLab au centre de l'évaluation multimodale.

Le problème des modèles multimodaux est plus complexe.

Un modèle de langage qui répond traite principalement du texte. Un modèle multimodal doit simultanément traiter des informations sous différentes formes : images, graphiques, schémas, cartes, tableaux, partitions musicales, structures chimiques, etc. Il ne s'agit pas seulement de comprendre l'énoncé, mais de vraiment comprendre le contenu de l'image, et de raisonner en combinant les informations visuelles, les informations textuelles et les connaissances disciplinaires.

Le benchmark MMMU contient 11 500 questions multimodales, provenant d'examens universitaires, de tests et de manuels, couvrant six grands domaines : arts et design, commerce, sciences, santé et médecine, sciences humaines et sociales, technologie et ingénierie, subdivisés en 30 disciplines et 183 sous-domaines.

Ces questions ne demandent pas simplement au modèle "ce qu'il y a dans l'image". Elles exigent que le modèle, comme un étudiant résolvant un problème spécialisé, combine les informations visuelles et les connaissances disciplinaires.

Lorsque MMMU a été publié, l'équipe de recherche a testé 14 modèles multimodaux open source, ainsi que des modèles propriétaires représentatifs comme GPT-4V et Gemini Ultra. Même les modèles propriétaires les plus puissants de l'époque, GPT-4V et Gemini Ultra, n'ont atteint que des précisions de 56% et 59% respectivement.

Ces chiffres montrent que les modèles multimodaux semblent progresser rapidement, mais qu'il reste encore beaucoup de chemin à parcourir pour les problèmes nécessitant une véritable compréhension spécialisée et un raisonnement.

Plus tard, l'équipe de Chen Wenhu a lancé MMMU-Pro, pour combler davantage les possibilités pour le modèle de contourner l'information visuelle. Il filtre les questions auxquelles un modèle de langage seul pourrait également répondre, étend les choix de réponses, et introduit un paramètre vision-only, où la question est intégrée dans l'image, obligeant le modèle à accomplir simultanément la lecture visuelle et la compréhension textuelle.

En bref, il empêche le modèle de "deviner la réponse en se basant uniquement sur le texte".

Ce type de travail peut sembler assez fastidieux, mais il est crucial. Parce qu'à l'avenir, les modèles multimodaux devront entrer dans des scénarios comme la santé, l'éducation, la recherche scientifique, le design, l'ingénierie, etc. Seulement décrire l'image ne suffit pas. Ils doivent pouvoir juger, raisonner, expliquer, et être capables de trouver les parties vraiment utiles dans des informations visuelles complexes.

03

La personne derrière les "examens"

Le travail ultérieur de Chen Wenhu sur MMLU-Pro et MMMU découle de sa direction de recherche de longue date.

Ses intérêts de recherche étaient déjà liés à la compréhension d'informations complexes, aux questions-réponses basées sur la connaissance et au raisonnement.

Il a obtenu sa licence à l'Université des Sciences et Technologies de Huazhong, puis a poursuivi un master à l'Université RWTH d'Aix-la-Chapelle en Allemagne, avant d'obtenir son doctorat en informatique à l'Université de Californie à Santa Barbara. Pendant son doctorat, il avait déjà commencé des recherches autour de la réponse à des questions complexes, du raisonnement sur tableaux, de la localisation de preuves de connaissances, entre autres.

Ce type de tâches a un point commun : la réponse ne se trouve souvent pas dans un seul texte.

Elle peut être cachée dans un tableau, nécessiter la combinaison d'un texte et d'une image, ou nécessiter que le modèle recherche d'abord des informations, puis les intègre, calcule et raisonne. Le modèle ne peut pas se contenter de réciter des connaissances existantes.

Les projets auxquels Chen Wenhu a participé, comme HybridQA, TabFact, Program of Thoughts, MAmmoTH, sont tous liés à cette lignée.

Cela explique également pourquoi il est sensible aux failles dans l'évaluation des modèles.

Une bonne référence (benchmark) ne consiste pas simplement à rendre les questions de plus en plus difficiles, mais à anticiper où le modèle est le plus susceptible de "réussir en devinant" ou de "sembler savoir".

Le modèle peut avoir mémorisé la base de questions, deviner les réponses en fonction des choix, ou utiliser du texte pour contourner l'information visuelle... Une bonne évaluation doit combler ces failles.

Après son doctorat, Chen Wenhu a rejoint Google Research, puis a participé de 2021 à 2025 au développement du modèle multimodal Gemini et aux travaux d'évaluation chez Google DeepMind. Cette expérience a également été importante. Une exposition de longue date au développement de modèles de pointe lui a permis de mieux comprendre comment les capacités des modèles évoluent, et de voir plus facilement les biais et angles morts potentiels dans l'évaluation.

À l'automne 2022, Chen Wenhu a rejoint la Faculté d'informatique de l'Université de Waterloo en tant que professeur assistant. La même année, il a été sélectionné comme titulaire d'une Chaire IA Canada CIFAR. Par la suite, il a fondé le "Tiger Lab" (c'est-à-dire Hu Tou Bang), poursuivant ses recherches sur les modèles de base, les capacités multimodales et les benchmarks.

Hu Tou Bang ne se contente pas de faire des benchmarks, il fait également de la recherche sur les modèles et les systèmes.

Dans le domaine vidéo, UniVideo tente d'intégrer la compréhension, la génération et l'édition de vidéos dans un même framework, permettant au modèle non seulement de générer une séquence vidéo, mais aussi de comprendre le contenu, de répondre à des instructions et d'effectuer des modifications. Vamba cible la compréhension de vidéos longues, en résolvant les problèmes de mémoire vive, de calcul et d'efficacité d'entraînement posés par des vidéos d'une heure. MoCha, en collaboration avec l'équipe d'IA générative de Meta, se concentre sur la génération d'avatars parlants virtuels, créant des vidéos de personnages de haute qualité à partir de descriptions vocales et textuelles.

Un concepteur de sujets qui ne résout jamais lui-même d'exercices ne peut pas concevoir de bons sujets. Travailler directement sur des modèles les rend, en retour, plus aptes à faire de l'évaluation.

Parce qu'une bonne évaluation vient souvent de la compréhension des limites des capacités des modèles. Il faut savoir comment les modèles sont fabriqués, connaître les problèmes qu'ils rencontrent dans des tâches réelles, pour pouvoir plus facilement concevoir des questions capables de mesurer les écarts et de révéler les problèmes.

Aujourd'hui, Chen Wenhu a rejoint le Super Intelligent Lab de Meta. Son travail continue de se concentrer sur les données de pré-entraînement multimodales et l'évaluation, au service des modèles de base de Meta.

L'industrie de l'IA ne manque pas de personnes visibles. Les projecteurs se concentrent généralement sur les entrepreneurs, les chercheurs vedettes et les responsables des grandes entreprises de modèles. Les lancements de nouveaux produits, les annonces de financement, les modèles open source et les ajustements d'équipes attirent le plus facilement l'attention extérieure, rendant ces noms plus visibles pour le grand public.

Mais aujourd'hui, la participation des talents chinois dans le domaine de l'IA va bien au-delà de ces positions les plus en vue.

Cet article provient du compte WeChat public "Lettres IA", auteur : Xiao Jinya

Criptos en tendencia

Preguntas relacionadas

QQui est l'auteur derrière les benchmarks MMLU-Pro, MMMU et MMMU-Pro, et quelle est sa position actuelle ?

AL'auteur principal derrière ces benchmarks est Chen Wenhu, un professeur assistant en informatique à l'Université de Waterloo au Canada. Il a également fondé le TIGERLab. Actuellement, il travaille au laboratoire de super intelligence chez Meta, se concentrant sur les données d'entraînement multimodal et l'évaluation pour les modèles fondamentaux de Meta.

QPourquoi le benchmark MMLU-Pro a-t-il été créé après MMLU ?

AMMLU-Pro a été créé parce que les modèles d'IA de pointe, comme l'o3 d'OpenAI, atteignaient des scores proches de 100% sur le MMLU original, rendant difficile la distinction de leurs véritables capacités. MMLU-Pro, avec ses 12 032 questions, des options étendues et des problèmes plus axés sur le raisonnement, permet de mieux évaluer et différencier les performances des modèles.

QQuel est l'objectif principal du benchmark MMMU pour les modèles multimodaux ?

AL'objectif principal de MMMU est d'évaluer la capacité des modèles multimodaux à comprendre et à raisonner en combinant des informations visuelles (comme des images, des graphiques, des tableaux) avec des connaissances textuelles et disciplinaires, simulant ainsi la résolution de problèmes complexes dans des domaines universitaires ou professionnels.

QComment le TIGERLab (ou 'Hutou Bang') contribue-t-il au-delà de la création de benchmarks ?

AAu-delà des benchmarks, le TIGERLab mène des recherches sur les modèles et systèmes d'IA. Par exemple, UniVideo travaille sur la compréhension, la génération et l'édition de vidéos, Vamba sur la compréhension de vidéos longues, et MoCha (en collaboration avec Meta) sur la génération de personnages virtuels parlants. Ces travaux pratiques informent et améliorent la conception de leurs benchmarks.

QPourquoi est-il important que les créateurs de benchmarks comme Chen Wenhu travaillent également sur le développement de modèles d'IA ?

AIl est important car le fait de développer des modèles donne une compréhension approfondie de leurs limites, de leurs mécanismes et des défis pratiques. Cette expérience permet de concevoir des benchmarks plus pertinents, capables de détecter les faiblesses réelles et d'éviter que les modèles ne 'trichent' ou ne contournent l'évaluation, assurant ainsi une mesure plus fiable et significative des capacités.

Lecturas Relacionadas

But Bin's Latest Speech: Do Not Miss Out on a Great Era

Dan Bin's Latest Speech: Don't Miss a Great Era On June 29th, Dan Bin, Chairman of Dongfang Harbor (东方港湾), delivered a keynote speech titled "Don't Miss a Great Era" at the "2026—All in the Silicon-based New Epoch" Mid-Year Strategy Summit. Addressing concerns about an AI bubble, Dan Bin argued from an industrial cycle perspective that "the risk of missing an era may be greater than worrying about short-term bubbles." He views humanity as standing at the dawn of the AI era, which could be more disruptive than the electronics, internet, and mobile internet eras. He posits that the AI wave is unlikely to end in just three or four years. Using the internet era's decade-long rhythm as a reference point—with ChatGPT's late 2022 launch as the starting line—a key risk assessment window may only arrive around 2033. Dan Bin emphasized that technological progress is the primary driver of long-term capital market growth, while factors like trade wars or interest rate hikes are secondary. Expanding to a civilizational scale, Dan Bin presented a thought experiment on silicon-based life potentially supplementing or succeeding carbon-based life as a direction for extending Earth's civilization, especially over cosmic timescales spanning billions of years. On geopolitics, he noted that AI is already rewriting warfare rules, as seen in conflicts like Ukraine, and that neither the U.S. nor China can afford to lose the AI race, with each leveraging different strengths. Reflecting on investment lessons, Dan Bin cited Warren Buffett's and Charlie Munger's admitted "regrets" about missing major tech opportunities like Microsoft, underscoring the need for continuous cognitive evolution. His firm, Dongfang Harbor, is deepening its research in foundational AI areas like computing power and storage. Dan Bin concluded by urging investors to maintain a long-term perspective, embrace the epochal shift, and rationally hold onto the opportunities presented by this transformative age. He closed with a poetic reminder: "The tide never turns back... Born in this time is a great fortune in itself. Don't let hesitation trap your steps, nor short-sightedness waste the years—do not miss this magnificent era that belongs to us."

marsbitHace 2 hora(s)

But Bin's Latest Speech: Do Not Miss Out on a Great Era

marsbitHace 2 hora(s)

Latest Speech by Dan Bin: Do Not Miss Out on a Great Era

Dan Bin, Chairman of Dongfang Harbor, delivered a keynote speech titled "Don't Miss a Great Era" at the Glonghui "2026—All in Silicon-Based New纪元" Mid-Year Strategy Summit on June 29th. Addressing concerns about an AI bubble, he argued from an industrial cycle perspective that the risk of missing an entire epoch far outweighs the risk of short-term泡沫. He positioned humanity at the dawn of the AI era, which he views as potentially more disruptive than the electronic, internet, and mobile internet eras. Dan Bin suggested the AI wave is unlikely to end in just three to four years. Drawing a parallel to the internet era's decade-long cycle starting from the 1994 Netscape IPO, he indicated that with ChatGPT's late-2022 launch as a marker, a key risk assessment point might not arrive until around 2033. He emphasized that technological progress is the primary driver of long-term capital market growth, with factors like trade wars and interest rates being secondary. Expanding his perspective to a civilizational scale, Dan Bin presented a thought experiment on silicon-based life potentially replacing carbon-based life as a direction for延续 Earth's civilization, especially given cosmic timescales and interstellar travel challenges. He noted AI's必然 weaponization, citing examples from the Russia-Ukraine war, and stated that neither the U.S. nor China can afford to lose the AI race, with each having distinct competitive advantages. Reflecting on investment lessons, he mentioned Warren Buffett's recent moves into tech like Google and查理·芒格's expressed regret about missing Microsoft's massive growth, underscoring the need for continuous认知迭代. Dan Bin concluded by urging investors to maintain a long-term perspective, focus on core technological trends, and rationally embrace the opportunities of this transformative era, so as not to辜负 this "great时代" defined by波澜壮阔 change.

链捕手Hace 2 hora(s)

Latest Speech by Dan Bin: Do Not Miss Out on a Great Era

链捕手Hace 2 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar EDGE

¡Bienvenido a HTX.com! Hemos hecho que comprar edgeX (EDGE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar edgeX (EDGE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu edgeX (EDGE)Después de comprar tu edgeX (EDGE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear edgeX (EDGE)Tradear fácilmente con edgeX (EDGE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

553 Vistas totalesPublicado en 2026.03.31Actualizado en 2026.06.02

Cómo comprar EDGE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de EDGE (EDGE).

活动图片