À chaque fois qu'un modèle de pointe est publié, le monde de l'IA a les yeux rivés sur quelques tableaux de classement familiers.
MMLU-Pro, MMMU, MMMU-Pro... Ces noms peuvent sembler étrangers aux utilisateurs ordinaires, mais pour les entreprises de modèles et les chercheurs, ils sont devenus quasiment des "matières standard". GPT, Claude, Gemini, Llama, Qwen, DeepSeek rendent continuellement leurs copies à ces références.
"C'est à l'épreuve qu'on juge la valeur d'un cheval" - la qualité d'un modèle dépend souvent de ces scores pour en apporter la preuve.
De nombreux graphiques de comparaison des performances lors des lancements de modèles en dépendent ; certains classements sur HuggingFace sont également établis sur ces systèmes d'évaluation. On peut même dire qu'aujourd'hui, lorsqu'on discute des capacités des modèles d'IA, l'industrie utilise déjà un langage commun défini par ces benchmarks.
Mais ce qui est intéressant, c'est que presque tout le monde se concentre sur les scores, mais rares sont ceux qui savent qui conçoit les sujets. Et derrière MMLU-Pro, MMMU et MMMU-Pro, on peut voir le même nom - Chen Wenhu.
Il est professeur assistant au département d'informatique de l'Université de Waterloo au Canada. Sur Google Scholar, ses articles ont été cités plus de 30 000 fois.
Il est également le fondateur du "TIGERLab". Le nom complet de ce laboratoire en anglais est Text and Image GEnerative Research Lab. Comme son nom contient un "Tiger" (tigre), Chen Wenhu lui a donné un nom chinois très reconnaissable - Hu Tou Bang (La Bande à la Tête de Tigre).
01
Après la panne des anciens examens
Chen Wenhu a d'abord été remarqué par plus de monde grâce à MMLU-Pro.
MMLU était auparavant l'une des références (benchmarks) les plus utilisées pour évaluer les capacités des grands modèles de langage. C'est comme un examen complet, couvrant plusieurs disciplines, utilisé pour mesurer les performances du modèle dans des tâches de compréhension des connaissances et de raisonnement.
Au début, ce test était très utile. L'écart entre les modèles pouvait être mis en évidence par les scores, et l'industrie pouvait également l'utiliser pour observer si les grands modèles de langage progressaient vraiment.
Mais un problème est rapidement apparu.
Avec l'amélioration constante des capacités des modèles, MMLU est progressivement devenu "trop facile". Les scores des modèles de pointe devenaient de plus en plus élevés, et les écarts entre eux de plus en plus réduits.
Avec la sortie de l'o3 d'OpenAI, ce problème est devenu encore plus évident. La précision de l'o3 sur MMLU approchait déjà les 100%, et d'autres modèles de pointe ont également obtenu des résultats proches de la perfection.
Cela peut sembler être une bonne nouvelle, mais pour l'évaluation, cela signifie plutôt des ennuis.
Si un examen atteint des scores presque parfaits pour tout le monde, il devient difficile de continuer à juger qui est le plus fort et en quoi. Il peut toujours prouver que le modèle possède certaines capacités, mais il ne convient plus pour mesurer les nouveaux progrès.
L'industrie de l'IA avait besoin d'un examen plus difficile et moins susceptible d'être "trompé".
En 2024, Chen Wenhu et son équipe ont lancé MMLU-Pro.
MMLU-Pro a repensé cet examen plutôt que de simplement élargir la base de questions.
Il contient 12 032 questions, couvrant 14 domaines comme les mathématiques, la physique, la chimie, le droit, l'ingénierie, la psychologie, la santé, etc. Comparé à la version originale de MMLU, il étend les choix de 4 à 10, réduisant la probabilité que le modèle devine correctement ; il inclut également plus de questions axées sur le raisonnement, et nettoie les questions relativement simples, ambigües ou ayant un pouvoir discriminant insuffisant de l'ancienne base de données.
L'effet est direct.
Les résultats du papier montrent que la précision des modèles sur MMLU-Pro a baissé de 16% à 33% par rapport à l'original MMLU. Pour un même modèle testé sous 24 styles d'invites (prompts) différents, la fluctuation des résultats est également passée d'environ 4% à 5% sur l'ancien MMLU, à environ 2%.
En d'autres termes, ce nouvel examen est non seulement plus difficile, mais aussi plus stable.
Il a permis de rouvrir l'écart entre les modèles qui semblaient tous excellents sur l'ancien examen. Il est ainsi plus facile de voir si le modèle est vraiment capable de raisonner, ou s'il est simplement plus habile à traiter les anciennes questions.
02
Des références utiles
MMLU-Pro a rapidement été adopté par l'industrie.
MMLU-Pro a ensuite été intégré à la piste "Datasets and Benchmarks" de la conférence NeurIPS 2024, et a également été intégré dans le framework d'évaluation de modèles de langage lm-evaluation-harness d'EleutherAI. Pour la communauté des modèles open source, cela signifie qu'il n'est plus seulement un ensemble de données dans un article de recherche, mais qu'il est entré dans la chaîne d'outils d'évaluation couramment utilisée.
De nombreux modèles, lors de leur publication, ont commencé à rapporter leurs scores MMLU-Pro. Certains classements sur HuggingFace l'ont également inclus dans leur système d'évaluation.
Si MMLU-Pro résout le problème de la "panne des anciens examens" dans l'évaluation des modèles de langage, alors MMMU a placé Chen Wenhu et TIGERLab au centre de l'évaluation multimodale.
Le problème des modèles multimodaux est plus complexe.
Un modèle de langage qui répond traite principalement du texte. Un modèle multimodal doit simultanément traiter des informations sous différentes formes : images, graphiques, schémas, cartes, tableaux, partitions musicales, structures chimiques, etc. Il ne s'agit pas seulement de comprendre l'énoncé, mais de vraiment comprendre le contenu de l'image, et de raisonner en combinant les informations visuelles, les informations textuelles et les connaissances disciplinaires.
Le benchmark MMMU contient 11 500 questions multimodales, provenant d'examens universitaires, de tests et de manuels, couvrant six grands domaines : arts et design, commerce, sciences, santé et médecine, sciences humaines et sociales, technologie et ingénierie, subdivisés en 30 disciplines et 183 sous-domaines.
Ces questions ne demandent pas simplement au modèle "ce qu'il y a dans l'image". Elles exigent que le modèle, comme un étudiant résolvant un problème spécialisé, combine les informations visuelles et les connaissances disciplinaires.
Lorsque MMMU a été publié, l'équipe de recherche a testé 14 modèles multimodaux open source, ainsi que des modèles propriétaires représentatifs comme GPT-4V et Gemini Ultra. Même les modèles propriétaires les plus puissants de l'époque, GPT-4V et Gemini Ultra, n'ont atteint que des précisions de 56% et 59% respectivement.
Ces chiffres montrent que les modèles multimodaux semblent progresser rapidement, mais qu'il reste encore beaucoup de chemin à parcourir pour les problèmes nécessitant une véritable compréhension spécialisée et un raisonnement.
Plus tard, l'équipe de Chen Wenhu a lancé MMMU-Pro, pour combler davantage les possibilités pour le modèle de contourner l'information visuelle. Il filtre les questions auxquelles un modèle de langage seul pourrait également répondre, étend les choix de réponses, et introduit un paramètre vision-only, où la question est intégrée dans l'image, obligeant le modèle à accomplir simultanément la lecture visuelle et la compréhension textuelle.
En bref, il empêche le modèle de "deviner la réponse en se basant uniquement sur le texte".
Ce type de travail peut sembler assez fastidieux, mais il est crucial. Parce qu'à l'avenir, les modèles multimodaux devront entrer dans des scénarios comme la santé, l'éducation, la recherche scientifique, le design, l'ingénierie, etc. Seulement décrire l'image ne suffit pas. Ils doivent pouvoir juger, raisonner, expliquer, et être capables de trouver les parties vraiment utiles dans des informations visuelles complexes.
03
La personne derrière les "examens"
Le travail ultérieur de Chen Wenhu sur MMLU-Pro et MMMU découle de sa direction de recherche de longue date.
Ses intérêts de recherche étaient déjà liés à la compréhension d'informations complexes, aux questions-réponses basées sur la connaissance et au raisonnement.
Il a obtenu sa licence à l'Université des Sciences et Technologies de Huazhong, puis a poursuivi un master à l'Université RWTH d'Aix-la-Chapelle en Allemagne, avant d'obtenir son doctorat en informatique à l'Université de Californie à Santa Barbara. Pendant son doctorat, il avait déjà commencé des recherches autour de la réponse à des questions complexes, du raisonnement sur tableaux, de la localisation de preuves de connaissances, entre autres.
Ce type de tâches a un point commun : la réponse ne se trouve souvent pas dans un seul texte.
Elle peut être cachée dans un tableau, nécessiter la combinaison d'un texte et d'une image, ou nécessiter que le modèle recherche d'abord des informations, puis les intègre, calcule et raisonne. Le modèle ne peut pas se contenter de réciter des connaissances existantes.
Les projets auxquels Chen Wenhu a participé, comme HybridQA, TabFact, Program of Thoughts, MAmmoTH, sont tous liés à cette lignée.
Cela explique également pourquoi il est sensible aux failles dans l'évaluation des modèles.
Une bonne référence (benchmark) ne consiste pas simplement à rendre les questions de plus en plus difficiles, mais à anticiper où le modèle est le plus susceptible de "réussir en devinant" ou de "sembler savoir".
Le modèle peut avoir mémorisé la base de questions, deviner les réponses en fonction des choix, ou utiliser du texte pour contourner l'information visuelle... Une bonne évaluation doit combler ces failles.
Après son doctorat, Chen Wenhu a rejoint Google Research, puis a participé de 2021 à 2025 au développement du modèle multimodal Gemini et aux travaux d'évaluation chez Google DeepMind. Cette expérience a également été importante. Une exposition de longue date au développement de modèles de pointe lui a permis de mieux comprendre comment les capacités des modèles évoluent, et de voir plus facilement les biais et angles morts potentiels dans l'évaluation.
À l'automne 2022, Chen Wenhu a rejoint la Faculté d'informatique de l'Université de Waterloo en tant que professeur assistant. La même année, il a été sélectionné comme titulaire d'une Chaire IA Canada CIFAR. Par la suite, il a fondé le "Tiger Lab" (c'est-à-dire Hu Tou Bang), poursuivant ses recherches sur les modèles de base, les capacités multimodales et les benchmarks.
Hu Tou Bang ne se contente pas de faire des benchmarks, il fait également de la recherche sur les modèles et les systèmes.
Dans le domaine vidéo, UniVideo tente d'intégrer la compréhension, la génération et l'édition de vidéos dans un même framework, permettant au modèle non seulement de générer une séquence vidéo, mais aussi de comprendre le contenu, de répondre à des instructions et d'effectuer des modifications. Vamba cible la compréhension de vidéos longues, en résolvant les problèmes de mémoire vive, de calcul et d'efficacité d'entraînement posés par des vidéos d'une heure. MoCha, en collaboration avec l'équipe d'IA générative de Meta, se concentre sur la génération d'avatars parlants virtuels, créant des vidéos de personnages de haute qualité à partir de descriptions vocales et textuelles.
Un concepteur de sujets qui ne résout jamais lui-même d'exercices ne peut pas concevoir de bons sujets. Travailler directement sur des modèles les rend, en retour, plus aptes à faire de l'évaluation.
Parce qu'une bonne évaluation vient souvent de la compréhension des limites des capacités des modèles. Il faut savoir comment les modèles sont fabriqués, connaître les problèmes qu'ils rencontrent dans des tâches réelles, pour pouvoir plus facilement concevoir des questions capables de mesurer les écarts et de révéler les problèmes.
Aujourd'hui, Chen Wenhu a rejoint le Super Intelligent Lab de Meta. Son travail continue de se concentrer sur les données de pré-entraînement multimodales et l'évaluation, au service des modèles de base de Meta.
L'industrie de l'IA ne manque pas de personnes visibles. Les projecteurs se concentrent généralement sur les entrepreneurs, les chercheurs vedettes et les responsables des grandes entreprises de modèles. Les lancements de nouveaux produits, les annonces de financement, les modèles open source et les ajustements d'équipes attirent le plus facilement l'attention extérieure, rendant ces noms plus visibles pour le grand public.
Mais aujourd'hui, la participation des talents chinois dans le domaine de l'IA va bien au-delà de ces positions les plus en vue.
Cet article provient du compte WeChat public "Lettres IA", auteur : Xiao Jinya













