Derrière les bulletins de notes de l'IA, se cache un concepteur de "sujets d'examen" chinois

marsbitDipublikasikan tanggal 2026-06-20Terakhir diperbarui pada 2026-06-20

Abstrak

Le domaine de l'IA suit de près les scores des grands modèles sur des benchmarks comme MMLU-Pro et MMMU, devenus des références pour évaluer les capacités de raisonnement et de compréhension multimodale. Derrière ces outils d'évaluation influents se trouve Wenhu Chen, professeur assistant à l'Université de Waterloo et fondateur du TIGERLab. Face aux limites des anciens benchmarks comme MMLU, où les modèles de pointe atteignaient des scores quasi parfaits, Chen a dirigé le développement de MMLU-Pro. Cette nouvelle base de données, plus difficile et stable avec des questions à choix multiples élargis, permet de mieux distinguer les véritables capacités de raisonnement des modèles. Dans le domaine multimodal, les benchmarks MMMU et MMMU-Pro, également créés par son équipe, évaluent rigoureusement la capacité des modèles à combiner informations visuelles complexes et connaissances disciplinaires pour résoudre des problèmes avancés. Cette expertise en évaluation découle des recherches de Chen sur la compréhension d'informations complexes et le raisonnement, renforcée par son expérience chez Google DeepMind sur Gemini. Aujourd'hui au Meta Super-Intelligence Lab, il continue ses travaux sur l'évaluation et l'entraînement de modèles multimodaux. Son parcours illustre le rôle crucial, bien que moins visible, des chercheurs dans la construction des fondations méthodologiques qui guident les progrès de l'IA.

À chaque fois qu'un modèle de pointe est publié, le monde de l'IA a les yeux rivés sur quelques tableaux de classement familiers.

MMLU-Pro, MMMU, MMMU-Pro... Ces noms peuvent sembler étrangers aux utilisateurs ordinaires, mais pour les entreprises de modèles et les chercheurs, ils sont devenus quasiment des "matières standard". GPT, Claude, Gemini, Llama, Qwen, DeepSeek rendent continuellement leurs copies à ces références.

"C'est à l'épreuve qu'on juge la valeur d'un cheval" - la qualité d'un modèle dépend souvent de ces scores pour en apporter la preuve.

De nombreux graphiques de comparaison des performances lors des lancements de modèles en dépendent ; certains classements sur HuggingFace sont également établis sur ces systèmes d'évaluation. On peut même dire qu'aujourd'hui, lorsqu'on discute des capacités des modèles d'IA, l'industrie utilise déjà un langage commun défini par ces benchmarks.

Mais ce qui est intéressant, c'est que presque tout le monde se concentre sur les scores, mais rares sont ceux qui savent qui conçoit les sujets. Et derrière MMLU-Pro, MMMU et MMMU-Pro, on peut voir le même nom - Chen Wenhu.

Il est professeur assistant au département d'informatique de l'Université de Waterloo au Canada. Sur Google Scholar, ses articles ont été cités plus de 30 000 fois.

Il est également le fondateur du "TIGERLab". Le nom complet de ce laboratoire en anglais est Text and Image GEnerative Research Lab. Comme son nom contient un "Tiger" (tigre), Chen Wenhu lui a donné un nom chinois très reconnaissable - Hu Tou Bang (La Bande à la Tête de Tigre).

01

Après la panne des anciens examens

Chen Wenhu a d'abord été remarqué par plus de monde grâce à MMLU-Pro.

MMLU était auparavant l'une des références (benchmarks) les plus utilisées pour évaluer les capacités des grands modèles de langage. C'est comme un examen complet, couvrant plusieurs disciplines, utilisé pour mesurer les performances du modèle dans des tâches de compréhension des connaissances et de raisonnement.

Au début, ce test était très utile. L'écart entre les modèles pouvait être mis en évidence par les scores, et l'industrie pouvait également l'utiliser pour observer si les grands modèles de langage progressaient vraiment.

Mais un problème est rapidement apparu.

Avec l'amélioration constante des capacités des modèles, MMLU est progressivement devenu "trop facile". Les scores des modèles de pointe devenaient de plus en plus élevés, et les écarts entre eux de plus en plus réduits.

Avec la sortie de l'o3 d'OpenAI, ce problème est devenu encore plus évident. La précision de l'o3 sur MMLU approchait déjà les 100%, et d'autres modèles de pointe ont également obtenu des résultats proches de la perfection.

Cela peut sembler être une bonne nouvelle, mais pour l'évaluation, cela signifie plutôt des ennuis.

Si un examen atteint des scores presque parfaits pour tout le monde, il devient difficile de continuer à juger qui est le plus fort et en quoi. Il peut toujours prouver que le modèle possède certaines capacités, mais il ne convient plus pour mesurer les nouveaux progrès.

L'industrie de l'IA avait besoin d'un examen plus difficile et moins susceptible d'être "trompé".

En 2024, Chen Wenhu et son équipe ont lancé MMLU-Pro.

MMLU-Pro a repensé cet examen plutôt que de simplement élargir la base de questions.

Il contient 12 032 questions, couvrant 14 domaines comme les mathématiques, la physique, la chimie, le droit, l'ingénierie, la psychologie, la santé, etc. Comparé à la version originale de MMLU, il étend les choix de 4 à 10, réduisant la probabilité que le modèle devine correctement ; il inclut également plus de questions axées sur le raisonnement, et nettoie les questions relativement simples, ambigües ou ayant un pouvoir discriminant insuffisant de l'ancienne base de données.

L'effet est direct.

Les résultats du papier montrent que la précision des modèles sur MMLU-Pro a baissé de 16% à 33% par rapport à l'original MMLU. Pour un même modèle testé sous 24 styles d'invites (prompts) différents, la fluctuation des résultats est également passée d'environ 4% à 5% sur l'ancien MMLU, à environ 2%.

En d'autres termes, ce nouvel examen est non seulement plus difficile, mais aussi plus stable.

Il a permis de rouvrir l'écart entre les modèles qui semblaient tous excellents sur l'ancien examen. Il est ainsi plus facile de voir si le modèle est vraiment capable de raisonner, ou s'il est simplement plus habile à traiter les anciennes questions.

02

Des références utiles

MMLU-Pro a rapidement été adopté par l'industrie.

MMLU-Pro a ensuite été intégré à la piste "Datasets and Benchmarks" de la conférence NeurIPS 2024, et a également été intégré dans le framework d'évaluation de modèles de langage lm-evaluation-harness d'EleutherAI. Pour la communauté des modèles open source, cela signifie qu'il n'est plus seulement un ensemble de données dans un article de recherche, mais qu'il est entré dans la chaîne d'outils d'évaluation couramment utilisée.

De nombreux modèles, lors de leur publication, ont commencé à rapporter leurs scores MMLU-Pro. Certains classements sur HuggingFace l'ont également inclus dans leur système d'évaluation.

Si MMLU-Pro résout le problème de la "panne des anciens examens" dans l'évaluation des modèles de langage, alors MMMU a placé Chen Wenhu et TIGERLab au centre de l'évaluation multimodale.

Le problème des modèles multimodaux est plus complexe.

Un modèle de langage qui répond traite principalement du texte. Un modèle multimodal doit simultanément traiter des informations sous différentes formes : images, graphiques, schémas, cartes, tableaux, partitions musicales, structures chimiques, etc. Il ne s'agit pas seulement de comprendre l'énoncé, mais de vraiment comprendre le contenu de l'image, et de raisonner en combinant les informations visuelles, les informations textuelles et les connaissances disciplinaires.

Le benchmark MMMU contient 11 500 questions multimodales, provenant d'examens universitaires, de tests et de manuels, couvrant six grands domaines : arts et design, commerce, sciences, santé et médecine, sciences humaines et sociales, technologie et ingénierie, subdivisés en 30 disciplines et 183 sous-domaines.

Ces questions ne demandent pas simplement au modèle "ce qu'il y a dans l'image". Elles exigent que le modèle, comme un étudiant résolvant un problème spécialisé, combine les informations visuelles et les connaissances disciplinaires.

Lorsque MMMU a été publié, l'équipe de recherche a testé 14 modèles multimodaux open source, ainsi que des modèles propriétaires représentatifs comme GPT-4V et Gemini Ultra. Même les modèles propriétaires les plus puissants de l'époque, GPT-4V et Gemini Ultra, n'ont atteint que des précisions de 56% et 59% respectivement.

Ces chiffres montrent que les modèles multimodaux semblent progresser rapidement, mais qu'il reste encore beaucoup de chemin à parcourir pour les problèmes nécessitant une véritable compréhension spécialisée et un raisonnement.

Plus tard, l'équipe de Chen Wenhu a lancé MMMU-Pro, pour combler davantage les possibilités pour le modèle de contourner l'information visuelle. Il filtre les questions auxquelles un modèle de langage seul pourrait également répondre, étend les choix de réponses, et introduit un paramètre vision-only, où la question est intégrée dans l'image, obligeant le modèle à accomplir simultanément la lecture visuelle et la compréhension textuelle.

En bref, il empêche le modèle de "deviner la réponse en se basant uniquement sur le texte".

Ce type de travail peut sembler assez fastidieux, mais il est crucial. Parce qu'à l'avenir, les modèles multimodaux devront entrer dans des scénarios comme la santé, l'éducation, la recherche scientifique, le design, l'ingénierie, etc. Seulement décrire l'image ne suffit pas. Ils doivent pouvoir juger, raisonner, expliquer, et être capables de trouver les parties vraiment utiles dans des informations visuelles complexes.

03

La personne derrière les "examens"

Le travail ultérieur de Chen Wenhu sur MMLU-Pro et MMMU découle de sa direction de recherche de longue date.

Ses intérêts de recherche étaient déjà liés à la compréhension d'informations complexes, aux questions-réponses basées sur la connaissance et au raisonnement.

Il a obtenu sa licence à l'Université des Sciences et Technologies de Huazhong, puis a poursuivi un master à l'Université RWTH d'Aix-la-Chapelle en Allemagne, avant d'obtenir son doctorat en informatique à l'Université de Californie à Santa Barbara. Pendant son doctorat, il avait déjà commencé des recherches autour de la réponse à des questions complexes, du raisonnement sur tableaux, de la localisation de preuves de connaissances, entre autres.

Ce type de tâches a un point commun : la réponse ne se trouve souvent pas dans un seul texte.

Elle peut être cachée dans un tableau, nécessiter la combinaison d'un texte et d'une image, ou nécessiter que le modèle recherche d'abord des informations, puis les intègre, calcule et raisonne. Le modèle ne peut pas se contenter de réciter des connaissances existantes.

Les projets auxquels Chen Wenhu a participé, comme HybridQA, TabFact, Program of Thoughts, MAmmoTH, sont tous liés à cette lignée.

Cela explique également pourquoi il est sensible aux failles dans l'évaluation des modèles.

Une bonne référence (benchmark) ne consiste pas simplement à rendre les questions de plus en plus difficiles, mais à anticiper où le modèle est le plus susceptible de "réussir en devinant" ou de "sembler savoir".

Le modèle peut avoir mémorisé la base de questions, deviner les réponses en fonction des choix, ou utiliser du texte pour contourner l'information visuelle... Une bonne évaluation doit combler ces failles.

Après son doctorat, Chen Wenhu a rejoint Google Research, puis a participé de 2021 à 2025 au développement du modèle multimodal Gemini et aux travaux d'évaluation chez Google DeepMind. Cette expérience a également été importante. Une exposition de longue date au développement de modèles de pointe lui a permis de mieux comprendre comment les capacités des modèles évoluent, et de voir plus facilement les biais et angles morts potentiels dans l'évaluation.

À l'automne 2022, Chen Wenhu a rejoint la Faculté d'informatique de l'Université de Waterloo en tant que professeur assistant. La même année, il a été sélectionné comme titulaire d'une Chaire IA Canada CIFAR. Par la suite, il a fondé le "Tiger Lab" (c'est-à-dire Hu Tou Bang), poursuivant ses recherches sur les modèles de base, les capacités multimodales et les benchmarks.

Hu Tou Bang ne se contente pas de faire des benchmarks, il fait également de la recherche sur les modèles et les systèmes.

Dans le domaine vidéo, UniVideo tente d'intégrer la compréhension, la génération et l'édition de vidéos dans un même framework, permettant au modèle non seulement de générer une séquence vidéo, mais aussi de comprendre le contenu, de répondre à des instructions et d'effectuer des modifications. Vamba cible la compréhension de vidéos longues, en résolvant les problèmes de mémoire vive, de calcul et d'efficacité d'entraînement posés par des vidéos d'une heure. MoCha, en collaboration avec l'équipe d'IA générative de Meta, se concentre sur la génération d'avatars parlants virtuels, créant des vidéos de personnages de haute qualité à partir de descriptions vocales et textuelles.

Un concepteur de sujets qui ne résout jamais lui-même d'exercices ne peut pas concevoir de bons sujets. Travailler directement sur des modèles les rend, en retour, plus aptes à faire de l'évaluation.

Parce qu'une bonne évaluation vient souvent de la compréhension des limites des capacités des modèles. Il faut savoir comment les modèles sont fabriqués, connaître les problèmes qu'ils rencontrent dans des tâches réelles, pour pouvoir plus facilement concevoir des questions capables de mesurer les écarts et de révéler les problèmes.

Aujourd'hui, Chen Wenhu a rejoint le Super Intelligent Lab de Meta. Son travail continue de se concentrer sur les données de pré-entraînement multimodales et l'évaluation, au service des modèles de base de Meta.

L'industrie de l'IA ne manque pas de personnes visibles. Les projecteurs se concentrent généralement sur les entrepreneurs, les chercheurs vedettes et les responsables des grandes entreprises de modèles. Les lancements de nouveaux produits, les annonces de financement, les modèles open source et les ajustements d'équipes attirent le plus facilement l'attention extérieure, rendant ces noms plus visibles pour le grand public.

Mais aujourd'hui, la participation des talents chinois dans le domaine de l'IA va bien au-delà de ces positions les plus en vue.

Cet article provient du compte WeChat public "Lettres IA", auteur : Xiao Jinya

Kripto yang Sedang Tren

Pertanyaan Terkait

QQui est l'auteur derrière les benchmarks MMLU-Pro, MMMU et MMMU-Pro, et quelle est sa position actuelle ?

AL'auteur principal derrière ces benchmarks est Chen Wenhu, un professeur assistant en informatique à l'Université de Waterloo au Canada. Il a également fondé le TIGERLab. Actuellement, il travaille au laboratoire de super intelligence chez Meta, se concentrant sur les données d'entraînement multimodal et l'évaluation pour les modèles fondamentaux de Meta.

QPourquoi le benchmark MMLU-Pro a-t-il été créé après MMLU ?

AMMLU-Pro a été créé parce que les modèles d'IA de pointe, comme l'o3 d'OpenAI, atteignaient des scores proches de 100% sur le MMLU original, rendant difficile la distinction de leurs véritables capacités. MMLU-Pro, avec ses 12 032 questions, des options étendues et des problèmes plus axés sur le raisonnement, permet de mieux évaluer et différencier les performances des modèles.

QQuel est l'objectif principal du benchmark MMMU pour les modèles multimodaux ?

AL'objectif principal de MMMU est d'évaluer la capacité des modèles multimodaux à comprendre et à raisonner en combinant des informations visuelles (comme des images, des graphiques, des tableaux) avec des connaissances textuelles et disciplinaires, simulant ainsi la résolution de problèmes complexes dans des domaines universitaires ou professionnels.

QComment le TIGERLab (ou 'Hutou Bang') contribue-t-il au-delà de la création de benchmarks ?

AAu-delà des benchmarks, le TIGERLab mène des recherches sur les modèles et systèmes d'IA. Par exemple, UniVideo travaille sur la compréhension, la génération et l'édition de vidéos, Vamba sur la compréhension de vidéos longues, et MoCha (en collaboration avec Meta) sur la génération de personnages virtuels parlants. Ces travaux pratiques informent et améliorent la conception de leurs benchmarks.

QPourquoi est-il important que les créateurs de benchmarks comme Chen Wenhu travaillent également sur le développement de modèles d'IA ?

AIl est important car le fait de développer des modèles donne une compréhension approfondie de leurs limites, de leurs mécanismes et des défis pratiques. Cette expérience permet de concevoir des benchmarks plus pertinents, capables de détecter les faiblesses réelles et d'éviter que les modèles ne 'trichent' ou ne contournent l'évaluation, assurant ainsi une mesure plus fiable et significative des capacités.

Bacaan Terkait

Pidato Terbaru Dan Bin: Jangan Lewatkan Sebuah Era yang Hebat

**Intisari Pidato Dan Bin: Jangan Lewatkan Era Hebat (Generasi AI)** Pada 29 Juni, Dan Bin, Chairman Dongfang Harbor, menyampaikan pidato bertajuk "Jangan Lewatkan Era Hebat" di forum strategis Gelonghui. **Inti Argumen:** Daripada mengkhawatirkan gelembung jangka pendek di pasar AI, risiko terbesar adalah justru **kehilangan keseluruhan era teknologi ini.** AI dipandang sebagai gelombang disruptif yang lebih dahsyat daripada era elektronik, internet, dan mobile internet. **Perspektif Utama:** 1. **Siklus Industri Panjang:** Kemajuan teknologi, bukan suku bunga atau faktor makro jangka pendek, adalah pendorong utama pertumbuhan pasar. Era AI diperkirakan akan memiliki siklus panjang, berpotensi mengikuti ritme era internet (sekitar 10 tahun). Titik kritis risiko dapat muncul sekitar tahun 2033 (dihitung sejak peluncuran ChatGPT akhir 2022), bukan hanya dalam 3-4 tahun. 2. **Visi Peradaban "Kehidupan Silikon":** Dari sudut pandang peradaban jangka panjang, kecerdasan berbasis silikon (AI) memiliki kemungkinan besar untuk menggantikan atau menjadi tenaga produktif dominan dibandingkan kehidupan berbasis karbon (manusia), terutama untuk kelangsungan peradaban di masa depan yang sangat jauh. 3. **Persaingan Global & Aturan Baru:** Kompetisi AI antara AS dan Tiongkok dianggap sangat krusial sehingga tidak ada pihak yang boleh kalah. AI juga mengubah aturan perang, seperti terlihat dalam konflik terkini. 4. **Pelajaran dari Sejarah Investasi:** Dan Bin mengutip "penyesalan" figur seperti Charlie Munger yang melewatkan peluang besar di perusahaan teknologi (misalnya Microsoft) sebagai pengingat akan pentingnya memperluas batas kognitif dalam berinvestasi. **Kesimpulan & Seruan:** Investasi harus fokus pada penyebab utama (teknologi) dan menghormati inovasi serta common sense pasar. Di tengah fluktuasi jangka pendek, penting untuk menjaga perspektif jangka panjang. Kita hidup di era transformatif yang istimewa. Jangan biarkan keraguan dan pandangan sempit membuat kita melewatkan era besar yang penuh kemungkinan ini. "Gelombang tidak pernah mengalir mundur. Roda zaman bergerak maju tanpa suara... Jangan lewatkan era agung yang penuh gejolak dan milik kita ini."

marsbit1j yang lalu

Pidato Terbaru Dan Bin: Jangan Lewatkan Sebuah Era yang Hebat

marsbit1j yang lalu

Pidato Terbaru Dan Bin: Jangan Sia-siakan Era yang Hebat Ini

Dalam pidato bertajuk "Jangan Lewatkan Era yang Hebat" pada Konferensi Strategi "2026 – All in Era Silikon Baru" Glonghui, ketua Dongfang Harbor, Dan Bin, menekankan pentingnya menyikapi era kecerdasan buatan (AI) dari perspektif siklus industri jangka panjang. Ia berpendapat bahwa risiko kehilangan peluang di era AI jauh lebih besar daripada kekhawatiran atas gelembung jangka pendek. Menurut Dan Bin, kemajuan teknologi, bukan suku bunga atau kebijakan makro, adalah pendorong utama pertumbuhan pasar modal jangka panjang. Era AI, yang dimulai dengan peluncuran ChatGPT akhir 2022, dinilainya lebih mengganggu dan transformatif dibandingkan era elektronik, internet, atau ponsel. Ia memprediksi siklus industri AI kemungkinan akan berlangsung sekitar sepuluh tahun, dengan titik risiko potensial sekitar tahun 2033. Dari sudut pandang peradaban, Dan Bin menyatakan bahwa kehidupan berbasis silikon (AI/robot) pada akhirnya akan menggantikan atau mendominasi kehidupan berbasis karbon (manusia) sebagai kekuatan produktif utama, terutama untuk kelangsungan peradaban dalam skala waktu kosmik yang sangat panjang. Ia juga menyingkat persaingan AI antara AS dan Tiongkok, menyatakan kedua negara tidak akan mengalah karena implikasi strategisnya, termasuk dalam peperangan. Sambil merefleksikan "penyesalan" Warren Buffett dan Charlie Munger yang melewatkan saham teknologi seperti Microsoft, Dan Bin menekankan perlunya investor memperluas batas kognitif dan berfokus pada penyebab utama. Pidato ditutup dengan seruan untuk tetap tenang, menjaga perspektif luas, dan merangkul peluang yang ditawarkan era transformatif ini, karena melewatkannya akan menjadi kerugian besar.

链捕手2j yang lalu

Pidato Terbaru Dan Bin: Jangan Sia-siakan Era yang Hebat Ini

链捕手2j yang lalu

Trading

Spot

Artikel Populer

Cara Membeli EDGE

Selamat datang di HTX.com! Kami telah membuat pembelian edgeX (EDGE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli edgeX (EDGE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan edgeX (EDGE) AndaSetelah melakukan pembelian, simpan edgeX (EDGE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading edgeX (EDGE)Lakukan trading edgeX (EDGE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

397 Total TayanganDipublikasikan pada 2026.03.31Diperbarui pada 2026.06.02

Cara Membeli EDGE

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga EDGE (EDGE) disajikan di bawah ini.

活动图片