Di Balik 'Raport' AI, Tersembunyi Seorang 'Pembuat Soal' Tionghoa

marsbitPublié le 2026-06-20Dernière mise à jour le 2026-06-20

Résumé

Setiap kali model AI terdepan dirilis, industri melihat "laporan nilai" seperti MMLU-Pro, MMMU, dan MMMU-Pro. Tolok ukur ini telah menjadi bahasa umum untuk mengevaluasi kemampuan model. Di baliknya adalah nama seorang peneliti Tionghoa, Chen Wenhu, asisten profesor di University of Waterloo. Dia dan lab TIGERLab-nya menciptakan MMLU-Pro karena MMLU lama tidak lagi efektif—model canggih seperti OpenAI o3 hampir mencapai nilai sempurna. MMLU-Pro, dengan 12.032 soal lebih sulit dan 10 pilihan jawaban, berhasil membedakan kembali kemampuan model. Selain itu, mereka mengembangkan MMMU untuk mengevaluasi model multimodal (teks dan gambar) pada 11.500 soal dari berbagai disiplin ilmu. Bahkan model terkuat seperti GPT-4V hanya mencapai akurasi 56%. MMMU-Pro kemudian dibuat agar model tidak bisa mengandalkan teks saja dan harus benar-benar memahami informasi visual. Chen Wenhu memiliki latar belakang riset dalam pemahaman informasi kompleks. Pengalamannya di Google DeepMind untuk proyek Gemini membantunya memahami celah dalam evaluasi. Labnya juga mengerjakan penelitian model, seperti UniVideo untuk video dan MoCha untuk karakter virtual, yang memperdalam pemahaman mereka dalam merancang tolok ukur yang solid. Kini, dia bergabung dengan Meta untuk fokus pada data pelatihan dan evaluasi multimodal. Karyanya menggarisbawahi kontribusi signifikan peneliti Tionghoa di balik layar dalam membentuk standar evaluasi AI global.

Setiap kali model terdepan dirilis, kalangan AI akan menatap beberapa 'raport' yang sudah familier.

MMLU-Pro, MMMU, MMMU-Pro... Nama-nama ini mungkin terdengar asing bagi pengguna biasa, tapi bagi perusahaan model dan peneliti, mereka hampir menjadi 'mata pelajaran standar'. GPT, Claude, Gemini, Llama, Qwen, DeepSeek terus-menerus mengumpulkan 'lembar jawaban' mereka di tolok ukur ini.

'Harus diuji untuk melihat kualitasnya', performa model seringkali harus dibuktikan dengan skor-skor ini.

Banyak grafik perbandingan performa dalam peluncuran model, tak lepas dari mereka; beberapa peringkat di HuggingFace juga dibangun di atas sistem evaluasi ini. Bahkan bisa dikatakan, saat industri AI membahas kemampuan model hari ini, yang digunakan adalah bahasa bersama yang didefinisikan oleh tolok ukur ini.

Tapi yang menarik, hampir semua orang fokus pada skor, tapi sangat sedikit yang tahu siapa pembuat soalnya. Dan di balik MMLU-Pro, MMMU, dan MMMU-Pro, bisa dilihat nama yang sama—Chen Wenhu.

Dia adalah Asisten Profesor di Departemen Ilmu Komputer, Universitas Waterloo, Kanada. Di Google Scholar, makalahnya telah dikutip lebih dari 30.000 kali.

Dia juga pendiri "TIGERLab", singkatan dari Text and Image Generative Research Lab. Karena namanya mengandung karakter "Hu" (harimau), Chen Wenhu memberinya nama Mandarin yang sangat khas—Hutou Bang (Geng Harimau).

01

Setelah Soal Ujian Lama Kehilangan Fungsi

Chen Wenhu pertama kali lebih banyak diperhatikan karena MMLU-Pro.

MMLU dulunya adalah salah satu tolok ukur evaluasi kemampuan model bahasa besar yang paling umum digunakan. Ia seperti lembar ujian komprehensif, mencakup berbagai disiplin ilmu, digunakan untuk mengukur performa model dalam tugas pemahaman pengetahuan dan penalaran.

Di awal, lembar ujian ini sangat berguna. Jarak antar model bisa dibedakan oleh skor, dan industri juga bisa mengamati apakah model bahasa besar benar-benar berkembang.

Tapi masalah segera muncul.

Seiring kemampuan model terus meningkat, MMLU perlahan menjadi 'terlalu mudah untuk diuji'. Skor model terdepan semakin tinggi, perbedaan di antara mereka semakin kecil.

Saat OpenAI merilis o3, masalah ini menjadi lebih jelas. Akurasi o3 di MMLU sudah mendekati 100%, model terdepan lainnya juga satu per satu memberikan hasil yang mendekati nilai sempurna.

Ini terdengar seperti kabar baik, tapi untuk evaluasi, justru berarti masalah.

Sebuah soal ujian jika semua orang bisa mendapat nilai mendekati sempurna, akan sulit untuk terus menilai siapa yang lebih kuat, kuat di mana. Ia masih bisa membuktikan model sudah memiliki kemampuan tertentu, tapi tidak lagi cocok untuk mengukur kemajuan baru.

Industri AI membutuhkan soal ujian yang lebih sulit, dan lebih tidak mudah untuk 'dilewati dengan mudah'.

Pada tahun 2024, Chen Wenhu dan tim meluncurkan MMLU-Pro.

MMLU-Pro mendesain ulang soal ujian ini, bukan sekadar memperbesar bank soal.

Ia mencakup 12.032 soal, meliputi 14 bidang seperti matematika, fisika, kimia, hukum, teknik, psikologi, kesehatan. Dibandingkan MMLU versi asli, ia memperluas pilihan dari 4 menjadi 10, mengurangi kemungkinan model menebak dengan benar; sekaligus menambahkan lebih banyak soal penalaran, membersihkan soal-soal yang relatif sederhana, ambigu, atau kurang membedakan di bank soal asli.

Efeknya langsung.

Hasil penelitian menunjukkan, akurasi model di MMLU-Pro turun 16% hingga 33% dibandingkan MMLU asli. Model yang sama diuji dengan 24 gaya prompt berbeda, fluktuasi nilainya juga turun dari 4-5% di MMLU asli, menjadi sekitar 2%.

Artinya, lembar ujian baru ini tidak hanya lebih sulit, tapi juga lebih stabil.

Ia membuat model-model yang tampak sama-sama unggul di soal ujian lama, kembali terpisah jaraknya. Apakah model benar-benar bisa bernalar, atau hanya lebih pandai menghadapi soal lama, juga jadi lebih mudah terlihat.

02

Tolok Ukur yang Berguna

MMLU-Pro segera digunakan industri.

MMLU-Pro kemudian masuk ke jalur Dataset dan Tolok Ukur NeurIPS 2024, juga diintegrasikan ke dalam framework evaluasi model bahasa lm-evaluation-harness milik EleutherAI. Bagi komunitas model sumber terbuka, ini berarti ia bukan lagi sekadar dataset dalam sebuah makalah, tapi telah masuk ke rantai alat evaluasi yang umum digunakan.

Banyak model mulai melaporkan skor MMLU-Pro saat dirilis. Beberapa peringkat di HuggingFace juga memasukkannya ke dalam sistem evaluasi.

Jika MMLU-Pro menyelesaikan masalah 'soal ujian lama tidak berfungsi' dalam evaluasi model bahasa, maka MMMU mendorong Chen Wenhu dan TIGERLab ke pusat evaluasi multimodal.

Masalah model multimodal lebih kompleks.

Model bahasa menjawab soal, terutama menangani teks. Model multimodal harus menangani berbagai bentuk informasi secara bersamaan: gambar, bagan, diagram skematis, peta, tabel, partitur musik, struktur kimia. Ia tidak hanya harus memahami pertanyaan, tapi juga benar-benar mengerti isi gambar, dan melakukan penalaran dengan menggabungkan informasi visual, informasi teks, dan pengetahuan disiplin ilmu.

Tolok ukur MMMU berisi 11.500 soal multimodal, berasal dari ujian universitas, kuis, dan buku teks, mencakup enam bidang utama: Seni & Desain, Bisnis, Sains, Kesehatan & Kedokteran, Humaniora & Ilmu Sosial, Teknologi & Teknik, yang selanjutnya dibagi menjadi 30 disiplin ilmu dan 183 sub-bidang.

Soal-soal ini tidak sekadar menanyakan 'apa yang ada di gambar', ia menuntut model untuk menggabungkan informasi gambar dan pengetahuan disiplin ilmu seperti seorang siswa mengerjakan soal profesional.

Saat MMMU dirilis, tim peneliti menguji 14 model multimodal sumber terbuka, serta model tertutup perwakilan seperti GPT-4V, Gemini Ultra. Bahkan model tertutup terkuat saat itu, GPT-4V dan Gemini Ultra, hanya mencapai akurasi 56% dan 59%.

Angka-angka ini menunjukkan, model multimodal tampaknya berkembang cepat, tapi dalam soal yang benar-benar membutuhkan pemahaman profesional dan penalaran, masih ada banyak ruang untuk perbaikan.

Kemudian, tim Chen Wenhu meluncurkan MMMU-Pro, lebih jauh menutup ruang bagi model untuk menghindari informasi visual. Ia menyaring soal yang bisa dijawab hanya dengan model teks, memperluas pilihan jawaban, dan memperkenalkan pengaturan vision-only, menanamkan pertanyaan dalam gambar, menuntut model menyelesaikan pembacaan visual dan pemahaman teks secara bersamaan.

Sederhananya, tidak membiarkan model 'hanya membaca teks untuk menebak jawaban'.

Pekerjaan semacam ini terdengar agak rumit, tapi sangat krusial. Karena model multimodal di masa depan akan masuk ke skenario seperti kesehatan, pendidikan, penelitian, desain, teknik, hanya bisa mendeskripsikan gambar tidaklah cukup. Ia harus bisa menilai, bernalar, menjelaskan, dan juga harus bisa menemukan bagian yang benar-benar berguna dalam informasi visual yang kompleks.

03

Orang di Balik 'Soal Ujian'

Chen Wenhu kemudian mengerjakan MMLU-Pro dan MMMU, berasal dari minat penelitiannya yang sudah lama.

Minat penelitiannya memang berkaitan dengan pemahaman informasi kompleks, tanya jawab pengetahuan, dan penalaran.

Dia lulus sarjana dari Universitas Sains dan Teknologi Huazhong, kemudian melanjutkan magister di RWTH Aachen University, Jerman, lalu mendapatkan gelar Ph.D. Ilmu Komputer dari University of California, Santa Barbara. Selama masa doktoral, dia sudah mulai melakukan penelitian seputar tanya jawab kompleks, penalaran tabel, pelokalan bukti pengetahuan, dll.

Tugas-tugas semacam ini memiliki kesamaan: jawabannya seringkali tidak berada dalam satu teks tunggal.

Mungkin tersembunyi dalam sebuah tabel, mungkin perlu menggabungkan sebuah teks dan gambar, atau mungkin membutuhkan model untuk mencari informasi terlebih dahulu, lalu mengintegrasikan, menghitung, dan bernalar. Model tidak boleh hanya bisa mengulang pengetahuan yang sudah ada.

Proyek-proyek yang pernah diikuti Chen Wenhu seperti HybridQA, TabFact, Program of Thoughts, MAmmoTH, semuanya berhubungan dengan garis ini.

Ini juga menjelaskan mengapa dia sensitif terhadap celah dalam evaluasi model.

Tolok ukur yang baik bukan sekadar membuat soal semakin sulit, tapi harus memperkirakan di mana model paling mudah 'menebak soal dengan benar', 'tampak bisa'.

Model mungkin menghafal bank soal, bisa menebak jawaban berdasarkan pilihan, atau mungkin menggunakan teks untuk menghindari informasi visual... Evaluasi yang baik harus menambal celah-celah ini.

Setelah lulus doktoral, Chen Wenhu bergabung ke Google Research, kemudian dari 2021 hingga 2025 terlibat dalam pekerjaan model multimodal Gemini dan evaluasi di Google DeepMind. Pengalaman ini juga penting. Paparan jangka panjang terhadap pengembangan model terdepan membuatnya lebih memahami bagaimana kemampuan model tumbuh, dan juga lebih mudah melihat kemungkinan bias dan titik buta dalam evaluasi.

Musim gugur 2022, Chen Wenhu bergabung dengan Fakultas Ilmu Komputer Universitas Waterloo, menjabat sebagai Asisten Profesor. Tahun yang sama, dia terpilih sebagai Canada CIFAR AI Chair. Kemudian, dia mendirikan "TIGERLab (alias Hutou Bang)", melanjutkan penelitian seputar model dasar, kemampuan multimodal, dan tolok ukur evaluasi.

Hutou Bang tidak hanya membuat tolok ukur evaluasi, tapi juga melakukan penelitian model dan sistem.

Dalam arah video, UniVideo mencoba memasukkan pemahaman video, generasi, dan penyuntingan ke dalam satu framework yang sama, membuat model tidak hanya menghasilkan cuplikan gambar, tapi juga memahami konten, merespons instruksi, dan menyelesaikan modifikasi. Vamba menargetkan pemahaman video panjang, menyelesaikan masalah memori, komputasi, dan efisiensi pelatihan yang dibawa oleh video level satu jam. MoCha, kolaborasi dengan tim Generative AI Meta, fokus pada generasi karakter virtual yang berbicara, menghasilkan video karakter berkualitas tinggi melalui deskripsi suara dan teks.

Seorang pembuat soal yang tidak pernah mengerjakan soal, tidak mungkin bisa membuat soal yang baik. Turun tangan membuat model sendiri, sebaliknya juga membuat mereka lebih cocok melakukan evaluasi.

Karena evaluasi yang benar-benar baik, seringkali berasal dari pemahaman batas kemampuan model. Hanya dengan tahu bagaimana model dibuat, tahu masalah apa yang akan dihadapinya dalam tugas nyata, baru lebih mudah merancang soal yang bisa mengukur perbedaan, dan juga mengekspos masalah.

Saat ini, Chen Wenhu bergabung ke Meta Super Intelligent Lab, pekerjaan terus berkonsentrasi pada data pra-pelatihan multimodal dan evaluasi, dan melayani model dasar Meta.

Industri AI tidak kekurangan orang yang terlihat. Di industri AI, sorotan biasanya jatuh pada wirausahawan, peneliti bintang, dan pimpinan perusahaan model besar. Peluncuran produk baru, kabar pendanaan, model sumber terbuka, dan penyesuaian tim, seringkali paling mudah menarik perhatian luar, juga membuat nama-nama ini lebih mudah masuk ke pandangan publik.

Tapi di bidang AI hari ini, partisipasi talenta Tionghoa sudah jauh melampaui posisi yang paling terlihat ini.

Artikel ini berasal dari akun WeChat "Zimu AI", penulis: Xiao Jinya

Cryptos en tendance

Lectures associées

Analyse de rapport : Au cœur de l'explosion du CPO, quelle stratégie déploie Coherent ?

L'analyste de J.P. Morgan Samik Chatterjee réitère sa recommandation « surpondérer » pour Coherent (COHR), estimant que le marché sous-évalue son potentiel de croissance. La thèse repose sur trois piliers : 1. **Transmetteurs pour centres de données :** La demande pour ses transmetteurs 1.6T, désormais standard, reste forte avec une dynamique de prix saine. La tendance vers le CPO (Co-Packaged Optics) devrait stimuler, et non remplacer, la demande de composants optiques haut de gamme. 2. **CPO et OCS, des opportunités sous-estimées :** COHR possède un avantage dans le CPO grâce à son portefeuille complet de composants optiques (lasers, isolateurs, etc.), lui permettant de capturer une plus grande valeur par puce. Pour l'OCS (Optical Circuit Switch), son approche par cristaux liquides présente des avantages en fiabilité et consommation face aux solutions MEMS, sur un marché potentiel de 4 milliards de dollars. 3. **Croissance industrielle et amélioration de la marge :** Le segment industriel maintient une croissance organique de 5 à 10%. Parallèlement, la société vise une marge brute supérieure à 42%, soutenue par les produits premium, la transition vers des plaquettes de 6 pouces réduisant les coûts, et le déploiement de nouvelles solutions comme les matériaux de refroidissement haute performance. La stratégie inclut également un quadruplement planifié de la capacité de production de composants InP (phosphure d'indium) et une intégration verticale dans les systèmes à laser pompe, où COHR détient une position dominante. En résumé, la position clé de Coherent dans l'infrastructure optique pour l'IA, couplée à ces moteurs de croissance, fonde la recommandation positive.

marsbitIl y a 10 mins

Analyse de rapport : Au cœur de l'explosion du CPO, quelle stratégie déploie Coherent ?

marsbitIl y a 10 mins

Après une réduction de 20% des effectifs, quels sont les points clés de la nouvelle structure de l'EF ?

L' Ethereum Foundation (EF) a annoncé une restructuration organisationnelle, incluant une réduction de 20 % de ses effectifs (soit 54 employés). L'objectif déclaré est d'aligner l'organisation sur son "Mandat" de 2026, en se concentrant sur les principes fondamentaux de CROPS (Censure-Resistance, Openness & Freedom, Privacy, Security) et en devenant plus agile. La nouvelle structure est organisée autour de cinq pôles principaux : 1. **Protocole** : Recherche fondamentale et développement du protège (sécurité post-quantique, zkEVM, etc.). 2. **Accès** : Garantir un chemin d'accès sans confiance et sans autorisation pour les utilisateurs. 3. **Utilisateur** : Représenter les besoins des utilisateurs finaux. 4. **Communauté** : Maintenir les liens avec les alliés open-source et les défenseurs des libertés. 5. **Institutionnel** : Engager les entreprises et les gouvernements tout en veillant au respect des valeurs d'Ethereum. L'EF souligne que cette réorganisation n'est pas motivée par une crise financière, mais par une volonté de recentrage stratégique. Des dispositions (indemnités supérieures au légal, aide au reclassement dans l'écosystème) sont prévues pour les employés concernés. Les observateurs notent cependant que ce changement intervient dans un contexte de pression sur la gouvernance de l'EF et de fragmentation de l'écosystème L2. L'impact réel sur le rythme des mises à jour du protocole, le financement des biens publics et l'orientation stratégique reste à clarifier, l'EF promettant plus de détails dans les semaines à venir.

marsbitIl y a 20 mins

Après une réduction de 20% des effectifs, quels sont les points clés de la nouvelle structure de l'EF ?

marsbitIl y a 20 mins

Le MEV bot le plus avancé volé de 7,5 millions de dollars : L'Approval, le risque mortel le plus négligé sur la blockchain ?

Un robot MEV sophistiqué sur Ethereum, Jaredfromsubway.eth, a été victime d'une attaque ciblée ayant entraîné une perte d'environ 7,5 millions de dollars. L'attaquant a déployé des pools de liquidités et des jetons factices pour piéger le robot, l'amenant à accorder des autorisations (Approvals) ERC-20 malveillantes. Ces autorisations ont ensuite été utilisées pour drainer ses fonds. Cet incident met en lumière le risque fondamental et souvent négligé des Approvals dans l'écosystème DeFi. Contrairement aux vulnérabilités de contrat intelligent, le risque lié aux autorisations est systémique. Une fois accordée, une autorisation permet à un contrat d'accéder aux jetons d'un utilisateur, potentiellement indéfiniment. Les pratiques courantes comme l'approbation illimitée ("unlimited approval") et le manque de révocation des autorisations inutilisées augmentent considérablement l'exposition des utilisateurs. Un contrat initialement légitime peut devenir une menace s'il est compromis ultérieurement. Pour atténuer ces risques, les utilisateurs doivent adopter le principe du moindre privilège, en n'autorisant que les montants strictement nécessaires, utiliser des portefeuilles distincts pour les interactions avec des DApps, et révoquer régulièrement les autorisations inutiles via des outils dédiés. Les portefeuilles, quant à eux, doivent renforcer leurs défenses en fournissant des alertes claires, une analyse lisible des transactions signées et des outils de gestion des autorisations intégrés. La sécurité en Web3 ne se limite pas à la protection des clés privées ; elle exige une vigilance constante sur les autorisations actives qui représentent un accès permanent aux actifs.

marsbitIl y a 24 mins

Le MEV bot le plus avancé volé de 7,5 millions de dollars : L'Approval, le risque mortel le plus négligé sur la blockchain ?

marsbitIl y a 24 mins

Les métaux précieux suivent la baisse, quel signal le marché transmet-il à travers l'or ?

Depuis juin, les marchés sud-coréens ont connu des turbulences, avec le KOSPI en baisse de plus de 8% et déclenchant des mécanismes de suspension, tandis que l'or et l'argent ont également reculé dans la même période. Ce mouvement synchronisé est inhabituel : typiquement, en période de baisse de l'appétit pour le risque, les investisseurs vendent des actions et achètent de l'or. Cette fois-ci, les actifs risqués et les métaux précieux ont été vendus simultanément. Le signal clé est la baisse de l'or. La cause fondamentale n'est pas la disparition de son rôle de valeur refuge, mais la remontée des taux d'intérêt réels. Sous la présidence de Kevin Warsh, la Fed a adopté un ton plus ferme, conduisant les marchés à réévaluer la persistance de taux élevés, voire à anticiper de nouvelles hausses. Lorsque les taux réels augmentent, le coût d'opportunité de détenir des actifs sans revenu comme l'or et l'argent s'accroît, réduisant leur attrait face aux obligations et à la trésorerie. La chute des marchés coréens, fortement exposés aux semi-conducteurs liés à l'IA, et celle des métaux précieux sont deux manifestations d'une même pression macroéconomique : le renchérissement du coût de la liquidité et du dollar. L'or et l'argent, libellés en dollars, sont sensibles à la fois à la force du dollar et aux anticipations de taux. En résumé, la pression actuelle sur l'or et l'argent est principalement pilotée par les anticipations de taux d'intérêt et la dynamique du dollar. Leur relation de long terme avec les facteurs de refuge, la demande des banques centrales ou la demande industrielle (pour l'argent) n'est pas remise en cause, mais est temporairement dominée par ce réajustement du coût du capital. La suite dépendra de la durée de cette pression des taux et de la capacité des facteurs de demande sous-jacents à la contrebalancer.

marsbitIl y a 33 mins

Les métaux précieux suivent la baisse, quel signal le marché transmet-il à travers l'or ?

marsbitIl y a 33 mins

Trading

Spot
Futures

Articles tendance

Comment acheter EDGE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter edgeX (EDGE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément edgeX (EDGE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos edgeX (EDGE)Après avoir acheté vos edgeX (EDGE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des edgeX (EDGE)Tradez facilement edgeX (EDGE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

465 vues totalesPublié le 2026.03.31Mis à jour le 2026.06.02

Comment acheter EDGE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de EDGE (EDGE) sont présentées ci-dessous.

活动图片