Di Balik 'Raport' AI, Tersembunyi Seorang 'Pembuat Soal' Tionghoa

marsbit发布于2026-06-20更新于2026-06-20

文章摘要

Setiap kali model AI terdepan dirilis, industri melihat "laporan nilai" seperti MMLU-Pro, MMMU, dan MMMU-Pro. Tolok ukur ini telah menjadi bahasa umum untuk mengevaluasi kemampuan model. Di baliknya adalah nama seorang peneliti Tionghoa, Chen Wenhu, asisten profesor di University of Waterloo. Dia dan lab TIGERLab-nya menciptakan MMLU-Pro karena MMLU lama tidak lagi efektif—model canggih seperti OpenAI o3 hampir mencapai nilai sempurna. MMLU-Pro, dengan 12.032 soal lebih sulit dan 10 pilihan jawaban, berhasil membedakan kembali kemampuan model. Selain itu, mereka mengembangkan MMMU untuk mengevaluasi model multimodal (teks dan gambar) pada 11.500 soal dari berbagai disiplin ilmu. Bahkan model terkuat seperti GPT-4V hanya mencapai akurasi 56%. MMMU-Pro kemudian dibuat agar model tidak bisa mengandalkan teks saja dan harus benar-benar memahami informasi visual. Chen Wenhu memiliki latar belakang riset dalam pemahaman informasi kompleks. Pengalamannya di Google DeepMind untuk proyek Gemini membantunya memahami celah dalam evaluasi. Labnya juga mengerjakan penelitian model, seperti UniVideo untuk video dan MoCha untuk karakter virtual, yang memperdalam pemahaman mereka dalam merancang tolok ukur yang solid. Kini, dia bergabung dengan Meta untuk fokus pada data pelatihan dan evaluasi multimodal. Karyanya menggarisbawahi kontribusi signifikan peneliti Tionghoa di balik layar dalam membentuk standar evaluasi AI global.

Setiap kali model terdepan dirilis, kalangan AI akan menatap beberapa 'raport' yang sudah familier.

MMLU-Pro, MMMU, MMMU-Pro... Nama-nama ini mungkin terdengar asing bagi pengguna biasa, tapi bagi perusahaan model dan peneliti, mereka hampir menjadi 'mata pelajaran standar'. GPT, Claude, Gemini, Llama, Qwen, DeepSeek terus-menerus mengumpulkan 'lembar jawaban' mereka di tolok ukur ini.

'Harus diuji untuk melihat kualitasnya', performa model seringkali harus dibuktikan dengan skor-skor ini.

Banyak grafik perbandingan performa dalam peluncuran model, tak lepas dari mereka; beberapa peringkat di HuggingFace juga dibangun di atas sistem evaluasi ini. Bahkan bisa dikatakan, saat industri AI membahas kemampuan model hari ini, yang digunakan adalah bahasa bersama yang didefinisikan oleh tolok ukur ini.

Tapi yang menarik, hampir semua orang fokus pada skor, tapi sangat sedikit yang tahu siapa pembuat soalnya. Dan di balik MMLU-Pro, MMMU, dan MMMU-Pro, bisa dilihat nama yang sama—Chen Wenhu.

Dia adalah Asisten Profesor di Departemen Ilmu Komputer, Universitas Waterloo, Kanada. Di Google Scholar, makalahnya telah dikutip lebih dari 30.000 kali.

Dia juga pendiri "TIGERLab", singkatan dari Text and Image Generative Research Lab. Karena namanya mengandung karakter "Hu" (harimau), Chen Wenhu memberinya nama Mandarin yang sangat khas—Hutou Bang (Geng Harimau).

01 Setelah Soal Ujian Lama Kehilangan Fungsi

Chen Wenhu pertama kali lebih banyak diperhatikan karena MMLU-Pro.

MMLU dulunya adalah salah satu tolok ukur evaluasi kemampuan model bahasa besar yang paling umum digunakan. Ia seperti lembar ujian komprehensif, mencakup berbagai disiplin ilmu, digunakan untuk mengukur performa model dalam tugas pemahaman pengetahuan dan penalaran.

Di awal, lembar ujian ini sangat berguna. Jarak antar model bisa dibedakan oleh skor, dan industri juga bisa mengamati apakah model bahasa besar benar-benar berkembang.

Tapi masalah segera muncul.

Seiring kemampuan model terus meningkat, MMLU perlahan menjadi 'terlalu mudah untuk diuji'. Skor model terdepan semakin tinggi, perbedaan di antara mereka semakin kecil.

Saat OpenAI merilis o3, masalah ini menjadi lebih jelas. Akurasi o3 di MMLU sudah mendekati 100%, model terdepan lainnya juga satu per satu memberikan hasil yang mendekati nilai sempurna.

Ini terdengar seperti kabar baik, tapi untuk evaluasi, justru berarti masalah.

Sebuah soal ujian jika semua orang bisa mendapat nilai mendekati sempurna, akan sulit untuk terus menilai siapa yang lebih kuat, kuat di mana. Ia masih bisa membuktikan model sudah memiliki kemampuan tertentu, tapi tidak lagi cocok untuk mengukur kemajuan baru.

Industri AI membutuhkan soal ujian yang lebih sulit, dan lebih tidak mudah untuk 'dilewati dengan mudah'.

Pada tahun 2024, Chen Wenhu dan tim meluncurkan MMLU-Pro.

MMLU-Pro mendesain ulang soal ujian ini, bukan sekadar memperbesar bank soal.

Ia mencakup 12.032 soal, meliputi 14 bidang seperti matematika, fisika, kimia, hukum, teknik, psikologi, kesehatan. Dibandingkan MMLU versi asli, ia memperluas pilihan dari 4 menjadi 10, mengurangi kemungkinan model menebak dengan benar; sekaligus menambahkan lebih banyak soal penalaran, membersihkan soal-soal yang relatif sederhana, ambigu, atau kurang membedakan di bank soal asli.

Efeknya langsung.

Hasil penelitian menunjukkan, akurasi model di MMLU-Pro turun 16% hingga 33% dibandingkan MMLU asli. Model yang sama diuji dengan 24 gaya prompt berbeda, fluktuasi nilainya juga turun dari 4-5% di MMLU asli, menjadi sekitar 2%.

Artinya, lembar ujian baru ini tidak hanya lebih sulit, tapi juga lebih stabil.

Ia membuat model-model yang tampak sama-sama unggul di soal ujian lama, kembali terpisah jaraknya. Apakah model benar-benar bisa bernalar, atau hanya lebih pandai menghadapi soal lama, juga jadi lebih mudah terlihat.

02 Tolok Ukur yang Berguna

MMLU-Pro segera digunakan industri.

MMLU-Pro kemudian masuk ke jalur Dataset dan Tolok Ukur NeurIPS 2024, juga diintegrasikan ke dalam framework evaluasi model bahasa lm-evaluation-harness milik EleutherAI. Bagi komunitas model sumber terbuka, ini berarti ia bukan lagi sekadar dataset dalam sebuah makalah, tapi telah masuk ke rantai alat evaluasi yang umum digunakan.

Banyak model mulai melaporkan skor MMLU-Pro saat dirilis. Beberapa peringkat di HuggingFace juga memasukkannya ke dalam sistem evaluasi.

Jika MMLU-Pro menyelesaikan masalah 'soal ujian lama tidak berfungsi' dalam evaluasi model bahasa, maka MMMU mendorong Chen Wenhu dan TIGERLab ke pusat evaluasi multimodal.

Masalah model multimodal lebih kompleks.

Model bahasa menjawab soal, terutama menangani teks. Model multimodal harus menangani berbagai bentuk informasi secara bersamaan: gambar, bagan, diagram skematis, peta, tabel, partitur musik, struktur kimia. Ia tidak hanya harus memahami pertanyaan, tapi juga benar-benar mengerti isi gambar, dan melakukan penalaran dengan menggabungkan informasi visual, informasi teks, dan pengetahuan disiplin ilmu.

Tolok ukur MMMU berisi 11.500 soal multimodal, berasal dari ujian universitas, kuis, dan buku teks, mencakup enam bidang utama: Seni & Desain, Bisnis, Sains, Kesehatan & Kedokteran, Humaniora & Ilmu Sosial, Teknologi & Teknik, yang selanjutnya dibagi menjadi 30 disiplin ilmu dan 183 sub-bidang.

Soal-soal ini tidak sekadar menanyakan 'apa yang ada di gambar', ia menuntut model untuk menggabungkan informasi gambar dan pengetahuan disiplin ilmu seperti seorang siswa mengerjakan soal profesional.

Saat MMMU dirilis, tim peneliti menguji 14 model multimodal sumber terbuka, serta model tertutup perwakilan seperti GPT-4V, Gemini Ultra. Bahkan model tertutup terkuat saat itu, GPT-4V dan Gemini Ultra, hanya mencapai akurasi 56% dan 59%.

Angka-angka ini menunjukkan, model multimodal tampaknya berkembang cepat, tapi dalam soal yang benar-benar membutuhkan pemahaman profesional dan penalaran, masih ada banyak ruang untuk perbaikan.

Kemudian, tim Chen Wenhu meluncurkan MMMU-Pro, lebih jauh menutup ruang bagi model untuk menghindari informasi visual. Ia menyaring soal yang bisa dijawab hanya dengan model teks, memperluas pilihan jawaban, dan memperkenalkan pengaturan vision-only, menanamkan pertanyaan dalam gambar, menuntut model menyelesaikan pembacaan visual dan pemahaman teks secara bersamaan.

Sederhananya, tidak membiarkan model 'hanya membaca teks untuk menebak jawaban'.

Pekerjaan semacam ini terdengar agak rumit, tapi sangat krusial. Karena model multimodal di masa depan akan masuk ke skenario seperti kesehatan, pendidikan, penelitian, desain, teknik, hanya bisa mendeskripsikan gambar tidaklah cukup. Ia harus bisa menilai, bernalar, menjelaskan, dan juga harus bisa menemukan bagian yang benar-benar berguna dalam informasi visual yang kompleks.

03 Orang di Balik 'Soal Ujian'

Chen Wenhu kemudian mengerjakan MMLU-Pro dan MMMU, berasal dari minat penelitiannya yang sudah lama.

Minat penelitiannya memang berkaitan dengan pemahaman informasi kompleks, tanya jawab pengetahuan, dan penalaran.

Dia lulus sarjana dari Universitas Sains dan Teknologi Huazhong, kemudian melanjutkan magister di RWTH Aachen University, Jerman, lalu mendapatkan gelar Ph.D. Ilmu Komputer dari University of California, Santa Barbara. Selama masa doktoral, dia sudah mulai melakukan penelitian seputar tanya jawab kompleks, penalaran tabel, pelokalan bukti pengetahuan, dll.

Tugas-tugas semacam ini memiliki kesamaan: jawabannya seringkali tidak berada dalam satu teks tunggal.

Mungkin tersembunyi dalam sebuah tabel, mungkin perlu menggabungkan sebuah teks dan gambar, atau mungkin membutuhkan model untuk mencari informasi terlebih dahulu, lalu mengintegrasikan, menghitung, dan bernalar. Model tidak boleh hanya bisa mengulang pengetahuan yang sudah ada.

Proyek-proyek yang pernah diikuti Chen Wenhu seperti HybridQA, TabFact, Program of Thoughts, MAmmoTH, semuanya berhubungan dengan garis ini.

Ini juga menjelaskan mengapa dia sensitif terhadap celah dalam evaluasi model.

Tolok ukur yang baik bukan sekadar membuat soal semakin sulit, tapi harus memperkirakan di mana model paling mudah 'menebak soal dengan benar', 'tampak bisa'.

Model mungkin menghafal bank soal, bisa menebak jawaban berdasarkan pilihan, atau mungkin menggunakan teks untuk menghindari informasi visual... Evaluasi yang baik harus menambal celah-celah ini.

Setelah lulus doktoral, Chen Wenhu bergabung ke Google Research, kemudian dari 2021 hingga 2025 terlibat dalam pekerjaan model multimodal Gemini dan evaluasi di Google DeepMind. Pengalaman ini juga penting. Paparan jangka panjang terhadap pengembangan model terdepan membuatnya lebih memahami bagaimana kemampuan model tumbuh, dan juga lebih mudah melihat kemungkinan bias dan titik buta dalam evaluasi.

Musim gugur 2022, Chen Wenhu bergabung dengan Fakultas Ilmu Komputer Universitas Waterloo, menjabat sebagai Asisten Profesor. Tahun yang sama, dia terpilih sebagai Canada CIFAR AI Chair. Kemudian, dia mendirikan "TIGERLab (alias Hutou Bang)", melanjutkan penelitian seputar model dasar, kemampuan multimodal, dan tolok ukur evaluasi.

Hutou Bang tidak hanya membuat tolok ukur evaluasi, tapi juga melakukan penelitian model dan sistem.

Dalam arah video, UniVideo mencoba memasukkan pemahaman video, generasi, dan penyuntingan ke dalam satu framework yang sama, membuat model tidak hanya menghasilkan cuplikan gambar, tapi juga memahami konten, merespons instruksi, dan menyelesaikan modifikasi. Vamba menargetkan pemahaman video panjang, menyelesaikan masalah memori, komputasi, dan efisiensi pelatihan yang dibawa oleh video level satu jam. MoCha, kolaborasi dengan tim Generative AI Meta, fokus pada generasi karakter virtual yang berbicara, menghasilkan video karakter berkualitas tinggi melalui deskripsi suara dan teks.

Seorang pembuat soal yang tidak pernah mengerjakan soal, tidak mungkin bisa membuat soal yang baik. Turun tangan membuat model sendiri, sebaliknya juga membuat mereka lebih cocok melakukan evaluasi.

Karena evaluasi yang benar-benar baik, seringkali berasal dari pemahaman batas kemampuan model. Hanya dengan tahu bagaimana model dibuat, tahu masalah apa yang akan dihadapinya dalam tugas nyata, baru lebih mudah merancang soal yang bisa mengukur perbedaan, dan juga mengekspos masalah.

Saat ini, Chen Wenhu bergabung ke Meta Super Intelligent Lab, pekerjaan terus berkonsentrasi pada data pra-pelatihan multimodal dan evaluasi, dan melayani model dasar Meta.

Industri AI tidak kekurangan orang yang terlihat. Di industri AI, sorotan biasanya jatuh pada wirausahawan, peneliti bintang, dan pimpinan perusahaan model besar. Peluncuran produk baru, kabar pendanaan, model sumber terbuka, dan penyesuaian tim, seringkali paling mudah menarik perhatian luar, juga membuat nama-nama ini lebih mudah masuk ke pandangan publik.

Tapi di bidang AI hari ini, partisipasi talenta Tionghoa sudah jauh melampaui posisi yang paling terlihat ini.

Artikel ini berasal dari akun WeChat "Zimu AI", penulis: Xiao Jinya

你可能也喜欢

研报解读：CPO 爆发时，Coherent 在下什么棋

JP摩根分析师Samik Chatterjee在投资者会议上重申了对Coherent的增持评级，认为市场低估了其增长潜力。核心逻辑围绕三条业务线展开。首先，数据中心对1.6T光收发器的需求持续强劲，价格环境健康。针对市场对CPO技术可能替代传统收发器的担忧，分析师认为CPO集成方案反而会增加对高端光学器件的需求。其次，在CPO和光路交换市场，Coherent凭借其全面的光学组件产品组合（如激光器、隔离器等）占据优势。每个CPO芯片中，公司可获取的价值远高于传统收发器。其液晶技术的OCS解决方案在可靠性和功耗上优于MEMS方案，目标市场规模达40亿美元。第三，公司计划两年内将磷化铟器件产能提升四倍，并向上游整合。作为全球两大高质量泵浦激光器供应商之一，公司正从销售器件转向提供完整的线卡或系统，单套方案售价可提升十倍以上。毛利率方面，公司目标大于42%，并有上调可能，动力来自高端产品溢价、成本结构改善及新产品放量。此外，工业领域业务保持稳定增长，半导体制程设备订单增加，3D传感领域也存在新机会。总体而言，AI推高算力需求，进而驱动高速光互联需求。Coherent在光通信芯片领域处于关键位置，CPO等新机会、工业业务的稳定增长以及毛利率改善空间共同支撑了其积极前景。

marsbit14分钟前

marsbit14分钟前

Dan Koe新文：逃离打工人宿命，如何在AI替代潮中生存下来？

本文探讨在AI技术浪潮下，如何摆脱传统“打工人”宿命，构建自己的事业以实现生存与成长。文章指出，真正的危机并非AI本身，而是将自身幸福完全寄托于他人。作者认为，许多工作因缺乏挑战和自主性，易使人陷入重复与无聊，从而成为“薪水奴隶”。为在AI时代保持竞争力，个人需掌握五个核心要素：能动性（主动行动）、品味（价值判断）、说服力（影响他人）、坚持（耐受挫折）和迭代（持续优化）。这些能力无法通过单纯学习获得，必须在实践中锻炼。文章建议，突破的关键在于转变身份，成为“不可被雇佣的人”。具体路径包括：1）彻底改变环境，重塑行为与身份；2）选择能提供真实反馈的载体（如创业），在试错中成长；3）掌握“代码”或“媒体”（内容创作）两项杠杆技能，其中媒体因价值主观、更依赖人的洞察力而更具优势。最后，作者提出一个可操作的起点：每天抽出15分钟，通过三个步骤启动个人事业：1）挖掘自身独特的兴趣与能力作为“原始素材”；2）找到自己与主流观点不同的“反共识”洞察；3）立即发布第一条内容，获取真实反馈并开始迭代。核心在于行动起来，在创作与实践中学习，逐步建立不依赖雇主的独立事业。

marsbit23分钟前

marsbit23分钟前

裁员20%后，EF新结构有哪些重点？

以太坊基金会（EF）于6月23日宣布完成组织重组，裁减约20%的员工（54名），并将核心工作重新划分为五大集群：协议层、接入层、用户层、社区层和机构层。此次调整旨在落实其2026年《Mandate》中的CROPS原则（抗审查、开源自由、隐私、安全及抗捕获），使基金会更精简、聚焦于维护以太坊的“自我主权”与核心价值。协议层负责底层协议研究与升级，如应对MEV和提升隐私；接入层确保用户拥有无需信任中介的访问路径；用户、社区和机构层则分别聚焦真实用户需求、维护独立社区形象及对接机构与监管。EF未公布具体预算分配，但强调这不是财务危机下的裁员，离职员工将获得优于法定标准的遣散费及转岗支持。尽管官方称此次调整为使命聚焦，但外界将其置于EF近期高层变动、市场对治理效率的质疑以及生态碎片化等背景下解读。重组后的资源流向、研发优先级及生态资助变化仍待后续披露，其实际影响取决于EF如何在压缩规模的同时，平衡协议发展、生态支持与应对监管等多重挑战。

marsbit24分钟前

marsbit24分钟前

最顶级的 MEV 机器人，被盗 750 万美元：Approval 才是链上最易忽视的致命风险？

以太坊知名MEV套利机器人Jaredfromsubway.eth近期遭到攻击，损失超750万美元。攻击者并未利用传统漏洞或窃取私钥，而是精心设计了一场“反向围猎”：花费数周时间部署大量伪装成主流代币（如WETH、USDC）的虚假代币和流动性池，构建出看似有利可图的交易路径。机器人在自动化执行过程中，向这些恶意合约授予了ERC-20代币的调用权限（Approval），导致其资产被“合法”转走。此事件暴露出Approval这一DeFi基础功能的普遍风险。Approval类似“自动扣款授权”，但用户常因追求便利而授予“无限额度”，且授权一旦发出，不会因断开钱包连接或删除DApp而自动失效。即使最初授权的合约是安全的，未来也可能因被攻击或逻辑升级而变危险。为管控风险，用户应遵循“最小权限”原则，按需授权额度；区分储存与交互用的钱包地址以隔离风险；并定期使用工具（如Revoke.cash或钱包内授权管理功能）检查并撤销不再需要的授权。同时，钱包应用也需增强防护，例如对风险地址进行标记、对授权行为进行结构化提示，推动“所见即所签”成为行业标准，帮助用户在签名前清晰理解操作内容。总之，链上安全不仅关乎私钥保管，也在于对资产调用权限的持续、审慎管理。

marsbit29分钟前

最顶级的 MEV 机器人，被盗 750 万美元：Approval 才是链上最易忽视的致命风险？

marsbit29分钟前

贵金属跟跌，黄金在向市场传递什么信号？

近期，韩国股市因半导体权重股拖累大跌并触发熔断，同时黄金和白银价格也出现回落。这一同跌现象并非传统意义上的避险模式，而是反映出市场对“持有不确定资产的成本变高”的担忧，其核心在于实际利率的上升。实际利率作为扣除通胀后的真实资金价格，当其上升时，无息资产如黄金、白银的吸引力下降，高估值科技股的贴现率也随之升高。因此，当前市场的关键信号是黄金跟跌，而非单一股市波动。这预示着支撑2025年AI半导体与贵金属上涨的共同宏观叙事——宽松预期，正受到美联储偏鹰立场（主席Kevin Warsh就任后）的考验，利率与美元重新掌握了短期定价主导权。具体而言，黄金价格承压，主要源于美元走强和实际利率上升带来的机会成本增加，短期压过了其长期避险属性。黄金与风险资产同步下跌，表明市场正在因资金成本上升而同步减持各类流动性仓位。韩国股市的剧烈波动只是放大了同一宏观压力（利率上行、美元走强）对拥挤交易板块的冲击，并非贵金属下跌的直接原因。未来走势的关键验证变量在于美联储政策、美元强度以及实际利率水平。若通胀数据持续强劲，鹰派预期得以巩固，贵金属将继续承压。白银还需额外关注工业需求与风险资产情绪的影响。总之，本轮调整提醒投资者，不同资产类别可能共同暴露于利率重估的风险之下，后续需关注利率压力持续时间与其他支撑因素（如央行购金、避险需求）之间的博弈。

marsbit39分钟前

marsbit39分钟前

交易

现货

合约

Di Balik 'Raport' AI, Tersembunyi Seorang 'Pembuat Soal' Tionghoa

文章摘要

01

Setelah Soal Ujian Lama Kehilangan Fungsi

02

Tolok Ukur yang Berguna

03

Orang di Balik 'Soal Ujian'

热门币种推荐

你可能也喜欢

研报解读：CPO 爆发时，Coherent 在下什么棋

Dan Koe新文：逃离打工人宿命，如何在AI替代潮中生存下来？

裁员20%后，EF新结构有哪些重点？

最顶级的 MEV 机器人，被盗 750 万美元：Approval 才是链上最易忽视的致命风险？

贵金属跟跌，黄金在向市场传递什么信号？

交易

热门文章

如何购买EDGE

相关讨论

热门问答

热门分类

热门标签