Oleh | Huruf AI
Setiap kali model mutakhir dirilis, komunitas AI akan menatap beberapa laporan skor yang familiar.
MMLU-Pro, MMMU, MMMU-Pro… Nama-nama ini mungkin asing bagi pengguna biasa, tetapi bagi perusahaan model dan peneliti, mereka hampir menjadi "mata pelajaran standar". GPT, Claude, Gemini, Llama, Qwen, DeepSeek terus mengerjakan ujian di benchmark ini.
"Bagus atau tidak, coba tes", performa model seringkali harus dibuktikan dengan skor-skor ini.
Banyak grafik perbandingan performa pada peluncuran model, tidak lepas dari mereka; beberapa peringkat di HuggingFace juga dibangun di atas sistem evaluasi ini. Bahkan bisa dikatakan, saat industri AI membahas kemampuan model, yang digunakan sudah menjadi bahasa bersama yang didefinisikan oleh benchmark ini.
Tapi menariknya, hampir semua orang fokus pada skor, tapi sangat sedikit yang tahu siapa pembuat soalnya. Dan di balik MMLU-Pro, MMMU dan MMMU-Pro, terlihat nama yang sama——Chen Wenhu (Chen Wenhū).
Dia adalah asisten profesor di Departemen Ilmu Komputer Universitas Waterloo, Kanada. Di Google Scholar, makalahnya telah dikutip lebih dari 30.000 kali.
Dia juga adalah pendiri "TIGERLab", nama lengkap lab ini dalam bahasa Inggris adalah Text and Image GEnerative Research Lab, karena ada kata "Hu" (Harimau) dalam namanya, Chen Wenhu memberinya nama Mandarin yang sangat mudah dikenali——Hutou Bang (Geng Harimau).
Setelah Kertas Ujian Lama Tak Efektif
Chen Wenhu pertama kali lebih banyak diperhatikan orang, karena MMLU-Pro.
MMLU dulunya adalah salah satu benchmark evaluasi kemampuan model bahasa besar yang paling umum digunakan. Itu seperti kertas ujian komprehensif, mencakup berbagai disiplin ilmu, digunakan untuk mengukur kinerja model dalam tugas pemahaman pengetahuan dan penalaran.
Di awal, kertas ujian ini sangat berguna. Jarak antar model bisa dibedakan dengan skor, dan industri juga bisa mengamati apakah model bahasa besar benar-benar berkembang melalui ini.
Tapi masalah segera muncul.
Seiring kemampuan model terus meningkat, MMLU secara bertahap menjadi "kurang cukup untuk diuji". Skor model mutakhir semakin tinggi, jarak di antara mereka semakin kecil.
Sampai OpenAI merilis o3, masalah ini menjadi lebih jelas. Akurasi o3 pada MMLU sudah mendekati 100%, model mutakhir lainnya juga satu per satu menyerahkan hasil yang mendekati nilai sempurna.
Kedengarannya seperti kabar baik, tapi untuk evaluasi, justru berarti masalah.
Sebuah kertas ujian jika semua orang bisa mendapat nilai mendekati sempurna, akan sulit untuk terus menilai siapa yang lebih kuat, kuat di mana. Ia masih bisa membuktikan model telah memiliki kemampuan tertentu, tapi tidak lagi cocok untuk mengukur kemajuan baru.
Industri AI membutuhkan kertas ujian yang lebih sulit, dan lebih sulit untuk "dilewatkan begitu saja".
Tahun 2024, Chen Wenhu dan tim merilis MMLU-Pro.
MMLU-Pro mendesain ulang kertas ujian ini, bukan sekadar memperbesar bank soal.
Ia mencakup 12.032 soal, meliputi matematika, fisika, kimia, hukum, teknik, psikologi, kesehatan, dan 14 bidang lainnya. Dibandingkan MMLU versi asli, ia memperluas pilihan dari 4 menjadi 10, mengurangi probabilitas model menebak dan benar; sekaligus menambahkan lebih banyak soal yang condong ke penalaran, membersihkan soal-soal di bank soal asli yang relatif mudah, bermakna ambigu atau kurang daya pembeda.
Efeknya langsung.
Hasil makalah menunjukkan, akurasi model pada MMLU-Pro turun 16% hingga 33% dibandingkan MMLU versi asli. Saat model yang sama diuji dengan 24 gaya prompt berbeda, fluktuasi nilai juga turun dari 4% hingga 5% di MMLU asli, menjadi sekitar 2%.
Artinya, kertas ujian baru ini tidak hanya lebih sulit, tapi juga lebih stabil.
Ia membuat model-model yang terlihat sangat bagus di kertas ujian lama, kembali memiliki jarak perbedaan. Apakah model benar-benar bisa bernalar, atau hanya lebih pandai menghadapi soal lama, juga jadi lebih mudah terlihat.
Benchmark Evaluasi yang Berguna
MMLU-Pro dengan cepat digunakan oleh industri.
MMLU-Pro kemudian masuk ke jalur dataset dan benchmark evaluasi NeurIPS2024, juga diintegrasikan ke dalam kerangka evaluasi model bahasa lm-evaluation-harness milik EleutherAI. Bagi komunitas model open-source, ini berarti ia tidak lagi hanya dataset dalam sebuah makalah, tapi sudah masuk ke dalam rangkaian alat evaluasi yang umum digunakan.
Banyak model mulai melaporkan skor MMLU-Pro saat dirilis. Beberapa peringkat di HuggingFace juga memasukkannya ke dalam sistem evaluasi.
Jika MMLU-Pro menyelesaikan masalah "kertas ujian lama tak efektif" dalam evaluasi model bahasa, maka MMMU mendorong Chen Wenhu dan TIGERLab ke pusat evaluasi multimodal.
Masalah model multimodal lebih kompleks.
Model bahasa mengerjakan soal, terutama memproses teks. Model multimodal harus memproses informasi dalam berbagai bentuk seperti gambar, grafik, diagram skematis, peta, tabel, partitur musik, struktur kimia, secara bersamaan. Ia tidak hanya harus memahami pertanyaan, tapi juga benar-benar melihat isi dalam gambar, dan menggabungkan informasi visual, informasi teks, dan pengetahuan disiplin ilmu untuk bernalar.
Benchmark evaluasi MMMU mencakup 11.500 soal multimodal, berasal dari ujian kuliah, kuis, dan buku teks, meliputi enam bidang besar: seni dan desain, bisnis, sains, kesehatan dan kedokteran, humaniora dan ilmu sosial, teknologi dan teknik, lebih lanjut dibagi menjadi 30 disiplin ilmu dan 183 sub-bidang.
Soal-soal ini tidak sekadar menanyakan model "apa yang ada di gambar", ia menuntut model seperti siswa mengerjakan soal profesional, menggabungkan informasi gambar dan pengetahuan disiplin ilmu.
Saat MMMU dirilis, tim peneliti menguji 14 model multimodal open-source, serta model closed-source representatif seperti GPT-4V, GeminiUltra. Bahkan model closed-source terkuat saat itu, GPT-4V dan GeminiUltra hanya mencapai akurasi 56% dan 59%.
Angka-angka ini menunjukkan, model multimodal terlihat berkembang cepat, tapi pada soal yang benar-benar membutuhkan pemahaman profesional dan penalaran, masih ada banyak ruang.
Kemudian, tim Chen Wenhu merilis MMMU-Pro, lebih lanjut menutup ruang model menghindari informasi visual. Ia menyaring soal yang bisa dijawab hanya dengan model teks, memperluas pilihan jawaban, dan memperkenalkan pengaturan vision-only, menanamkan pertanyaan ke dalam gambar, menuntut model menyelesaikan pembacaan visual dan pemahaman teks secara bersamaan.
Sederhananya, agar model tidak "hanya membaca teks dan menebak jawaban".
Pekerjaan semacam ini terdengar agak rumit, tapi mereka krusial. Karena model multimodal di masa depan akan masuk ke skenario seperti medis, pendidikan, penelitian, desain, teknik, hanya bisa mendeskripsikan gambar tidaklah cukup. Ia harus bisa menilai, bernalar, menjelaskan, dan juga harus bisa menemukan bagian yang benar-benar berguna dalam informasi visual yang kompleks.
Orang di Balik "Kertas Ujian"
Chen Wenhu kemudian membuat MMLU-Pro dan MMMU, berasal dari arah penelitian yang sudah lama dia tekuni.
Minat penelitiannya memang terkait dengan pemahaman informasi kompleks, tanya jawab pengetahuan, dan penalaran.
Dia lulus S1 dari Universitas Sains dan Teknologi Huazhong, kemudian melanjutkan S2 di Universitas Teknologi RWTH Aachen, Jerman, lalu mendapat gelar doktor di bidang Ilmu Komputer dari Universitas California, Santa Barbara. Selama doktor, dia sudah mulai melakukan penelitian seputar tanya jawab kompleks, penalaran tabel, pelokalan bukti pengetahuan, dan arah lainnya.
Tugas semacam ini memiliki kesamaan: jawaban seringkali tidak ada dalam teks tunggal.
Mungkin tersembunyi dalam sebuah tabel, mungkin perlu menggabungkan sepotong teks dan sebuah gambar, atau mungkin model perlu mengambil informasi terlebih dahulu, lalu mengintegrasikan, menghitung, dan bernalar. Model tidak boleh hanya bisa mengulang pengetahuan yang ada.
Proyek-proyek yang pernah diikuti Chen Wenhu seperti HybridQA, TabFact, Program of Thoughts, MAmmoTH, semuanya terkait dengan garis ini.
Ini juga menjelaskan mengapa dia sensitif terhadap celah dalam evaluasi model.
Benchmark evaluasi yang baik bukan sekadar membuat soal semakin sulit, tapi harus memprediksi di mana model paling mudah "menebak soal dengan benar", "terlihat pintar".
Model mungkin menghafal bank soal, bisa menebak jawaban berdasarkan pilihan, atau mungkin menggunakan teks untuk menghindari informasi visual… Evaluasi yang baik harus menambal celah-celah ini.
Setelah lulus doktor, Chen Wenhu masuk ke Google Research, kemudian dari 2021 hingga 2025 berpartisipasi dalam pekerjaan model multimodal Gemini dan evaluasi di Google DeepMind. Pengalaman ini juga penting. Kontak jangka panjang dengan pengembangan model mutakhir membuatnya lebih paham bagaimana kemampuan model tumbuh, juga lebih mudah melihat bias dan titik buta yang mungkin ada dalam evaluasi.
Musim gugur 2022, Chen Wenhu bergabung dengan Fakultas Ilmu Komputer Universitas Waterloo, sebagai asisten profesor. Tahun itu juga, dia terpilih sebagai Canada CIFAR AI Chair. Setelah itu, dia mendirikan "TIGERLab (alias Hutou Bang)", melanjutkan penelitian seputar model dasar, kemampuan multimodal, dan benchmark evaluasi.
Hutou Bang tidak hanya melakukan benchmark evaluasi, tapi juga penelitian model dan sistem.
Dalam arah video, UniVideo mencoba memasukkan pemahaman video, generasi, dan penyuntingan ke dalam kerangka yang sama, agar model tidak hanya menghasilkan segmen gambar, tapi juga memahami konten, merespons instruksi, dan menyelesaikan modifikasi. Vamba menargetkan pemahaman video panjang, menyelesaikan masalah memori, komputasi, dan efisiensi pelatihan yang dibawa video tingkat satu jam. MoCha, hasil kolaborasi dengan tim Generative AI Meta, fokus pada generasi karakter virtual yang berbicara, menghasilkan video karakter berkualitas tinggi melalui suara dan deskripsi teks.
Pembuat soal yang tidak pernah mengerjakan soal, tidak mungkin bisa membuat soal yang bagus. Turun tangan sendiri membuat model, sebaliknya membuat mereka lebih cocok melakukan evaluasi.
Karena evaluasi yang benar-benar baik, seringkali berasal dari pemahaman terhadap batas kemampuan model. Hanya dengan tahu bagaimana model dibuat, tahu masalah apa yang akan dihadapi dalam tugas nyata, baru lebih mudah merancang soal yang bisa mengukur perbedaan, dan juga mengekspos masalah.
Sekarang, Chen Wenhu masuk ke Meta Superintelligence Lab, pekerjaan terus terkonsentrasi pada data pelatihan awal multimodal dan evaluasi, serta melayani model dasar Meta.
Industri AI tidak kekurangan orang yang terlihat. Dalam industri AI, sorotan biasanya jatuh pada pengusaha, peneliti bintang, dan kepala perusahaan model besar. Peluncuran produk baru, kabar pendanaan, model open-source dan penyesuaian tim, seringkali paling mudah menarik perhatian luar, juga membuat nama-nama ini lebih mudah masuk ke pandangan publik.
Tapi di bidang AI saat ini, partisipasi talenta Tionghoa sudah jauh melampaui posisi paling mencolok ini.













