Model Kecil 3B, Skor Pemrograman Setara Opus 4.5, Model Misterius Picu Perdebatan, Ternyata Buatan Dalam Negeri
Dalam beberapa hari terakhir, model kecil 3B bernama VibeThinker-3B menjadi viral di X karena kemampuannya dalam tugas penalaran yang dapat diverifikasi (seperti pemrograman), yang setara dengan model canggih seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, meski ukurannya jauh lebih kecil. Model dengan 3 miliar parameter ini dikembangkan oleh tim Weibo (Sina) dan dirancang khusus untuk tugas dengan sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, dan eksekusi instruksi dengan batasan jelas.
Dalam evaluasi, VibeThinker-3B mencetak skor tinggi: 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terbaru. Model ini dibangun berdasarkan Qwen2.5-Coder-3B dan menggunakan proses *Spectrum-to-Signal* yang ditingkatkan, yang mencakup *fine-tuning* terawasi dengan sintesis data, penyaringan kualitas, dan pembelajaran bertahap, serta *reinforcement learning* di beberapa domain yang dapat diverifikasi.
Model ini juga memperkenalkan *Claim-Level Reliability* (CLR), sebuah strategi penskalaan saat pengujian yang lebih meningkatkan kinerja dalam tes matematika. Namun, model ini memiliki batasan dan tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas. Penciptanya mengajukan "hipotesis kompresi parameter," yang menunjukkan bahwa penalaran yang dapat diverifikasi adalah kemampuan yang sangat terkompresi dan padat parameter, sementara pengetahuan faktual yang luas lebih bergantung pada parameter skala besar. Tujuan mereka adalah mengeksplorasi batas kemampuan model kecil dalam dimensi tertentu, bukan menggantikan model besar.
Laporan teknis dan model tersedia untuk diunduh secara publik. Meski mendapat pujian, model ini juga menghadapi beberapa skeptisisme di komunitas.
marsbit1j yang lalu