Model Kecil 3B, Skor Pemrograman Setara Opus 4.5, Model Misterius Picu Perdebatan, Ternyata Buatan Dalam Negeri

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Dalam beberapa hari terakhir, model kecil 3B bernama VibeThinker-3B menjadi viral di X karena kemampuannya dalam tugas penalaran yang dapat diverifikasi (seperti pemrograman), yang setara dengan model canggih seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, meski ukurannya jauh lebih kecil. Model dengan 3 miliar parameter ini dikembangkan oleh tim Weibo (Sina) dan dirancang khusus untuk tugas dengan sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, dan eksekusi instruksi dengan batasan jelas. Dalam evaluasi, VibeThinker-3B mencetak skor tinggi: 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terbaru. Model ini dibangun berdasarkan Qwen2.5-Coder-3B dan menggunakan proses *Spectrum-to-Signal* yang ditingkatkan, yang mencakup *fine-tuning* terawasi dengan sintesis data, penyaringan kualitas, dan pembelajaran bertahap, serta *reinforcement learning* di beberapa domain yang dapat diverifikasi. Model ini juga memperkenalkan *Claim-Level Reliability* (CLR), sebuah strategi penskalaan saat pengujian yang lebih meningkatkan kinerja dalam tes matematika. Namun, model ini memiliki batasan dan tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas. Penciptanya mengajukan "hipotesis kompresi parameter," yang menunjukkan bahwa penalaran yang dapat diverifikasi adalah kemampuan yang sangat terkompresi dan padat parameter, sementara ...

Beberapa hari terakhir, sebuah model kecil 3B menjadi viral di X, karena dalam beberapa tugas penalaran yang dapat diverifikasi dengan tingkat kesulitan tertentu (seperti pemrograman), model ini masuk ke dalam rentang kinerja model-model mutakhir seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, padahal ukurannya jauh lebih kecil daripada model-model tersebut.

Model ini bernama VibeThinker-3B, adalah model penalaran padat dengan 3 miliar parameter, yang bertujuan untuk mengeksplorasi sejauh mana kemampuan penalaran yang dapat diverifikasi dapat didorong dalam skala model kecil yang ketat.

Setelah dirilis, banyak orang terkagum-kagum dengan hasilnya dan menyatakan ingin mencobanya langsung.

Perlu diperhatikan, model ini juga merupakan model buatan dalam negeri, berasal dari tim Weibo (Sina Weibo).

Laporan teknis menunjukkan bahwa model ini dirancang khusus untuk tugas-tugas yang memiliki sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, serta eksekusi instruksi dengan batasan yang jelas.

Oleh karena itu, model ini menunjukkan performa yang luar biasa dalam berbagai pengujian tolok ukur. Model ini mencetak skor 94.3 pada pengujian AIME26, 89.3 pada pengujian HMMT25, 80.2 (Pass@1) pada pengujian LiveCodeBench v6, dan mencapai tingkat keberhasilan 96.1% dalam kontes mingguan dan dua mingguan LeetCode terbaru yang tidak dipublikasikan, yang berlangsung dari 25 April hingga 31 Mei 2026.

Bagaimana model ini dilatih? Laporan teknis mengungkapkan beberapa detail.

Pertama, model ini dibangun berdasarkan Qwen2.5-Coder-3B, dan menggunakan proses peningkatan Spectrum-to-Signal untuk pelatihan lanjutan. Proses ini memperkuat sintesis data, penyaringan kualitas, dan pembelajaran bertahap dalam fine-tuning berbasis supervisi (SFT), memperluas reinforcement learning bergaya MGPO ke berbagai domain yang dapat diverifikasi, mempertahankan jejak penalaran konteks panjang yang utuh, serta mengonsolidasikan berbagai kemampuan melalui penyulingan diri offline dan reinforcement learning berbasis instruksi (Instruct RL).

Alur pelatihan keseluruhan VibeThinker-3B

Proses Spectrum-to-Signal.

Selain itu, VibeThinker-3B juga memperkenalkan Claim-Level Reliability assessment (CLR), sebuah strategi penskalaan saat pengujian yang berorientasi pada penalaran yang dapat diverifikasi jawabannya. CLR lebih lanjut meningkatkan kinerja pada tolok ukur matematika, meningkatkan AIME26 dari 94.3 menjadi 97.1, HMMT25 dari 89.3 menjadi 95.4, dan BruMO25 menjadi 99.2.

Alur pelatihan spesifiknya adalah sebagai berikut:

SFT dua tahap berbasis kurikulum. Tahap pertama fokus pada cakupan kemampuan luas di berbagai aspek seperti matematika, pemrograman, penalaran STEM, dialog umum, dan kepatuhan instruksi. Tahap kedua beralih ke sampel penalaran yang lebih sulit dan lebih luas. Diversity Exploration Distillation digunakan untuk mempertahankan beberapa jalur solusi yang efektif.
Reinforcement learning penalaran multi-domain. VibeThinker-3B menggunakan kembali MGPO. Reinforcement learning diterapkan secara berurutan pada tugas penalaran matematika, pemrograman, dan STEM. Pelatihan menggunakan satu jendela konteks panjang 64K untuk mempertahankan jejak penalaran domain panjang yang utuh.
Penyulingan diri offline. Jejak berkualitas tinggi disaring dan disuling dari checkpoint RL matematika, pemrograman, dan STEM, akhirnya membentuk model siswa yang terpadu. Learning Potential Scoring digunakan untuk memprioritaskan jejak yang benar tetapi belum ditiru dengan baik oleh model siswa.
Instruct RL. Tahap akhir meningkatkan kemampuan kontrol terhadap prompt yang berorientasi pengguna. Untuk data instruksional yang sensitif terhadap format dan terbuka, digunakan validator berbasis aturan dan model reward berbasis rubrik.

Dalam sebuah postingan baru-baru ini, peneliti dan blogger AI terkenal Sebastian Raschka merangkum secara sistematis poin-poin utama yang diungkapkan dalam laporan teknis VibeThinker-3B, termasuk beberapa hal berikut:

Jika Anda tertarik dengan konten ini, Anda dapat membaca detail laporan teknis mereka. Saat ini, model ini juga dapat diunduh secara publik.

Judul Laporan: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Tautan Laporan: https://arxiv.org/pdf/2606.16140

Tautan HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Namun, ruang lingkup penerapan model ini memiliki batasan yang jelas, karena kinerjanya tidak luar biasa di domain yang membutuhkan pengetahuan umum.

Pihak resmi juga dengan jelas menunjukkan hal ini dan mengajukan "Parameter Compression Coverage Hypothesis": berbagai kemampuan bergantung pada parameter model dengan cara yang sangat berbeda. Penalaran yang dapat diverifikasi lebih mendekati kemampuan yang sangat dapat dikompresi dan padat parameter, dengan intinya terletak pada penalaran multi-langkah, pemenuhan batasan, koreksi diri, dan verifikasi jawaban. Ketika struktur ruang tugas cukup jelas dan sinyal umpan balik cukup andal, model kompak juga mungkin memiliki kemampuan penalaran yang mendekati tingkat mutakhir. Sebaliknya, pengetahuan domain terbuka, dialog umum, dan pemahaman skenario ekor panjang lebih bergantung pada parameter skala besar untuk mencakup fakta, konsep, dan pengetahuan dunia secara luas. Hipotesis ini sangat inspiratif. VentureBeat menulis dalam laporannya: "Hipotesis ini mengungkapkan adanya pemisahan sebagian antara kemampuan penalaran dan pengetahuan faktual, dan yang pertama dapat dikompresi lebih efisien daripada yang diperkirakan sebelumnya — wawasan ini memiliki implikasi mendalam bagi industri dalam memandang desain model, biaya penerapan, dan keterjangkauan kemampuan kecerdasan buatan tingkat lanjut."

Penulis menyatakan bahwa tujuan mereka bukanlah menciptakan model kecil sebagai pengganti model skala besar, melainkan memeriksa batas nyata model kecil di sepanjang dimensi kemampuan tertentu. Dengan VibeThinker-3B, mereka berharap dapat menunjukkan bahwa model kecil tidak boleh hanya dipandang sebagai solusi kompromi untuk mengurangi biaya penerapan. Dalam domain kemampuan yang memiliki mekanisme umpan balik dan verifikasi yang jelas, model bahasa kecil menunjukkan jalur penelitian yang menjanjikan, berpotensi mencapai kinerja tingkat mutakhir, dan membentuk hubungan komplementer yang fundamental dengan paradigma penskalaan parameter tradisional.

Saat ini, model ini masih menghadapi beberapa keraguan di komunitas. Jika Anda tertarik dengan model ini, cobalah untuk mengujinya sendiri.

Tautan Referensi:

https://x.com/orcus108/status/2066876960073281582

Artikel ini berasal dari akun resmi WeChat "机器之心" (ID:almosthuman2014), penulis: Zhang Qian

Pertanyaan Terkait

QApa itu model VibeThinker-3B dan mengapa model ini menjadi perbincangan?

AVibeThinker-3B adalah model kecerdasan buatan berparameter 3 miliar dari tim Weibo (Sina Weibo) yang dirancang khusus untuk tugas penalaran yang dapat diverifikasi seperti pemrograman dan matematika. Model ini menjadi perbincangan karena meski ukurannya kecil, kemampuannya dalam tugas seperti pemrograman diklaim setara dengan model besar seperti Claude Opus 4.5 atau Gemini 3 Pro.

QSeberapa baik performa VibeThinker-3B dalam benchmark yang disebutkan?

AMenurut artikel, VibeThinker-3B menunjukkan performa luar biasa dalam beberapa benchmark: skor 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terkini yang belum dipublikasikan. Dengan teknik Claim-Level Reliability (CLR), skor AIME26 bahkan bisa ditingkatkan menjadi 97.1.

QBagaimana proses pelatihan VibeThinker-3B?

AProses pelatihan VibeThinker-3B terdiri dari beberapa tahap: 1) Fine-tuning dengan kurikulum dua tahap yang fokus pada kemampuan luas lalu beralih ke sampel penalaran yang lebih sulit. 2) Reinforcement Learning (RL) yang diterapkan secara berurutan di bidang matematika, pemrograman, dan penalaran STEM. 3) Distilasi mandiri secara offline untuk menyaring dan menyempurnakan lintasan kualitas tinggi dari model. 4) Instruct RL untuk meningkatkan kemampuan mengikuti instruksi dari pengguna.

QApa batasan atau kelemahan utama model VibeThinker-3B?

ABatasan utama VibeThinker-3B adalah performanya yang tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas, seperti percakapan umum, pengetahuan fakta dunia, atau pemahaman skenario kompleks yang tidak memiliki sinyal umpan balik yang jelas dan dapat diverifikasi. Model ini dirancang khusus untuk tugas penalaran terverifikasi.

QApa hipotesis 'Parameter Compression Coverage' yang diajukan oleh pembuat model ini, dan mengapa penting?

AHipotesis 'Parameter Compression Coverage' menyatakan bahwa kemampuan penalaran yang dapat diverifikasi (seperti matematika, pemrograman) lebih mudah dikompresi dan dipadatkan ke dalam model kecil karena bergantung pada langkah-langkah penalaran, pemecahan masalah, dan verifikasi jawaban. Sebaliknya, pengetahuan fakta dan percakapan umum lebih bergantung pada parameter skala besar. Pentingnya hipotesis ini adalah menunjukkan bahwa kemampuan penalaran tingkat tinggi dapat dicapai oleh model kecil, membuka jalur penelitian baru yang melengkapi paradigma model besar.

Bacaan Terkait

Serangan Coldcard, Salah Satu Peretasan Dompet Bitcoin Terbesar Belakangan Ini, Memicu Gelombang Kerugian Baru! Kerugian Terus Meningkat

Penelitian Galaxy Research mengungkapkan tiga gelombang serangan terhadap dompet Coldcard, yang menyebabkan total kerugian sekitar 1.367 BTC (senilai ~$88,6 juta) dari 4.585 alamat. Gelombang pertama dan kedua menunjukkan pola serupa, diduga dilakukan oleh pelaku yang sama. Namun, **gelombang ketiga** menampilkan perbedaan signifikan dalam metode penyerangan, seperti penggunaan alamat tujuan yang unik untuk setiap korban dan target alamat P2WSH. Perbedaan ini menimbulkan kemungkinan adanya **pelaku kedua** yang mengeksploitasi kerentanan yang sama setelah informasi bocor. Dana hasil curian masih belum dipindahkan dari alamat pelaku. Analisis menunjukkan kerugian terutama berasal dari dompet pengguna individu dengan saldo kecil, meskipun alamat dengan saldo besar menyumbang porsi kerugian utama. Kerentanan perangkat lunak Coldcard berasal dari rilis tanggal 17 Maret 2021, dan semua Bitcoin yang dicuri berasal dari blok setelah tanggal tersebut.

cryptonews.ru39m yang lalu

Serangan Coldcard, Salah Satu Peretasan Dompet Bitcoin Terbesar Belakangan Ini, Memicu Gelombang Kerugian Baru! Kerugian Terus Meningkat

cryptonews.ru39m yang lalu

Trump Media Jual Lagi 2.628 BTC, Kepemilikan Turun Menjadi 4.261 BTC

Trump Media & Technology Group, perusahaan di balik Truth Social, kembali melakukan penjualan besar terhadap aset Bitcoin miliknya. Menurut data dari Arkham yang dikutip Lookonchain, perusahaan menjual 2.628 BTC senilai sekitar $165 juta melalui transfer ke Crypto.com. Perusahaan ini awalnya membeli 11.542 BTC dengan harga rata-rata $118.522. Setelah tujuh bulan melakukan serangkaian penjualan, total yang telah dijual mencapai 7.281 BTC (sekitar $545 juta) dengan harga jual rata-rata $74.855 per BTC. Kini, kepemilikan Bitcoin Trump Media tersisa 4.261 BTC senilai $269,8 juta. Penjualan ini terjadi di tengah meningkatnya pengawasan terhadap usaha crypto yang dikaitkan dengan mantan Presiden AS Donald Trump, termasuk memecoin TRUMP dan MELANIA. Parlemen AS sedang membahas Undang-Undang CLARITY yang memperketat aturan etika kepemilikan aset digital bagi pejabat publik, meski undang-undang tersebut tidak mewajibkan perusahaan menjual aset crypto yang sudah dimiliki.

cointelegraph59m yang lalu

Trump Media Jual Lagi 2.628 BTC, Kepemilikan Turun Menjadi 4.261 BTC

cointelegraph59m yang lalu

Fujian Jinjiang, Sebuah Unicorn Super Penyimpanan yang Tumbuh dalam Diam

Perusahaan memori super unicorn Fujian Jinhua secara diam-diam bersembunyi di Jinjiang, Fujian, yang terkenal dengan sepatu olahraganya. Dulu, Jinhua adalah salah satu dari tiga basis chip memori domestik bersama Yangtze Memory dan ChangXin Memory Technologies (CXMT), bahkan pernah menjadi yang paling menjanjikan. Namun, Jinhua menghadapi rintangan besar. Pada 2018, ia dimasukkan dalam daftar entitas oleh Departemen Perdagangan AS dan menghadapi tuduhan pidana, yang menghentikan produksinya selama hampir lima tahun. Baru pada Februari 2024, pengadilan federal AS membebaskannya dari semua tuduhan. Jinhua didirikan pada 2016 dengan misi nasional untuk mematahkan monopoli Samsung, SK Hynix, dan Micron di pasar DRAM. Perusahaan ini bekerja sama dengan United Microelectronics Corporation (UMC) dari Taiwan. Chen Zhengkun, mantan eksekutif Micron, memimpin proyek ini sebagai CEO, didorong oleh mimpi mengembangkan teknologi DRAM secara mandiri. Meskipun pembangunan pabrik berjalan cepat, Micron menuduh UMC dan Jinhua mencuri rahasia dagangnya, memicu sengketa hukum panjang. Setelah dimasukkan dalam daftar entitas, Jinhua harus membangun kembali lini produksinya hampir dari nol dengan mengurangi ketergantungan pada teknologi AS, dipimpin oleh Chen yang dijuluki "penyihir hasil". Saat ini, Jinhua fokus pada pasar DRAM ceruk (niche) untuk perangkat seperti TV pintar dan router. Kapasitas produksinya mencapai sekitar 40.000 wafer 12 inci per bulan, dengan target 60.000 wafer pada 2026. Perusahaan memiliki lebih dari 1.000 paten. Meski bebas secara hukum, Jinhua masih berada dalam daftar entitas AS. Dukungan kuat dari pemerintah kota Jinjiang dan provinsi Fujian sangat penting bagi kelangsungan hidup Jinhua selama masa sulit. Kota yang secara tradisional mengandalkan tekstil dan makanan ini sekarang berinvestasi besar dalam industri sirkuit terpadu, dengan Jinhua sebagai pionir. Industri IC Jinjiang diperkirakan akan mencapai nilai output lebih dari 14 miliar yuan pada 2025. Dalam siklus super memori yang didorong oleh AI, meskipun skala Jinhua masih kecil dibandingkan raksasa global, kebangkitannya dari keterpurukan melambangkan ketahanan dan tekad dalam mengembangkan industri memori China.

marsbit1j yang lalu

Fujian Jinjiang, Sebuah Unicorn Super Penyimpanan yang Tumbuh dalam Diam

marsbit1j yang lalu

38GW Defisit Listrik, Mengapa Tambang Bitcoin Tiba-tiba Menjadi Pintu Masuk Kecerdasan Buatan?

Dengan persaingan pusat data AI yang beralih dari "siapa bisa membeli lebih banyak GPU" ke "siapa bisa mendapatkan listrik lebih cepat", bekas tambang bitcoin kini bertransformasi menjadi fasilitas penyedia daya untuk komputasi AI. Perusahaan seperti TeraWulf dan Riot Platforms tidak lagi hanya menekankan produksi bitcoin, tetapi pada kapasitas listrik yang tersedia dan proyek infrastruktur yang siap pakai. Menurut analisis Morgan Stanley, AS diperkirakan akan mengalami kekurangan daya sekitar 38GW untuk pusat data pada 2026-2028. Bekas lokasi tambang bitcoin berpotensi menyumbang 10-19GW dari kapasitas yang dibutuhkan, karena sudah memiliki akses jaringan listrik, lahan, dan fasilitas kelistrikan yang disetujui—sesuatu yang bisa membutuhkan waktu 5-7 tahun untuk dibangun dari nol. Transisi ini mengubah model bisnis dari penambangan kripto menjadi "Penyedia Cangkang Berdaya" (Powered Shell Provider), yang menyewakan infrastruktur dasar kepada operator cloud dan AI. Nilai kuncinya terletak pada kemampuan mempercepat penyebaran kapasitas komputasi skala besar, mendefinisikan ulang nilai setiap watt listrik yang tersedia.

华尔街日报1j yang lalu

38GW Defisit Listrik, Mengapa Tambang Bitcoin Tiba-tiba Menjadi Pintu Masuk Kecerdasan Buatan?

华尔街日报1j yang lalu

Michael Saylor: 'Kami Tidak Pernah Mengatakan bahwa Kami Tidak Akan Pernah Menjual Bitcoin'

Ketua Komisi Strategi Michael Saylor menegaskan bahwa perusahaannya tidak pernah berjanji untuk tidak menjual Bitcoin miliknya, namun tetap berencana menjadi pembeli bersih Bitcoin dalam jangka panjang. Pernyataan ini dikeluarkan menyusul laporan bahwa Strategy mendapat izin baru untuk menjual Bitcoin hingga $5 miliar. Saylor membantah klaim tersebut, menjelaskan bahwa izin penjualan bukanlah hal baru dan telah diumumkan pada 29 Juni sebagai bagian dari sistem manajemen modal perusahaan. Dia menegaskan bahwa persetujuan ini memungkinkan penjualan Bitcoin untuk tujuan tertentu, tetapi tidak mewajibkannya, dan menekankan bahwa Strategy tidak pernah secara resmi mengadopsi kebijakan "Bitcoin tidak akan pernah dijual". Perusahaan tetap berharap untuk terus menjadi pembeli bersih Bitcoin ke depannya.

cryptonews.ru2j yang lalu

Michael Saylor: 'Kami Tidak Pernah Mengatakan bahwa Kami Tidak Akan Pernah Menjual Bitcoin'