Model Kecil 3B, Skor Pemrograman Setara Opus 4.5, Model Misterius Picu Perdebatan, Ternyata Buatan Dalam Negeri

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Dalam beberapa hari terakhir, model kecil 3B bernama VibeThinker-3B menjadi viral di X karena kemampuannya dalam tugas penalaran yang dapat diverifikasi (seperti pemrograman), yang setara dengan model canggih seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, meski ukurannya jauh lebih kecil. Model dengan 3 miliar parameter ini dikembangkan oleh tim Weibo (Sina) dan dirancang khusus untuk tugas dengan sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, dan eksekusi instruksi dengan batasan jelas. Dalam evaluasi, VibeThinker-3B mencetak skor tinggi: 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terbaru. Model ini dibangun berdasarkan Qwen2.5-Coder-3B dan menggunakan proses *Spectrum-to-Signal* yang ditingkatkan, yang mencakup *fine-tuning* terawasi dengan sintesis data, penyaringan kualitas, dan pembelajaran bertahap, serta *reinforcement learning* di beberapa domain yang dapat diverifikasi. Model ini juga memperkenalkan *Claim-Level Reliability* (CLR), sebuah strategi penskalaan saat pengujian yang lebih meningkatkan kinerja dalam tes matematika. Namun, model ini memiliki batasan dan tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas. Penciptanya mengajukan "hipotesis kompresi parameter," yang menunjukkan bahwa penalaran yang dapat diverifikasi adalah kemampuan yang sangat terkompresi dan padat parameter, sementara ...

Beberapa hari terakhir, sebuah model kecil 3B menjadi viral di X, karena dalam beberapa tugas penalaran yang dapat diverifikasi dengan tingkat kesulitan tertentu (seperti pemrograman), model ini masuk ke dalam rentang kinerja model-model mutakhir seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, padahal ukurannya jauh lebih kecil daripada model-model tersebut.

Model ini bernama VibeThinker-3B, adalah model penalaran padat dengan 3 miliar parameter, yang bertujuan untuk mengeksplorasi sejauh mana kemampuan penalaran yang dapat diverifikasi dapat didorong dalam skala model kecil yang ketat.

Setelah dirilis, banyak orang terkagum-kagum dengan hasilnya dan menyatakan ingin mencobanya langsung.

Perlu diperhatikan, model ini juga merupakan model buatan dalam negeri, berasal dari tim Weibo (Sina Weibo).

Laporan teknis menunjukkan bahwa model ini dirancang khusus untuk tugas-tugas yang memiliki sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, serta eksekusi instruksi dengan batasan yang jelas.

Oleh karena itu, model ini menunjukkan performa yang luar biasa dalam berbagai pengujian tolok ukur. Model ini mencetak skor 94.3 pada pengujian AIME26, 89.3 pada pengujian HMMT25, 80.2 (Pass@1) pada pengujian LiveCodeBench v6, dan mencapai tingkat keberhasilan 96.1% dalam kontes mingguan dan dua mingguan LeetCode terbaru yang tidak dipublikasikan, yang berlangsung dari 25 April hingga 31 Mei 2026.

Bagaimana model ini dilatih? Laporan teknis mengungkapkan beberapa detail.

Pertama, model ini dibangun berdasarkan Qwen2.5-Coder-3B, dan menggunakan proses peningkatan Spectrum-to-Signal untuk pelatihan lanjutan. Proses ini memperkuat sintesis data, penyaringan kualitas, dan pembelajaran bertahap dalam fine-tuning berbasis supervisi (SFT), memperluas reinforcement learning bergaya MGPO ke berbagai domain yang dapat diverifikasi, mempertahankan jejak penalaran konteks panjang yang utuh, serta mengonsolidasikan berbagai kemampuan melalui penyulingan diri offline dan reinforcement learning berbasis instruksi (Instruct RL).

Alur pelatihan keseluruhan VibeThinker-3B

Proses Spectrum-to-Signal.

Selain itu, VibeThinker-3B juga memperkenalkan Claim-Level Reliability assessment (CLR), sebuah strategi penskalaan saat pengujian yang berorientasi pada penalaran yang dapat diverifikasi jawabannya. CLR lebih lanjut meningkatkan kinerja pada tolok ukur matematika, meningkatkan AIME26 dari 94.3 menjadi 97.1, HMMT25 dari 89.3 menjadi 95.4, dan BruMO25 menjadi 99.2.

Alur pelatihan spesifiknya adalah sebagai berikut:

  • SFT dua tahap berbasis kurikulum. Tahap pertama fokus pada cakupan kemampuan luas di berbagai aspek seperti matematika, pemrograman, penalaran STEM, dialog umum, dan kepatuhan instruksi. Tahap kedua beralih ke sampel penalaran yang lebih sulit dan lebih luas. Diversity Exploration Distillation digunakan untuk mempertahankan beberapa jalur solusi yang efektif.
  • Reinforcement learning penalaran multi-domain. VibeThinker-3B menggunakan kembali MGPO. Reinforcement learning diterapkan secara berurutan pada tugas penalaran matematika, pemrograman, dan STEM. Pelatihan menggunakan satu jendela konteks panjang 64K untuk mempertahankan jejak penalaran domain panjang yang utuh.
  • Penyulingan diri offline. Jejak berkualitas tinggi disaring dan disuling dari checkpoint RL matematika, pemrograman, dan STEM, akhirnya membentuk model siswa yang terpadu. Learning Potential Scoring digunakan untuk memprioritaskan jejak yang benar tetapi belum ditiru dengan baik oleh model siswa.
  • Instruct RL. Tahap akhir meningkatkan kemampuan kontrol terhadap prompt yang berorientasi pengguna. Untuk data instruksional yang sensitif terhadap format dan terbuka, digunakan validator berbasis aturan dan model reward berbasis rubrik.

Dalam sebuah postingan baru-baru ini, peneliti dan blogger AI terkenal Sebastian Raschka merangkum secara sistematis poin-poin utama yang diungkapkan dalam laporan teknis VibeThinker-3B, termasuk beberapa hal berikut:

Jika Anda tertarik dengan konten ini, Anda dapat membaca detail laporan teknis mereka. Saat ini, model ini juga dapat diunduh secara publik.

Judul Laporan: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Tautan Laporan: https://arxiv.org/pdf/2606.16140

Tautan HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Namun, ruang lingkup penerapan model ini memiliki batasan yang jelas, karena kinerjanya tidak luar biasa di domain yang membutuhkan pengetahuan umum.

Pihak resmi juga dengan jelas menunjukkan hal ini dan mengajukan "Parameter Compression Coverage Hypothesis": berbagai kemampuan bergantung pada parameter model dengan cara yang sangat berbeda. Penalaran yang dapat diverifikasi lebih mendekati kemampuan yang sangat dapat dikompresi dan padat parameter, dengan intinya terletak pada penalaran multi-langkah, pemenuhan batasan, koreksi diri, dan verifikasi jawaban. Ketika struktur ruang tugas cukup jelas dan sinyal umpan balik cukup andal, model kompak juga mungkin memiliki kemampuan penalaran yang mendekati tingkat mutakhir. Sebaliknya, pengetahuan domain terbuka, dialog umum, dan pemahaman skenario ekor panjang lebih bergantung pada parameter skala besar untuk mencakup fakta, konsep, dan pengetahuan dunia secara luas. Hipotesis ini sangat inspiratif. VentureBeat menulis dalam laporannya: "Hipotesis ini mengungkapkan adanya pemisahan sebagian antara kemampuan penalaran dan pengetahuan faktual, dan yang pertama dapat dikompresi lebih efisien daripada yang diperkirakan sebelumnya — wawasan ini memiliki implikasi mendalam bagi industri dalam memandang desain model, biaya penerapan, dan keterjangkauan kemampuan kecerdasan buatan tingkat lanjut."

Penulis menyatakan bahwa tujuan mereka bukanlah menciptakan model kecil sebagai pengganti model skala besar, melainkan memeriksa batas nyata model kecil di sepanjang dimensi kemampuan tertentu. Dengan VibeThinker-3B, mereka berharap dapat menunjukkan bahwa model kecil tidak boleh hanya dipandang sebagai solusi kompromi untuk mengurangi biaya penerapan. Dalam domain kemampuan yang memiliki mekanisme umpan balik dan verifikasi yang jelas, model bahasa kecil menunjukkan jalur penelitian yang menjanjikan, berpotensi mencapai kinerja tingkat mutakhir, dan membentuk hubungan komplementer yang fundamental dengan paradigma penskalaan parameter tradisional.

Saat ini, model ini masih menghadapi beberapa keraguan di komunitas. Jika Anda tertarik dengan model ini, cobalah untuk mengujinya sendiri.

Tautan Referensi:

https://x.com/orcus108/status/2066876960073281582

Artikel ini berasal dari akun resmi WeChat "机器之心" (ID:almosthuman2014), penulis: Zhang Qian

Pertanyaan Terkait

QApa itu model VibeThinker-3B dan mengapa model ini menjadi perbincangan?

AVibeThinker-3B adalah model kecerdasan buatan berparameter 3 miliar dari tim Weibo (Sina Weibo) yang dirancang khusus untuk tugas penalaran yang dapat diverifikasi seperti pemrograman dan matematika. Model ini menjadi perbincangan karena meski ukurannya kecil, kemampuannya dalam tugas seperti pemrograman diklaim setara dengan model besar seperti Claude Opus 4.5 atau Gemini 3 Pro.

QSeberapa baik performa VibeThinker-3B dalam benchmark yang disebutkan?

AMenurut artikel, VibeThinker-3B menunjukkan performa luar biasa dalam beberapa benchmark: skor 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terkini yang belum dipublikasikan. Dengan teknik Claim-Level Reliability (CLR), skor AIME26 bahkan bisa ditingkatkan menjadi 97.1.

QBagaimana proses pelatihan VibeThinker-3B?

AProses pelatihan VibeThinker-3B terdiri dari beberapa tahap: 1) Fine-tuning dengan kurikulum dua tahap yang fokus pada kemampuan luas lalu beralih ke sampel penalaran yang lebih sulit. 2) Reinforcement Learning (RL) yang diterapkan secara berurutan di bidang matematika, pemrograman, dan penalaran STEM. 3) Distilasi mandiri secara offline untuk menyaring dan menyempurnakan lintasan kualitas tinggi dari model. 4) Instruct RL untuk meningkatkan kemampuan mengikuti instruksi dari pengguna.

QApa batasan atau kelemahan utama model VibeThinker-3B?

ABatasan utama VibeThinker-3B adalah performanya yang tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas, seperti percakapan umum, pengetahuan fakta dunia, atau pemahaman skenario kompleks yang tidak memiliki sinyal umpan balik yang jelas dan dapat diverifikasi. Model ini dirancang khusus untuk tugas penalaran terverifikasi.

QApa hipotesis 'Parameter Compression Coverage' yang diajukan oleh pembuat model ini, dan mengapa penting?

AHipotesis 'Parameter Compression Coverage' menyatakan bahwa kemampuan penalaran yang dapat diverifikasi (seperti matematika, pemrograman) lebih mudah dikompresi dan dipadatkan ke dalam model kecil karena bergantung pada langkah-langkah penalaran, pemecahan masalah, dan verifikasi jawaban. Sebaliknya, pengetahuan fakta dan percakapan umum lebih bergantung pada parameter skala besar. Pentingnya hipotesis ini adalah menunjukkan bahwa kemampuan penalaran tingkat tinggi dapat dicapai oleh model kecil, membuka jalur penelitian baru yang melengkapi paradigma model besar.

Bacaan Terkait

Dana Kembali, Ethlabs Maju: Ethereum Menghadapi Restrukturisasi Terbesar dalam Sejarah

Pada 23 Juni, ekosistem Ethereum mengalami dua perkembangan penting. Ethlabs, organisasi nirlaba independen baru yang didirikan oleh mantan peneliti Ethereum Foundation, diluncurkan dengan dukungan dana utama dari pemegang ETH besar seperti Bitmine dan SharpLink. Fokus awal Ethlabs adalah memenuhi kebutuhan adopsi institusional, seperti kecepatan penyelesaian lebih cepat, penerbitan aset asli, dan perluasan kapasitas jaringan utama. Secara bersamaan, Ethereum Foundation mengumumkan restrukturisasi besar-besaran, mengurangi 54 karyawan (sekitar 20% dari total) dan memposisikan ulang dirinya sebagai penjaga dan pengatur protokol yang lebih ringan, bukan sebagai pengembang inti utama. Perubahan ini menandakan pergeseran tata kelola: yayasan mengambil langkah mundur, sementara organisasi seperti Ethlabs mengambil peran eksekusi yang lebih besar untuk menjawab kritik mengenai kecepatan dan adopsi pasar. Ethlabs, didukung banyak tokoh berpengaruh ekosistem (kecuali Vitalik Buterin), bertujuan menjadi lapisan eksekusi yang lebih terindustrialisasi, mengatasi kecemasan Ethereum tentang adopsi institusional dan skalabilitas. Sementara Ethereum Foundation berfokus menjaga "kebenaran" dan netralitas protokol, Ethlabs diharapkan membuktikan "keefektifan" Ethereum dalam menarik modal dan aplikasi dunia nyata. Langkah ini dipandang sebagai koreksi tata kelola penting untuk membuat Ethereum lebih tanggap terhadap pasar, meski berpotensi menimbulkan ketegangan baru antara kepentingan institusional dan semangat asli crypto.

链捕手5j yang lalu

Dana Kembali, Ethlabs Maju: Ethereum Menghadapi Restrukturisasi Terbesar dalam Sejarah

链捕手5j yang lalu

Paruh Kedua Kebijakan Kripto AS: UU CLARITY Perjuangkan 60 Suara, Komite "Satu Orang" CFTC Jadi Variabel Terbesar

Penulis: Cleve Mesidor, Direktur Eksekutif National Blockchain Foundation di Washington DC Industri kripto di AS tengah menantikan momen pentingnya dengan kemajuan RUU CLARITY di Senat, yang membutuhkan 60 suara untuk disahkan. Untuk mencapainya, Partai Republik mungkin perlu berkompromi dengan Gedung Putih dan menarik beberapa senator yang masih ragu-ragu. Waktu yang tersisa sangat terbatas, hanya sekitar 40 hari kerja legislatif. Selain prospek RUU CLARITY, beberapa proposal perpajakan kripto yang dipisahkan dari RUU PARITY baru berpeluang disahkan tahun ini dengan menumpang pada undang-undang yang lebih besar. Undang-Undang Kepastian Regulasi Blockchain juga berusaha memasukkan perlindungan bagi pengembang ke dalam hukum. Situasi di Commodity Futures Trading Commission (CFTC) memprihatinkan karena kekurangan empat komisioner, menambah ketidakpastian. Perdebatan mengenai yurisdiksi atas pasar prediksi—apakah jatuh ke negara bagian, CFTC, Securities and Exchange Commission (SEC), atau Mahkamah Agung—juga masih berlangsung. Industri akan kehilangan dua pendukung kunci: Komisioner SEC Hester M. Peirce dan Senator Cynthia Lummis, yang keduanya memainkan peran sentral dalam kebijakan kripto. Para ahli berpendapat: - **Sara K. Weed**: Peluang RUU CLARITY lolos tahun ini kecil karena kendala waktu dan pemilu, sehingga SEC dan CFTC harus lebih aktif memberikan kepastian. - **Sulolit 'Raj' Mukherjee**: Reformasi pajak kripto yang berarti kemungkinan akan disahkan dengan menempel pada paket undang-undang yang lebih besar, bukan sebagai RUU mandiri. - **Rashan Colbert**: CFTC sedang berupaya membangun kerangka regulasi yang lebih kokoh untuk pasar prediksi yang tengah berkembang, meski perdebatan klasifikasinya sebagai infrastruktur keuangan atau perjudian masih berlanjut. Babak kedua pertarungan kebijakan kripto telah dimulai. Meski waktu sempit, peluang masih ada, tetapi diperlukan komunikasi dan dorongan pragmatis lintas partai untuk mencapai hasil substansial pada 2026.

marsbit8j yang lalu

Paruh Kedua Kebijakan Kripto AS: UU CLARITY Perjuangkan 60 Suara, Komite "Satu Orang" CFTC Jadi Variabel Terbesar

marsbit8j yang lalu

Artikel Baru Dan Koe: Melarikan Diri dari Nasib Pekerja Kantoran, Bagaimana Bertahan di Tengah Gelombang Penggantian AI?

**Rangkuman Artikel: Lolos dari Nasib Karyawan dan Bertahan di Era Penggantian AI** Banyak yang khawatir pekerjaan mereka akan sepenuhnya digantikan oleh AI, tetapi ancaman sebenarnya bukanlah teknologi, melainkan ketergantungan pada orang lain untuk masa depan dan kesejahteraan kita. Artikel ini membahas cara keluar dari "perbudakan gaji" (hidup hanya untuk bekerja pada hal yang tidak bermakna) dan menemukan cara kerja yang lebih bermakna. Kunci untuk bertahan dan berkembang di era AI adalah **memulai usaha sendiri**. Untuk melakukan ini, Anda perlu menguasai lima elemen inti kesuksesan: 1. **Agen (Agency):** Kemampuan untuk bertindak tanpa menunggu perintah. 2. **Selera (Taste):** Intuisi untuk membedakan yang baik dan bernilai. 3. **Persuasif:** Kemampuan meyakinkan orang lain. 4. **Ketekunan (Persistence):** Memahami bahwa kegagalan adalah bagian dari proses. 5. **Iterasi (Iteration):** Kemampuan untuk terus memperbaiki berdasarkan umpan balik. Lima elemen ini mengerucut pada dua keterampilan utama: **memecahkan masalah dan akumulasi pengalaman** untuk mengetahui apa yang harus dilakukan. **Langkah praktis untuk memulai:** 1. **Ubah Lingkungan Anda:** Untuk mengubah identitas dan kebiasaan, ubah total lingkungan dan rangsangan di sekitar Anda—mulai dari konten yang dikonsumsi hingga rutinitas harian. 2. **Pilih Media Konten sebagai Wahana Utama:** Dibandingkan coding, keterampilan membuat konten (tulisan, video, podcast) lebih berharga karena nilainya subjektif dan membutuhkan selera yang tidak bisa sepenuhnya digantikan AI. Ini adalah "jagoan" masa depan. 3. **Temukan "Panggilan Hidup" Anda, Bukan Hanya Membangun Merek Pribadi:** Jawab pertanyaan-pertanyaan mendalam untuk menggali bahan baku unik Anda: * Topik apa yang paling Anda kuasai atau ingin pelajari tanpa dibayar? * Masalah apa yang mudah Anda selesaikan tetapi orang lain kesulitan? * Pendapat "anti-konsensus" apa yang Anda pegang teguh di bidang Anda? 4. **Langkah Aksi: Terbitkan Gagasan Pertama Anda.** Gabungkan jawaban dari pencarian panggilan hidup Anda menjadi satu potong konten dan PUBLIKASIKAN. Umpan balik nyata dari dunia adalah guru terbaik untuk belajar, beriterasi, dan mengembangkan keterampilan persuasif serta selera Anda. Mulailah dengan meluangkan 15 menit untuk menjawab pertanyaan-pertanyaan inti dan mempublikasikan satu ide. Proses inilah yang akan membebaskan Anda dari ketergantungan finansial pada orang lain.

marsbit9j yang lalu

Artikel Baru Dan Koe: Melarikan Diri dari Nasib Pekerja Kantoran, Bagaimana Bertahan di Tengah Gelombang Penggantian AI?

marsbit9j yang lalu

Interpretasi Riset: Morgan Stanley Memperjelas SanDisk (SNDK), Kebenaran Kekuatan Penetapan Harga di Pusat Data Cloud dan Dividen Inferensi AI

**Ringkasan Laporan: Morgan Stanley Menganalisis SNDK, Kekuatan Penetapan Harga di Pusat Data Awan & Realitas Manfaat AI Inference** Morgan Stanley (MS) pada 22 Juni meningkatkan target harga SNDK dari $1100 menjadi $1750, dengan rating "Overweight". Alasan utamanya: permintaan untuk **AI inference** mengubah aturan pasar NAND. Pelanggan pusat data awan (cloud) yang membayar premium untuk penyimpanan **KV Cache** dan konteks AI menjadi kurang sensitif terhadap harga, memberikan SNDK **kekuatan penetapan harga**. SNDK mengunci profitabilitas masa depan melalui **NBM (New Business Model)**, kontrak jangka panjang (3-5 tahun) yang telah mencakup lebih dari sepertiga volume bit FY27. Kontrak ini memiliki harga tetap atau struktur floor/ceiling, dan bahkan pada harga terendah (floor) dapat mempertahankan margin kotor sekitar **80%**. MS memproyeksikan margin kotor SNDK akan melonjak dari 30.3% (FY25) menjadi 86.7% (FY27e). Dengan pasokan NAND yang diperkirakan tetap ketat hingga setidaknya pertengahan 2027, SNDK berfokus pada pertumbuhan melalui peningkatan kepadatan (density), bukan ekspansi kapasitas besar-besaran. Pertumbuhan pendapatan yang diproyeksikan (6.6x dari FY25 ke FY27) berasal dari segmen cloud ber-margin tinggi. **Katalis:** Adopsi eSSD di pusat data yang melampaui ekspektasi, pertumbuhan AI di edge, dan teknologi baru seperti HBM. **Risiko:** Pertumbuhan industri melambat, kompetisi meningkat (termasuk dari produsen China seperti YMTC), dan kehilangan pangsa pasar di segmen pusat data. Logika utama MS: **1)** Perubahan struktural permintaan AI inference, **2)** Perlindungan margin oleh kontrak NBM, dan **3)** Pasokan NAND yang ketat. Target harga $1750 didasarkan pada 28x PER FY27e.

marsbit9j yang lalu

Interpretasi Riset: Morgan Stanley Memperjelas SanDisk (SNDK), Kebenaran Kekuatan Penetapan Harga di Pusat Data Cloud dan Dividen Inferensi AI

marsbit9j yang lalu

Trading

Spot
Futures
活动图片