Model Kecil 3B, Skor Pemrograman Setara Opus 4.5, Model Misterius Picu Perdebatan, Ternyata Buatan Dalam Negeri

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Dalam beberapa hari terakhir, model kecil 3B bernama VibeThinker-3B menjadi viral di X karena kemampuannya dalam tugas penalaran yang dapat diverifikasi (seperti pemrograman), yang setara dengan model canggih seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, meski ukurannya jauh lebih kecil. Model dengan 3 miliar parameter ini dikembangkan oleh tim Weibo (Sina) dan dirancang khusus untuk tugas dengan sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, dan eksekusi instruksi dengan batasan jelas. Dalam evaluasi, VibeThinker-3B mencetak skor tinggi: 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terbaru. Model ini dibangun berdasarkan Qwen2.5-Coder-3B dan menggunakan proses *Spectrum-to-Signal* yang ditingkatkan, yang mencakup *fine-tuning* terawasi dengan sintesis data, penyaringan kualitas, dan pembelajaran bertahap, serta *reinforcement learning* di beberapa domain yang dapat diverifikasi. Model ini juga memperkenalkan *Claim-Level Reliability* (CLR), sebuah strategi penskalaan saat pengujian yang lebih meningkatkan kinerja dalam tes matematika. Namun, model ini memiliki batasan dan tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas. Penciptanya mengajukan "hipotesis kompresi parameter," yang menunjukkan bahwa penalaran yang dapat diverifikasi adalah kemampuan yang sangat terkompresi dan padat parameter, sementara ...

Beberapa hari terakhir, sebuah model kecil 3B menjadi viral di X, karena dalam beberapa tugas penalaran yang dapat diverifikasi dengan tingkat kesulitan tertentu (seperti pemrograman), model ini masuk ke dalam rentang kinerja model-model mutakhir seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, padahal ukurannya jauh lebih kecil daripada model-model tersebut.

Model ini bernama VibeThinker-3B, adalah model penalaran padat dengan 3 miliar parameter, yang bertujuan untuk mengeksplorasi sejauh mana kemampuan penalaran yang dapat diverifikasi dapat didorong dalam skala model kecil yang ketat.

Setelah dirilis, banyak orang terkagum-kagum dengan hasilnya dan menyatakan ingin mencobanya langsung.

Perlu diperhatikan, model ini juga merupakan model buatan dalam negeri, berasal dari tim Weibo (Sina Weibo).

Laporan teknis menunjukkan bahwa model ini dirancang khusus untuk tugas-tugas yang memiliki sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, serta eksekusi instruksi dengan batasan yang jelas.

Oleh karena itu, model ini menunjukkan performa yang luar biasa dalam berbagai pengujian tolok ukur. Model ini mencetak skor 94.3 pada pengujian AIME26, 89.3 pada pengujian HMMT25, 80.2 (Pass@1) pada pengujian LiveCodeBench v6, dan mencapai tingkat keberhasilan 96.1% dalam kontes mingguan dan dua mingguan LeetCode terbaru yang tidak dipublikasikan, yang berlangsung dari 25 April hingga 31 Mei 2026.

Bagaimana model ini dilatih? Laporan teknis mengungkapkan beberapa detail.

Pertama, model ini dibangun berdasarkan Qwen2.5-Coder-3B, dan menggunakan proses peningkatan Spectrum-to-Signal untuk pelatihan lanjutan. Proses ini memperkuat sintesis data, penyaringan kualitas, dan pembelajaran bertahap dalam fine-tuning berbasis supervisi (SFT), memperluas reinforcement learning bergaya MGPO ke berbagai domain yang dapat diverifikasi, mempertahankan jejak penalaran konteks panjang yang utuh, serta mengonsolidasikan berbagai kemampuan melalui penyulingan diri offline dan reinforcement learning berbasis instruksi (Instruct RL).

Alur pelatihan keseluruhan VibeThinker-3B

Proses Spectrum-to-Signal.

Selain itu, VibeThinker-3B juga memperkenalkan Claim-Level Reliability assessment (CLR), sebuah strategi penskalaan saat pengujian yang berorientasi pada penalaran yang dapat diverifikasi jawabannya. CLR lebih lanjut meningkatkan kinerja pada tolok ukur matematika, meningkatkan AIME26 dari 94.3 menjadi 97.1, HMMT25 dari 89.3 menjadi 95.4, dan BruMO25 menjadi 99.2.

Alur pelatihan spesifiknya adalah sebagai berikut:

SFT dua tahap berbasis kurikulum. Tahap pertama fokus pada cakupan kemampuan luas di berbagai aspek seperti matematika, pemrograman, penalaran STEM, dialog umum, dan kepatuhan instruksi. Tahap kedua beralih ke sampel penalaran yang lebih sulit dan lebih luas. Diversity Exploration Distillation digunakan untuk mempertahankan beberapa jalur solusi yang efektif.
Reinforcement learning penalaran multi-domain. VibeThinker-3B menggunakan kembali MGPO. Reinforcement learning diterapkan secara berurutan pada tugas penalaran matematika, pemrograman, dan STEM. Pelatihan menggunakan satu jendela konteks panjang 64K untuk mempertahankan jejak penalaran domain panjang yang utuh.
Penyulingan diri offline. Jejak berkualitas tinggi disaring dan disuling dari checkpoint RL matematika, pemrograman, dan STEM, akhirnya membentuk model siswa yang terpadu. Learning Potential Scoring digunakan untuk memprioritaskan jejak yang benar tetapi belum ditiru dengan baik oleh model siswa.
Instruct RL. Tahap akhir meningkatkan kemampuan kontrol terhadap prompt yang berorientasi pengguna. Untuk data instruksional yang sensitif terhadap format dan terbuka, digunakan validator berbasis aturan dan model reward berbasis rubrik.

Dalam sebuah postingan baru-baru ini, peneliti dan blogger AI terkenal Sebastian Raschka merangkum secara sistematis poin-poin utama yang diungkapkan dalam laporan teknis VibeThinker-3B, termasuk beberapa hal berikut:

Jika Anda tertarik dengan konten ini, Anda dapat membaca detail laporan teknis mereka. Saat ini, model ini juga dapat diunduh secara publik.

Judul Laporan: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Tautan Laporan: https://arxiv.org/pdf/2606.16140

Tautan HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Namun, ruang lingkup penerapan model ini memiliki batasan yang jelas, karena kinerjanya tidak luar biasa di domain yang membutuhkan pengetahuan umum.

Pihak resmi juga dengan jelas menunjukkan hal ini dan mengajukan "Parameter Compression Coverage Hypothesis": berbagai kemampuan bergantung pada parameter model dengan cara yang sangat berbeda. Penalaran yang dapat diverifikasi lebih mendekati kemampuan yang sangat dapat dikompresi dan padat parameter, dengan intinya terletak pada penalaran multi-langkah, pemenuhan batasan, koreksi diri, dan verifikasi jawaban. Ketika struktur ruang tugas cukup jelas dan sinyal umpan balik cukup andal, model kompak juga mungkin memiliki kemampuan penalaran yang mendekati tingkat mutakhir. Sebaliknya, pengetahuan domain terbuka, dialog umum, dan pemahaman skenario ekor panjang lebih bergantung pada parameter skala besar untuk mencakup fakta, konsep, dan pengetahuan dunia secara luas. Hipotesis ini sangat inspiratif. VentureBeat menulis dalam laporannya: "Hipotesis ini mengungkapkan adanya pemisahan sebagian antara kemampuan penalaran dan pengetahuan faktual, dan yang pertama dapat dikompresi lebih efisien daripada yang diperkirakan sebelumnya — wawasan ini memiliki implikasi mendalam bagi industri dalam memandang desain model, biaya penerapan, dan keterjangkauan kemampuan kecerdasan buatan tingkat lanjut."

Penulis menyatakan bahwa tujuan mereka bukanlah menciptakan model kecil sebagai pengganti model skala besar, melainkan memeriksa batas nyata model kecil di sepanjang dimensi kemampuan tertentu. Dengan VibeThinker-3B, mereka berharap dapat menunjukkan bahwa model kecil tidak boleh hanya dipandang sebagai solusi kompromi untuk mengurangi biaya penerapan. Dalam domain kemampuan yang memiliki mekanisme umpan balik dan verifikasi yang jelas, model bahasa kecil menunjukkan jalur penelitian yang menjanjikan, berpotensi mencapai kinerja tingkat mutakhir, dan membentuk hubungan komplementer yang fundamental dengan paradigma penskalaan parameter tradisional.

Saat ini, model ini masih menghadapi beberapa keraguan di komunitas. Jika Anda tertarik dengan model ini, cobalah untuk mengujinya sendiri.

Tautan Referensi:

https://x.com/orcus108/status/2066876960073281582

Artikel ini berasal dari akun resmi WeChat "机器之心" (ID:almosthuman2014), penulis: Zhang Qian

Pertanyaan Terkait

QApa itu model VibeThinker-3B dan mengapa model ini menjadi perbincangan?

AVibeThinker-3B adalah model kecerdasan buatan berparameter 3 miliar dari tim Weibo (Sina Weibo) yang dirancang khusus untuk tugas penalaran yang dapat diverifikasi seperti pemrograman dan matematika. Model ini menjadi perbincangan karena meski ukurannya kecil, kemampuannya dalam tugas seperti pemrograman diklaim setara dengan model besar seperti Claude Opus 4.5 atau Gemini 3 Pro.

QSeberapa baik performa VibeThinker-3B dalam benchmark yang disebutkan?

AMenurut artikel, VibeThinker-3B menunjukkan performa luar biasa dalam beberapa benchmark: skor 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terkini yang belum dipublikasikan. Dengan teknik Claim-Level Reliability (CLR), skor AIME26 bahkan bisa ditingkatkan menjadi 97.1.

QBagaimana proses pelatihan VibeThinker-3B?

AProses pelatihan VibeThinker-3B terdiri dari beberapa tahap: 1) Fine-tuning dengan kurikulum dua tahap yang fokus pada kemampuan luas lalu beralih ke sampel penalaran yang lebih sulit. 2) Reinforcement Learning (RL) yang diterapkan secara berurutan di bidang matematika, pemrograman, dan penalaran STEM. 3) Distilasi mandiri secara offline untuk menyaring dan menyempurnakan lintasan kualitas tinggi dari model. 4) Instruct RL untuk meningkatkan kemampuan mengikuti instruksi dari pengguna.

QApa batasan atau kelemahan utama model VibeThinker-3B?

ABatasan utama VibeThinker-3B adalah performanya yang tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas, seperti percakapan umum, pengetahuan fakta dunia, atau pemahaman skenario kompleks yang tidak memiliki sinyal umpan balik yang jelas dan dapat diverifikasi. Model ini dirancang khusus untuk tugas penalaran terverifikasi.

QApa hipotesis 'Parameter Compression Coverage' yang diajukan oleh pembuat model ini, dan mengapa penting?

AHipotesis 'Parameter Compression Coverage' menyatakan bahwa kemampuan penalaran yang dapat diverifikasi (seperti matematika, pemrograman) lebih mudah dikompresi dan dipadatkan ke dalam model kecil karena bergantung pada langkah-langkah penalaran, pemecahan masalah, dan verifikasi jawaban. Sebaliknya, pengetahuan fakta dan percakapan umum lebih bergantung pada parameter skala besar. Pentingnya hipotesis ini adalah menunjukkan bahwa kemampuan penalaran tingkat tinggi dapat dicapai oleh model kecil, membuka jalur penelitian baru yang melengkapi paradigma model besar.

Bacaan Terkait

Gate Research Institute: Analisis Pola Trading dan Strategi Trading Breakout

Analisis pola grafik adalah alat penting dalam analisis teknis untuk mengamati perubahan penawaran dan permintaan pasar, kelanjutan tren, atau pembalikan tren. Pola dapat dibagi menjadi dua kategori utama: pola pembalikan (seperti double top, double bottom, head and shoulders) dan pola kelanjutan (seperti flag, triangle, rectangle). Analisis pola bukan sekadar menghafal bentuk, tetapi melibatkan penilaian menyeluruh terhadap tren, volume, support/resistance, siklus waktu, dan validitas breakout. Trading breakout adalah penerapan langsung dari analisis pola. Breakout yang valid biasanya memerlukan support/resistance yang jelas, konsolidasi yang cukup lama, konteks tren, dan konfirmasi volume. Namun, breakout tidak menjamin pergerakan pasti; false breakout sering terjadi. Oleh karena itu, trader perlu mengelola risiko melalui manajemen posisi, stop-loss, konfirmasi pullback, dan take profit bertahap. Beberapa pola utama yang dibahas termasuk Rectangle, Flag & Pennant, Symmetrical Triangle, Ascending Triangle, Descending Triangle, serta pola Head and Shoulders. Strategi trading mencakup identifikasi sinyal breakout/breakdown yang valid, penentuan titik entry dan stop-loss, serta teknik take profit. Breakout dapat dikategorikan menjadi breakout efektif, breakout dengan pullback, dan false breakout. Konfirmasi tambahan dapat menggunakan indikator seperti volume, konversi support-resistance, serta indikator momentum seperti ATR, Moving Average, Bollinger Bands, dan RSI. Kesimpulannya, pola grafik dan trading breakout memberikan kerangka kerja terstruktur, namun keefektifannya bergantung pada resonasi banyak faktor dan harus diintegrasikan dalam sistem trading yang mencakup manajemen risiko yang ketat.

marsbit13m yang lalu

Gate Research Institute: Analisis Pola Trading dan Strategi Trading Breakout

marsbit13m yang lalu

Joseph Chalom: Ethereum Sedang Menjadi "Lapis Penyelesaian Kepercayaan" Keuangan Global

**Ringkasan: Joseph Chalom - Ethereum Menjadi "Lapisan Penyelesaian Kepercayaan" bagi Keuangan Global** Joseph Chalom, CEO Sharplink dan mantan Kepala Aset Digital BlackRock, menjelaskan transformasi pasar keuangan sebagai "industrialisasi kepercayaan." Berdasarkan pengalamannya selama 20 tahun di BlackRock, ia mengidentifikasi biaya besar dalam membangun kepercayaan di sistem keuangan tradisional—sekitar $9,3 triliun per tahun di AS saja—karena proses yang lambat, fragmentasi basis data, dan waktu penyelesaian yang lama. Chalom berpendapat Ethereum sedang muncul sebagai lapisan penyelesaian kepercayaan global. Jaringannya yang terdesentralisasi, dengan lebih dari 1 juta validator dan catatan ketahanan 10+ tahun, menjamin keaslian transaksi dan identitas. Aset tokenisasi yang beroperasi 24/7 di blockchain akan menggantikan sistem terfragmentasi saat ini, memungkinkan penyelesaian instan. Tiga pilar percepatan ini adalah: 1. **Stablecoin:** Akan berkembang dari jembatan ke crypto menjadi jalur pembayaran lintas batas yang efisien untuk perusahaan dan individu. 2. **Aset Tokenisasi:** Lembaga keuangan besar akan mendorong adopsi besar-besaran, didukung oleh bursa saham yang bergerak menuju perdagangan hampir 24/7. 3. **DeFi:** Protokol terdesentralisasi menyediakan likuiditas dan layanan keuangan yang dapat diakses terus-menerus. Pilar keempat yang mengubah permainan adalah **Keuangan Agen (Agentic Finance)**, di mana agen AI akan secara otonom mengelola keuangan pribadi—seperti "CFO di saku"—dengan memanfaatkan stablecoin dan kontrak pintar untuk eksekusi yang dapat diprogram, meningkatkan hasil investasi.

marsbit14m yang lalu

Joseph Chalom: Ethereum Sedang Menjadi "Lapis Penyelesaian Kepercayaan" Keuangan Global

marsbit14m yang lalu

STRC Mengalami Penurunan Nilai Par yang Parah, Risiko Apa yang Dihargai Pasar?

**Ringkasan:** STRC, saham preferen abadi dari perusahaan berbasis Bitcoin Strategy, telah mengalami penurunan harga signifikan menjadi sekitar $89, jauh dari nilai nominalnya $100. Hal ini kontras dengan peningkatan frekuensi pembayaran dividen menjadi dua minggu sekali, yang seharusnya mendorong harga mendekati nilai nominal. Pasar tampaknya menilai ulang risiko instrumen berpendapatan tinggi yang didukung cadangan BTC ini. Beberapa faktor yang berpotensi menyebabkan dislokasi harga meliputi: 1. **Liquidasi Perdagangan Carry:** Investor yang menggunakan leverage (meminjam dana murah untuk membeli aset berbunga tinggi) mungkin dipaksa menjual karena penurunan harga, memicu spiral penjualan. 2. **Integrasi DeFi:** Tokenisasi STRC ke dalam protokol seperti Apyx dan Pendle meningkatkan efisiensi modal tetapi juga mempercepat dan memperbesar penyesuaian harga melalui mekanisme pinjam-meminjam dan leverage di pasar kripto. 3. **Persaingan Produk Baru:** Munculnya produk serupa seperti SATA dari Strive yang menawarkan yield lebih tinggi dan pembayaran harian menggeser kerangka acuan, mengurangi kelangkaan STRC. 4. **Pertanyaan Arus Kas:** Meskipun memiliki cadangan BTC besar (cukup untuk membayar dividen selama ~31.6 tahun), pasar membedakan antara kekuatan neraca dan arus kas operasional yang stabil untuk pembayaran dividen rutin. Penurunan ini menjadi uji tekanan bagi mekanisme penambatan (peg) STRC ke $100. Kemampuan Strategy untuk memperbaiki harga melalui penyesuaian dividen atau langkah lain, serta penstabilan posisi leverage, akan menentukan apakah diskon saat ini adalah kesalahan pasar sementara atau awal dari premi risiko baru yang berkelanjutan.

marsbit24m yang lalu

STRC Mengalami Penurunan Nilai Par yang Parah, Risiko Apa yang Dihargai Pasar?

marsbit24m yang lalu

Harga LIT Mencapai Rekor Tertinggi Setengah Tahun, Berapa Lama Bahan Bakar Roda Gila Pembelian Kembali Dapat Bertahan?

**LIT Mencapai Harga Tertinggi dalam 6 Bulan, Berapa Lama Bahan Bakar Roda Repo Dapat Bertahan?** Lighter, sebuah bursa kontrak berlanjut terdesentralisasi, mencatat harga tertinggi baru untuk token LIT pada 18 Juni, mencapai lebih dari $1,9. Saat ini, harga telah stabil di sekitar $1,6. Sejak TGE pada Desember 2025, 25% pasokan total 1 miliar token telah beredar, sementara 75% lainnya masih terkunci, memberikan jeda dari tekanan penjualan. Mekanisme repurchase (beli kembali) menjadi inti penangkapan nilai Lighter. Protokol secara otomatis menggunakan semua pendapatan dari biaya perdagangan untuk membeli token LIT di pasar terbuka. Sejauh ini, sekitar 15 juta LIT (6% pasokan yang beredar) telah dibeli kembali, memberikan tekanan beli yang konsisten. Untuk mendukung likuiditas, Lighter memiliki LLP (Lighter Liquidity Pool), yang bertindak sebagai "rumah" bagi pedagang. Penyetor LLP juga diharuskan mempertaruhkan LIT, menciptakan permintaan tambahan. Saat ini, TVL LLP mendekati $98,4 juta, sementara pool staking LIT menampung lebih dari 123 juta token. Meski demikian, tantangan tetap ada. Volume perdagangan Lighter turun sepanjang tahun 2026, dan secara signifikan lebih rendah dibandingkan pesaing utama, Hyperliquid. Hyperliquid juga memiliki keunggulan dalam hal perluasan ekosistem (termasuk pasar prediksi dan RWA), dukungan institusional (seperti ETF spot di AS), dan sorotan dari tokoh berpengaruh seperti Arthur Hayes. Lighter membedakan diri melalui teknologi ZK, biaya 0 untuk pedagang ritel, dan mekanisme repurchase yang transparan. Namun, keberlanjutan roda repurchasenya sangat bergantung pada peningkatan volume perdagangan dan pendapatan protokol. Masa depan LIT akan ditentukan oleh kemampuannya menumbuhkan pangsa pasar dan mengadopsi inovasi produk di tengah persaingan ketat dari raksasa seperti Hyperliquid.

Foresight News46m yang lalu

Harga LIT Mencapai Rekor Tertinggi Setengah Tahun, Berapa Lama Bahan Bakar Roda Gila Pembelian Kembali Dapat Bertahan?

Foresight News46m yang lalu

Anthony Scaramucci Tunjukkan Sinyal Bottom Bitcoin, Merujuk pada RSI Rendah dan Apati Ritel

Anthony Scaramucci, pendiri SkyBridge Capital, menyatakan sinyal potensi titik terendah (bottom) Bitcoin dengan merujuk pada sentimen rendah dan keapatanan (apathy) dari pasar retail. Ia mengungkapkan masih memiliki Bitcoin dalam jumlah besar dan tetap optimis, memperkirakan rally kuat akan dimulai akhir kuartal keempat 2026 atau awal 2027. Argumen utamanya didasarkan pada beberapa faktor: minat pencarian yang lemah, permintaan tipis, sentimen yang tertekan, dan kondisi Relative Strength Index (RSI) yang rendah. Scaramucci melihat keapatanan pasar ini justru sebagai sinyal kontrarian untuk akumulasi, di mana pasar yang tipis dapat bergerak agresif dengan sedikit guncangan permintaan. Namun, klaim mengenai RSI memerlukan kehati-hatian. Meski RSI mingguan Bitcoin saat ini rendah, belum tentu mencapai level terendah sepanjang masa seperti pada siklus bear market sebelumnya (contohnya 2018). Analisis bottom yang kuat biasanya memerlukan kombinasi dengan struktur harga, volume, dan data on-chain lainnya. Intinya, skenario ini menarik bagi investor bullish yang melihat fase apati sebagai periode di mana penjual telah lelah dan ekspektasi rendah, sehingga impuls permintaan berikutnya—dari arus ETF, latar makro yang mendukung, atau pembelian institusional—dapat berdampak lebih besar. Risikonya, fase ketidakpedulian ini bisa berlangsung lebih lama dari perkiraan. Pasar saat ini terbagi, dan Bitcoin memerlukan waktu untuk membuktikan sisi mana yang benar.

bitcoinist55m yang lalu

Anthony Scaramucci Tunjukkan Sinyal Bottom Bitcoin, Merujuk pada RSI Rendah dan Apati Ritel