Model Kecil 3B, Skor Pemrograman Setara Opus 4.5, Model Misterius Picu Perdebatan, Ternyata Buatan Dalam Negeri

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Dalam beberapa hari terakhir, model kecil 3B bernama VibeThinker-3B menjadi viral di X karena kemampuannya dalam tugas penalaran yang dapat diverifikasi (seperti pemrograman), yang setara dengan model canggih seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, meski ukurannya jauh lebih kecil. Model dengan 3 miliar parameter ini dikembangkan oleh tim Weibo (Sina) dan dirancang khusus untuk tugas dengan sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, dan eksekusi instruksi dengan batasan jelas. Dalam evaluasi, VibeThinker-3B mencetak skor tinggi: 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terbaru. Model ini dibangun berdasarkan Qwen2.5-Coder-3B dan menggunakan proses *Spectrum-to-Signal* yang ditingkatkan, yang mencakup *fine-tuning* terawasi dengan sintesis data, penyaringan kualitas, dan pembelajaran bertahap, serta *reinforcement learning* di beberapa domain yang dapat diverifikasi. Model ini juga memperkenalkan *Claim-Level Reliability* (CLR), sebuah strategi penskalaan saat pengujian yang lebih meningkatkan kinerja dalam tes matematika. Namun, model ini memiliki batasan dan tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas. Penciptanya mengajukan "hipotesis kompresi parameter," yang menunjukkan bahwa penalaran yang dapat diverifikasi adalah kemampuan yang sangat terkompresi dan padat parameter, sementara ...

Beberapa hari terakhir, sebuah model kecil 3B menjadi viral di X, karena dalam beberapa tugas penalaran yang dapat diverifikasi dengan tingkat kesulitan tertentu (seperti pemrograman), model ini masuk ke dalam rentang kinerja model-model mutakhir seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, padahal ukurannya jauh lebih kecil daripada model-model tersebut.

Model ini bernama VibeThinker-3B, adalah model penalaran padat dengan 3 miliar parameter, yang bertujuan untuk mengeksplorasi sejauh mana kemampuan penalaran yang dapat diverifikasi dapat didorong dalam skala model kecil yang ketat.

Setelah dirilis, banyak orang terkagum-kagum dengan hasilnya dan menyatakan ingin mencobanya langsung.

Perlu diperhatikan, model ini juga merupakan model buatan dalam negeri, berasal dari tim Weibo (Sina Weibo).

Laporan teknis menunjukkan bahwa model ini dirancang khusus untuk tugas-tugas yang memiliki sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, serta eksekusi instruksi dengan batasan yang jelas.

Oleh karena itu, model ini menunjukkan performa yang luar biasa dalam berbagai pengujian tolok ukur. Model ini mencetak skor 94.3 pada pengujian AIME26, 89.3 pada pengujian HMMT25, 80.2 (Pass@1) pada pengujian LiveCodeBench v6, dan mencapai tingkat keberhasilan 96.1% dalam kontes mingguan dan dua mingguan LeetCode terbaru yang tidak dipublikasikan, yang berlangsung dari 25 April hingga 31 Mei 2026.

Bagaimana model ini dilatih? Laporan teknis mengungkapkan beberapa detail.

Pertama, model ini dibangun berdasarkan Qwen2.5-Coder-3B, dan menggunakan proses peningkatan Spectrum-to-Signal untuk pelatihan lanjutan. Proses ini memperkuat sintesis data, penyaringan kualitas, dan pembelajaran bertahap dalam fine-tuning berbasis supervisi (SFT), memperluas reinforcement learning bergaya MGPO ke berbagai domain yang dapat diverifikasi, mempertahankan jejak penalaran konteks panjang yang utuh, serta mengonsolidasikan berbagai kemampuan melalui penyulingan diri offline dan reinforcement learning berbasis instruksi (Instruct RL).

Alur pelatihan keseluruhan VibeThinker-3B

Proses Spectrum-to-Signal.

Selain itu, VibeThinker-3B juga memperkenalkan Claim-Level Reliability assessment (CLR), sebuah strategi penskalaan saat pengujian yang berorientasi pada penalaran yang dapat diverifikasi jawabannya. CLR lebih lanjut meningkatkan kinerja pada tolok ukur matematika, meningkatkan AIME26 dari 94.3 menjadi 97.1, HMMT25 dari 89.3 menjadi 95.4, dan BruMO25 menjadi 99.2.

Alur pelatihan spesifiknya adalah sebagai berikut:

  • SFT dua tahap berbasis kurikulum. Tahap pertama fokus pada cakupan kemampuan luas di berbagai aspek seperti matematika, pemrograman, penalaran STEM, dialog umum, dan kepatuhan instruksi. Tahap kedua beralih ke sampel penalaran yang lebih sulit dan lebih luas. Diversity Exploration Distillation digunakan untuk mempertahankan beberapa jalur solusi yang efektif.
  • Reinforcement learning penalaran multi-domain. VibeThinker-3B menggunakan kembali MGPO. Reinforcement learning diterapkan secara berurutan pada tugas penalaran matematika, pemrograman, dan STEM. Pelatihan menggunakan satu jendela konteks panjang 64K untuk mempertahankan jejak penalaran domain panjang yang utuh.
  • Penyulingan diri offline. Jejak berkualitas tinggi disaring dan disuling dari checkpoint RL matematika, pemrograman, dan STEM, akhirnya membentuk model siswa yang terpadu. Learning Potential Scoring digunakan untuk memprioritaskan jejak yang benar tetapi belum ditiru dengan baik oleh model siswa.
  • Instruct RL. Tahap akhir meningkatkan kemampuan kontrol terhadap prompt yang berorientasi pengguna. Untuk data instruksional yang sensitif terhadap format dan terbuka, digunakan validator berbasis aturan dan model reward berbasis rubrik.

Dalam sebuah postingan baru-baru ini, peneliti dan blogger AI terkenal Sebastian Raschka merangkum secara sistematis poin-poin utama yang diungkapkan dalam laporan teknis VibeThinker-3B, termasuk beberapa hal berikut:

Jika Anda tertarik dengan konten ini, Anda dapat membaca detail laporan teknis mereka. Saat ini, model ini juga dapat diunduh secara publik.

Judul Laporan: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Tautan Laporan: https://arxiv.org/pdf/2606.16140

Tautan HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Namun, ruang lingkup penerapan model ini memiliki batasan yang jelas, karena kinerjanya tidak luar biasa di domain yang membutuhkan pengetahuan umum.

Pihak resmi juga dengan jelas menunjukkan hal ini dan mengajukan "Parameter Compression Coverage Hypothesis": berbagai kemampuan bergantung pada parameter model dengan cara yang sangat berbeda. Penalaran yang dapat diverifikasi lebih mendekati kemampuan yang sangat dapat dikompresi dan padat parameter, dengan intinya terletak pada penalaran multi-langkah, pemenuhan batasan, koreksi diri, dan verifikasi jawaban. Ketika struktur ruang tugas cukup jelas dan sinyal umpan balik cukup andal, model kompak juga mungkin memiliki kemampuan penalaran yang mendekati tingkat mutakhir. Sebaliknya, pengetahuan domain terbuka, dialog umum, dan pemahaman skenario ekor panjang lebih bergantung pada parameter skala besar untuk mencakup fakta, konsep, dan pengetahuan dunia secara luas. Hipotesis ini sangat inspiratif. VentureBeat menulis dalam laporannya: "Hipotesis ini mengungkapkan adanya pemisahan sebagian antara kemampuan penalaran dan pengetahuan faktual, dan yang pertama dapat dikompresi lebih efisien daripada yang diperkirakan sebelumnya — wawasan ini memiliki implikasi mendalam bagi industri dalam memandang desain model, biaya penerapan, dan keterjangkauan kemampuan kecerdasan buatan tingkat lanjut."

Penulis menyatakan bahwa tujuan mereka bukanlah menciptakan model kecil sebagai pengganti model skala besar, melainkan memeriksa batas nyata model kecil di sepanjang dimensi kemampuan tertentu. Dengan VibeThinker-3B, mereka berharap dapat menunjukkan bahwa model kecil tidak boleh hanya dipandang sebagai solusi kompromi untuk mengurangi biaya penerapan. Dalam domain kemampuan yang memiliki mekanisme umpan balik dan verifikasi yang jelas, model bahasa kecil menunjukkan jalur penelitian yang menjanjikan, berpotensi mencapai kinerja tingkat mutakhir, dan membentuk hubungan komplementer yang fundamental dengan paradigma penskalaan parameter tradisional.

Saat ini, model ini masih menghadapi beberapa keraguan di komunitas. Jika Anda tertarik dengan model ini, cobalah untuk mengujinya sendiri.

Tautan Referensi:

https://x.com/orcus108/status/2066876960073281582

Artikel ini berasal dari akun resmi WeChat "机器之心" (ID:almosthuman2014), penulis: Zhang Qian

Pertanyaan Terkait

QApa itu model VibeThinker-3B dan mengapa model ini menjadi perbincangan?

AVibeThinker-3B adalah model kecerdasan buatan berparameter 3 miliar dari tim Weibo (Sina Weibo) yang dirancang khusus untuk tugas penalaran yang dapat diverifikasi seperti pemrograman dan matematika. Model ini menjadi perbincangan karena meski ukurannya kecil, kemampuannya dalam tugas seperti pemrograman diklaim setara dengan model besar seperti Claude Opus 4.5 atau Gemini 3 Pro.

QSeberapa baik performa VibeThinker-3B dalam benchmark yang disebutkan?

AMenurut artikel, VibeThinker-3B menunjukkan performa luar biasa dalam beberapa benchmark: skor 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terkini yang belum dipublikasikan. Dengan teknik Claim-Level Reliability (CLR), skor AIME26 bahkan bisa ditingkatkan menjadi 97.1.

QBagaimana proses pelatihan VibeThinker-3B?

AProses pelatihan VibeThinker-3B terdiri dari beberapa tahap: 1) Fine-tuning dengan kurikulum dua tahap yang fokus pada kemampuan luas lalu beralih ke sampel penalaran yang lebih sulit. 2) Reinforcement Learning (RL) yang diterapkan secara berurutan di bidang matematika, pemrograman, dan penalaran STEM. 3) Distilasi mandiri secara offline untuk menyaring dan menyempurnakan lintasan kualitas tinggi dari model. 4) Instruct RL untuk meningkatkan kemampuan mengikuti instruksi dari pengguna.

QApa batasan atau kelemahan utama model VibeThinker-3B?

ABatasan utama VibeThinker-3B adalah performanya yang tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas, seperti percakapan umum, pengetahuan fakta dunia, atau pemahaman skenario kompleks yang tidak memiliki sinyal umpan balik yang jelas dan dapat diverifikasi. Model ini dirancang khusus untuk tugas penalaran terverifikasi.

QApa hipotesis 'Parameter Compression Coverage' yang diajukan oleh pembuat model ini, dan mengapa penting?

AHipotesis 'Parameter Compression Coverage' menyatakan bahwa kemampuan penalaran yang dapat diverifikasi (seperti matematika, pemrograman) lebih mudah dikompresi dan dipadatkan ke dalam model kecil karena bergantung pada langkah-langkah penalaran, pemecahan masalah, dan verifikasi jawaban. Sebaliknya, pengetahuan fakta dan percakapan umum lebih bergantung pada parameter skala besar. Pentingnya hipotesis ini adalah menunjukkan bahwa kemampuan penalaran tingkat tinggi dapat dicapai oleh model kecil, membuka jalur penelitian baru yang melengkapi paradigma model besar.

Bacaan Terkait

Kisah Pendanaan DeepSeek

Cerita pendanaan DeepSeek mengungkapkan proses unik di balik penggalangan dana sekitar 30 miliar RMB. Inti cerita berpusat pada "pertemuan empat jam" yang legendaris pada pertengahan Mei, di mana pendiri Liang Wenfeng berbagi visinya dengan calon investor melalui konferensi online. Liang menekankan fokus tunggal pada pengembangan AGI (Kecerdasan Umum Buatan), filosofi "less is more," dan pentingnya menjaga stabilitas tim—syarat utama bagi investor adalah tidak merekrut staf DeepSeek. Awalnya, DeepSeek menargetkan pendanaan minimal 5 miliar RMB per lembaga, tetapi akhirnya diturunkan menjadi 1,5 miliar RMB untuk mengakomodasi lebih banyak investor. Sepuluh lembaga utama berpartisipasi, termasuk Monolith Capital (meningkatkan investasi dari 1,5 menjadi 3 miliar RMB), Zhenxingu, IDG Capital, dan perusahaan seperti CATL melalui entitas terkait. Menariknya, raksasa venture capital seperti Sequoia China dan Hillhouse tidak masuk dalam daftar akhir, meskipun ada spekulasi awal. Analisis lebih dalam menunjukkan sekitar 100 entitas, termasuk dana negara, perusahaan asuransi, dan perusahaan publik (seperti Nongfu Spring dan Septwolves), secara tidak langsung terlibat melalui struktur dana. Liang Wenfeng dikenal rendah hati dan jarang bertemu investor sebelumnya, sehingga proses ini menjadi kesempatan langkah bagi banyak pihak. Investor yang berpartisipasi menghargai misi DeepSeek dan potensinya untuk menjadi perusahaan publik terbesar di pasar modal China, mencerminkan keyakinan terhadap masa depan AGI.

marsbit20m yang lalu

Kisah Pendanaan DeepSeek

marsbit20m yang lalu

Perusahaan DAT Bermain-main dengan Sampingan

**Perusahaan DAT Mulai Beralih ke "Sampingan"** Banyak perusahaan Digital Asset Treasury (DAT) yang dulu fokus membeli dan menyimpan aset kripto (seperti Bitcoin, ETH, SOL) untuk mendongkrak nilai pasar, kini menghadapi tantangan berat di tengah kondisi pasar bearish tahun 2026. Harga aset yang tertekan membuat model bisnis pasif mereka tidak lagi berkelanjutan. Sebagian perusahaan memilih keluar, seperti ETHZilla yang beralih ke bisnis tokenisasi RWA, atau kembali ke bisnis inti mereka. Namun, perusahaan-perusahaan lainnya mencoba bertahan dengan dua strategi transformasi utama: 1. **Menjadi Platform Manajemen Aset dan Dana Hasil Institusional:** Seperti SharpLink Gaming dan GameSquare. Mereka tidak hanya memegang aset, tetapi aktif mengelolanya untuk menghasilkan pendapatan, misalnya dengan staking 100%, berinvestasi di protokol DeFi, atau menawarkan dana hasil bagi klien institusi. 2. **Menjadi Operator Infrastruktur Blockchain:** Khususnya di ekosistem Solana. Contohnya DeFi Development dan SOL Strategies. Mereka membeli aset, mengoperasikan validator, mengembangkan token staking cair (seperti dfdvSOL), dan berintegrasi dengan berbagai protokol DeFi untuk membangun aliran pendapatan berbasis ekosistem. Transformasi ini menunjukkan bahwa industri kripto sedang matang. Daya tarik DAT bukan lagi sekadar "simpan aset dan harap harganya naik", tetapi bergeser ke kemampuan operasional nyata dalam mengelola aset, membangun produk, dan berpartisipasi dalam ekosistem. Meski berisiko (seperti paparan risiko smart contract atau ketergantungan pada satu blockchain), peralihan ini mengisyaratkan bahwa entitas yang menciptakan nilai dan arus kas riil akan lebih tangguh menghadapi siklus pasar. Fase euforia DAT telah berakhir, digantikan oleh fase rekonstruksi yang lebih realistis.

Foresight News25m yang lalu

Perusahaan DAT Bermain-main dengan Sampingan

Foresight News25m yang lalu

Pertunjukan Perdana Warsh Dimulai: Dot Plot Masih Ada, Namun Fed Mungkin Sudah Berubah

Judul utama adalah bahwa ini adalah debut pertama Ketua Fed baru, Walsh, dan meskipun alat komunikasi tradisional seperti "Dot Plot" masih ada, gaya komunikasi Fed mungkin telah berubah. Inti dari pertemuan FOMC Juni adalah bahwa suku bunga tetap tidak berubah, seperti yang diperkirakan pasar. Fokus utamanya adalah pada gaya komunikasi kebijakan Walsh yang baru. Perubahan penting adalah bahwa Walsh sendiri tidak memberikan proyeksi suku bunga pribadinya di "Dot Plot", yang menandakan upaya untuk melemahkan makna panduan alat ini. Walsh telah lama mengkritik panduan ke depan yang berlebihan dan lebih menganut prinsip ketergantungan pada data, memutuskan berdasarkan situasi aktual dari pertemuan ke pertemuan, dan menolak memberikan sinyal kebijakan yang jelas tentang jalur di masa depan. Respons pasar terhadap hal ini adalah penilaian ulang terhadap risiko kenaikan suku bunga. Pernyataan tegas Walsh tentang inflasi menyebabkan pasar meningkatkan ekspektasi atas kemungkinan Fed mengadopsi kebijakan moneter yang lebih ketat di masa depan. Akibatnya, suku bunga jangka pendek naik, pasar saham AS turun, dan preferensi risiko pasar menurun secara keseluruhan. Pasar mulai memperdagangkan kemungkinan bahwa Fed, di bawah kepemimpinan Walsh, mungkin merespons inflasi dengan lebih agresif daripada yang diperkirakan sebelumnya. Kesimpulannya, pertemuan ini tidak mengubah jalur kebijakan secara radikal, tetapi mengisyaratkan pergeseran penting dalam kerangka komunikasi Fed. Walsh tampaknya akan mengurangi transparansi dan panduan ke depan, yang akan meningkatkan ketidakpastian kebijakan di masa depan. Tantangan terbesar bagi pasar ke depan adalah bagaimana menilai kembali harga aset ketika Fed tidak lagi "membocorkan" jalur kebijakannya di muka.

Odaily星球日报29m yang lalu

Pertunjukan Perdana Warsh Dimulai: Dot Plot Masih Ada, Namun Fed Mungkin Sudah Berubah

Odaily星球日报29m yang lalu

Takdir Bank Digital: Aplikasi Secanggih Apa Pun, Tetap Tak Sebanding dengan Satu Izin Bank

## Ringkasan Artikel Judul: Nasib Bank Digital: Aplikasi yang Fungsional Tetap Tidak Sepenting Izin Bank Inti dari artikel ini adalah analisis mengapa banyak bank digital baru (neobank) yang sulit mencapai profitabilitas, meskipun berhasil mendapatkan jutaan pengguna. Penyebab utamanya adalah ketergantungan pada model bisnis berbasis biaya transaksi (seperti pembagian biaya kartu debit) yang sangat tipis marginnya, alih-alih pada bisnis inti perbankan: kredit dan pinjaman. Bank tradisional mengandalkan bunga dari pinjaman (KPR, kredit mobil, dll.) sebagai sumber profit utama. Namun, banyak neobank awal tidak memiliki izin bank (bank charter) yang memungkinkan mereka menyalurkan kredit dalam skala besar. Mereka hanya beroperasi sebagai platform teknologi di atas izin bank mitra. Akibatnya, 76% neobank masih merugi. Studi kasus menunjukkan bahwa neobank yang sukses seperti **Nubank** (Brasil) dan **Revolut** pada akhirnya mengandalkan pendapatan dari produk kredit (kartu kredit, pinjaman pribadi) untuk menjadi profitable. **Chime** (AS) juga baru mencapai profitabilitas pertamanya setelah produk pinjaman gajinya berkembang pesat. Artikel ini juga menyoroti risiko struktural neobank yang bergantung pada pihak ketiga (seperti Synapse) untuk infrastruktur inti seperti pencatatan dan penyelesaian transaksi. Kebangkrutan Synapse menyebabkan kebekuan dana nasabah, menunjukkan kerapuhan model ini. Solusi yang muncul, terutama di industri kripto, adalah memperoleh izin bank yang sah, seperti **Izin Kepercayaan Nasional (National Trust Charter)** dari OCC di AS. Izin ini memberikan kendali penuh atas aset nasabah, infrastruktur pembayaran, dan kemampuan untuk beroperasi di seluruh negara bagian. Perusahaan seperti SoFi, Kraken, dan lainnya kini mengejar atau telah memperoleh izin semacam ini. Kesimpulannya, aplikasi yang menarik hanyalah pintu masuk. Untuk membangun bisnis perbankan digital yang berkelanjutan dan tahan risiko, memiliki **izin bank** menjadi prasyarat mutlak, karena memungkinkan akses ke model bisnis profitabel sejati (kredit) dan kendali atas infrastruktur kritis.

marsbit34m yang lalu

Takdir Bank Digital: Aplikasi Secanggih Apa Pun, Tetap Tak Sebanding dengan Satu Izin Bank

marsbit34m yang lalu

Negara yang Sudah 8 Tahun Menambang Bitcoin, Dirikan Bank Khusus Kripto

"Negara Kecil Penambang Bitcoin Selama 8 Tahun Dirikan Bank Khusus Kripto" Artikel ini membahas inisiatif Kerajaan Bhutan, negara kecil di pegunungan Himalaya, yang mendirikan DK Bank di Kota Perhatian Penuh Gelephu (GMC), zona administrasi khusus baru. Bank ini merupakan satu-satunya bank berlisensi di sana dan didirikan khusus untuk melayani bisnis cryptocurrency, mengisi celah layanan perbankan yang sering dihindari institusi keuangan tradisional karena kesulitan manajemen risiko. DK Bank menawarkan akun terpadu multivaluta yang menggabungkan mata uang fiat (9 jenis) dan aset kripto seperti stablecoin (USDT, USDC) dalam satu akun, lengkap dengan layanan penitipan kripto, pinjaman dengan jaminan Bitcoin, dan jalur on/off-ramp. Tantangan utamanya adalah mengintegrasikan sistem perbankan tradisional dengan pasar kripto yang beroperasi 24/7, serta menerapkan kontrol risiko ketat yang memantau aliran dana baik di dalam maupun di luar rantai (on-chain dan off-chain). GMC beroperasi dengan sistem pemerintahan independen mirip "satu negara, dua sistem". Kawasan ini mengadopsi kerangka hukum dan regulasi kelas dunia, yaitu Common Law Singapura untuk tata kelola perusahaan dan aturan Keuangan Abu Dhabi Global Market (ADGM), serta menyediakan jalur perizinan cepat bagi perusahaan yang sudah berlisensi di yurisdiksi tersebut. Insentif seperti tarif pajak perusahaan nol persen ditawarkan dengan syarat adanya kehadiran operasional fisik dan penyerapan tenaga kerja lokal. Latar belakang inisiatif ini adalah pengalaman Bhutan dalam menambang Bitcoin sejak 2018 dengan memanfaatkan sumber daya hidroelektrik. Pemerintah Bhutan mengambil pendekatan pragmatis, melihat teknologi blockchain sebagai solusi untuk mengurangi ketergantungan pada infrastruktur keuangan global yang didominasi negara besar. Fokusnya adalah pada layanan keuangan institusional seperti penambangan, penitipan, manajemen aset, dan prime brokerage, bukan pada token spekulatif untuk ritel. Proyek pembangunan GMC masih berlangsung, dengan bandara internasional yang dikelola pihak Singapura ditargetkan selesai pada 2029. Meski saat ini baru DK Bank yang beroperasi penuh, inisiatif ini merepresentasikan visi Bhutan untuk menjadi pusat layanan keuangan bagi Asia Selatan dan membangun infrastruktur kripto yang berdaulat dan terkendali dengan baik.

marsbit56m yang lalu

Negara yang Sudah 8 Tahun Menambang Bitcoin, Dirikan Bank Khusus Kripto

marsbit56m yang lalu

Trading

Spot
Futures
活动图片