Model Kecil 3B, Skor Pemrograman Setara Opus 4.5, Model Misterius Picu Perdebatan, Ternyata Buatan Dalam Negeri

marsbitDipublikasikan tanggal 2026-06-18Terakhir diperbarui pada 2026-06-18

Abstrak

Dalam beberapa hari terakhir, model kecil 3B bernama VibeThinker-3B menjadi viral di X karena kemampuannya dalam tugas penalaran yang dapat diverifikasi (seperti pemrograman), yang setara dengan model canggih seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, meski ukurannya jauh lebih kecil. Model dengan 3 miliar parameter ini dikembangkan oleh tim Weibo (Sina) dan dirancang khusus untuk tugas dengan sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, dan eksekusi instruksi dengan batasan jelas. Dalam evaluasi, VibeThinker-3B mencetak skor tinggi: 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terbaru. Model ini dibangun berdasarkan Qwen2.5-Coder-3B dan menggunakan proses *Spectrum-to-Signal* yang ditingkatkan, yang mencakup *fine-tuning* terawasi dengan sintesis data, penyaringan kualitas, dan pembelajaran bertahap, serta *reinforcement learning* di beberapa domain yang dapat diverifikasi. Model ini juga memperkenalkan *Claim-Level Reliability* (CLR), sebuah strategi penskalaan saat pengujian yang lebih meningkatkan kinerja dalam tes matematika. Namun, model ini memiliki batasan dan tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas. Penciptanya mengajukan "hipotesis kompresi parameter," yang menunjukkan bahwa penalaran yang dapat diverifikasi adalah kemampuan yang sangat terkompresi dan padat parameter, sementara ...

Beberapa hari terakhir, sebuah model kecil 3B menjadi viral di X, karena dalam beberapa tugas penalaran yang dapat diverifikasi dengan tingkat kesulitan tertentu (seperti pemrograman), model ini masuk ke dalam rentang kinerja model-model mutakhir seperti Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, dan Kimi K2.5, padahal ukurannya jauh lebih kecil daripada model-model tersebut.

Model ini bernama VibeThinker-3B, adalah model penalaran padat dengan 3 miliar parameter, yang bertujuan untuk mengeksplorasi sejauh mana kemampuan penalaran yang dapat diverifikasi dapat didorong dalam skala model kecil yang ketat.

Setelah dirilis, banyak orang terkagum-kagum dengan hasilnya dan menyatakan ingin mencobanya langsung.

Perlu diperhatikan, model ini juga merupakan model buatan dalam negeri, berasal dari tim Weibo (Sina Weibo).

Laporan teknis menunjukkan bahwa model ini dirancang khusus untuk tugas-tugas yang memiliki sinyal verifikasi yang andal, termasuk penalaran matematika, pemrograman kompetitif, penalaran STEM, serta eksekusi instruksi dengan batasan yang jelas.

Oleh karena itu, model ini menunjukkan performa yang luar biasa dalam berbagai pengujian tolok ukur. Model ini mencetak skor 94.3 pada pengujian AIME26, 89.3 pada pengujian HMMT25, 80.2 (Pass@1) pada pengujian LiveCodeBench v6, dan mencapai tingkat keberhasilan 96.1% dalam kontes mingguan dan dua mingguan LeetCode terbaru yang tidak dipublikasikan, yang berlangsung dari 25 April hingga 31 Mei 2026.

Bagaimana model ini dilatih? Laporan teknis mengungkapkan beberapa detail.

Pertama, model ini dibangun berdasarkan Qwen2.5-Coder-3B, dan menggunakan proses peningkatan Spectrum-to-Signal untuk pelatihan lanjutan. Proses ini memperkuat sintesis data, penyaringan kualitas, dan pembelajaran bertahap dalam fine-tuning berbasis supervisi (SFT), memperluas reinforcement learning bergaya MGPO ke berbagai domain yang dapat diverifikasi, mempertahankan jejak penalaran konteks panjang yang utuh, serta mengonsolidasikan berbagai kemampuan melalui penyulingan diri offline dan reinforcement learning berbasis instruksi (Instruct RL).

Alur pelatihan keseluruhan VibeThinker-3B

Proses Spectrum-to-Signal.

Selain itu, VibeThinker-3B juga memperkenalkan Claim-Level Reliability assessment (CLR), sebuah strategi penskalaan saat pengujian yang berorientasi pada penalaran yang dapat diverifikasi jawabannya. CLR lebih lanjut meningkatkan kinerja pada tolok ukur matematika, meningkatkan AIME26 dari 94.3 menjadi 97.1, HMMT25 dari 89.3 menjadi 95.4, dan BruMO25 menjadi 99.2.

Alur pelatihan spesifiknya adalah sebagai berikut:

  • SFT dua tahap berbasis kurikulum. Tahap pertama fokus pada cakupan kemampuan luas di berbagai aspek seperti matematika, pemrograman, penalaran STEM, dialog umum, dan kepatuhan instruksi. Tahap kedua beralih ke sampel penalaran yang lebih sulit dan lebih luas. Diversity Exploration Distillation digunakan untuk mempertahankan beberapa jalur solusi yang efektif.
  • Reinforcement learning penalaran multi-domain. VibeThinker-3B menggunakan kembali MGPO. Reinforcement learning diterapkan secara berurutan pada tugas penalaran matematika, pemrograman, dan STEM. Pelatihan menggunakan satu jendela konteks panjang 64K untuk mempertahankan jejak penalaran domain panjang yang utuh.
  • Penyulingan diri offline. Jejak berkualitas tinggi disaring dan disuling dari checkpoint RL matematika, pemrograman, dan STEM, akhirnya membentuk model siswa yang terpadu. Learning Potential Scoring digunakan untuk memprioritaskan jejak yang benar tetapi belum ditiru dengan baik oleh model siswa.
  • Instruct RL. Tahap akhir meningkatkan kemampuan kontrol terhadap prompt yang berorientasi pengguna. Untuk data instruksional yang sensitif terhadap format dan terbuka, digunakan validator berbasis aturan dan model reward berbasis rubrik.

Dalam sebuah postingan baru-baru ini, peneliti dan blogger AI terkenal Sebastian Raschka merangkum secara sistematis poin-poin utama yang diungkapkan dalam laporan teknis VibeThinker-3B, termasuk beberapa hal berikut:

Jika Anda tertarik dengan konten ini, Anda dapat membaca detail laporan teknis mereka. Saat ini, model ini juga dapat diunduh secara publik.

Judul Laporan: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Tautan Laporan: https://arxiv.org/pdf/2606.16140

Tautan HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Namun, ruang lingkup penerapan model ini memiliki batasan yang jelas, karena kinerjanya tidak luar biasa di domain yang membutuhkan pengetahuan umum.

Pihak resmi juga dengan jelas menunjukkan hal ini dan mengajukan "Parameter Compression Coverage Hypothesis": berbagai kemampuan bergantung pada parameter model dengan cara yang sangat berbeda. Penalaran yang dapat diverifikasi lebih mendekati kemampuan yang sangat dapat dikompresi dan padat parameter, dengan intinya terletak pada penalaran multi-langkah, pemenuhan batasan, koreksi diri, dan verifikasi jawaban. Ketika struktur ruang tugas cukup jelas dan sinyal umpan balik cukup andal, model kompak juga mungkin memiliki kemampuan penalaran yang mendekati tingkat mutakhir. Sebaliknya, pengetahuan domain terbuka, dialog umum, dan pemahaman skenario ekor panjang lebih bergantung pada parameter skala besar untuk mencakup fakta, konsep, dan pengetahuan dunia secara luas. Hipotesis ini sangat inspiratif. VentureBeat menulis dalam laporannya: "Hipotesis ini mengungkapkan adanya pemisahan sebagian antara kemampuan penalaran dan pengetahuan faktual, dan yang pertama dapat dikompresi lebih efisien daripada yang diperkirakan sebelumnya — wawasan ini memiliki implikasi mendalam bagi industri dalam memandang desain model, biaya penerapan, dan keterjangkauan kemampuan kecerdasan buatan tingkat lanjut."

Penulis menyatakan bahwa tujuan mereka bukanlah menciptakan model kecil sebagai pengganti model skala besar, melainkan memeriksa batas nyata model kecil di sepanjang dimensi kemampuan tertentu. Dengan VibeThinker-3B, mereka berharap dapat menunjukkan bahwa model kecil tidak boleh hanya dipandang sebagai solusi kompromi untuk mengurangi biaya penerapan. Dalam domain kemampuan yang memiliki mekanisme umpan balik dan verifikasi yang jelas, model bahasa kecil menunjukkan jalur penelitian yang menjanjikan, berpotensi mencapai kinerja tingkat mutakhir, dan membentuk hubungan komplementer yang fundamental dengan paradigma penskalaan parameter tradisional.

Saat ini, model ini masih menghadapi beberapa keraguan di komunitas. Jika Anda tertarik dengan model ini, cobalah untuk mengujinya sendiri.

Tautan Referensi:

https://x.com/orcus108/status/2066876960073281582

Artikel ini berasal dari akun resmi WeChat "机器之心" (ID:almosthuman2014), penulis: Zhang Qian

Pertanyaan Terkait

QApa itu model VibeThinker-3B dan mengapa model ini menjadi perbincangan?

AVibeThinker-3B adalah model kecerdasan buatan berparameter 3 miliar dari tim Weibo (Sina Weibo) yang dirancang khusus untuk tugas penalaran yang dapat diverifikasi seperti pemrograman dan matematika. Model ini menjadi perbincangan karena meski ukurannya kecil, kemampuannya dalam tugas seperti pemrograman diklaim setara dengan model besar seperti Claude Opus 4.5 atau Gemini 3 Pro.

QSeberapa baik performa VibeThinker-3B dalam benchmark yang disebutkan?

AMenurut artikel, VibeThinker-3B menunjukkan performa luar biasa dalam beberapa benchmark: skor 94.3 di AIME26, 89.3 di HMMT25, 80.2 di LiveCodeBench v6 (Pass@1), dan tingkat keberhasilan 96.1% dalam kontes LeetCode terkini yang belum dipublikasikan. Dengan teknik Claim-Level Reliability (CLR), skor AIME26 bahkan bisa ditingkatkan menjadi 97.1.

QBagaimana proses pelatihan VibeThinker-3B?

AProses pelatihan VibeThinker-3B terdiri dari beberapa tahap: 1) Fine-tuning dengan kurikulum dua tahap yang fokus pada kemampuan luas lalu beralih ke sampel penalaran yang lebih sulit. 2) Reinforcement Learning (RL) yang diterapkan secara berurutan di bidang matematika, pemrograman, dan penalaran STEM. 3) Distilasi mandiri secara offline untuk menyaring dan menyempurnakan lintasan kualitas tinggi dari model. 4) Instruct RL untuk meningkatkan kemampuan mengikuti instruksi dari pengguna.

QApa batasan atau kelemahan utama model VibeThinker-3B?

ABatasan utama VibeThinker-3B adalah performanya yang tidak unggul di bidang yang membutuhkan pengetahuan umum yang luas, seperti percakapan umum, pengetahuan fakta dunia, atau pemahaman skenario kompleks yang tidak memiliki sinyal umpan balik yang jelas dan dapat diverifikasi. Model ini dirancang khusus untuk tugas penalaran terverifikasi.

QApa hipotesis 'Parameter Compression Coverage' yang diajukan oleh pembuat model ini, dan mengapa penting?

AHipotesis 'Parameter Compression Coverage' menyatakan bahwa kemampuan penalaran yang dapat diverifikasi (seperti matematika, pemrograman) lebih mudah dikompresi dan dipadatkan ke dalam model kecil karena bergantung pada langkah-langkah penalaran, pemecahan masalah, dan verifikasi jawaban. Sebaliknya, pengetahuan fakta dan percakapan umum lebih bergantung pada parameter skala besar. Pentingnya hipotesis ini adalah menunjukkan bahwa kemampuan penalaran tingkat tinggi dapat dicapai oleh model kecil, membuka jalur penelitian baru yang melengkapi paradigma model besar.

Bacaan Terkait

Mengungkap Sang "Dewa Riset Investasi" di Balik Citrini: Juara Pertama Substack Bertahun-tahun, Satu Laporan Menguapkan Triliunan Dolar Pasar Saham AS

Sebuah lembaga penelitian investasi independen bernama Citrini Research, yang didirikan oleh James van Geelen, telah menarik perhatian luas sebagai penulis teratas di platform Substack dengan hampir 250.000 pelanggan. Laporan mereka berpotensi memengaruhi pasar keuangan, seperti laporan "The 2028 Global Intelligence Crisis" pada Februari yang memicu gelombang jual saham teknologi AS dan menguapkan nilai pasar miliaran dolar. Pada April, laporan lapangan tim mereka tentang Selat Hormuz memberikan wawasan baru tentang dinamika geopolitik yang kompleks. Pendiri James van Geelen, lulusan biologi dan psikologi UCLA dengan latar belakang sebagai petugas medis darurat dan pengusaha di bidang kesehatan, menerapkan pendekatan investasi unik yang berfokus pada "pemikiran tingkat kedua" (second-order thinking), narasi, dan skenario hipotetis. Dia mencari tren jangka panjang seperti AI, geopolitik, dan energi. Citrini menawarkan model portofolio investasi, Citrindex, yang diklaim menghasilkan pengembalian kumulatif lebih dari 200%. Lembaga ini terus berkembang dengan merekrut analis independen untuk memperkuat analisis sektoral, sambil mempertahankan model operasi yang digerakkan oleh pendiri dengan tim ahli anonim. Kisah Geelen menunjukkan bagaimana perspektif multidisiplin dapat menciptakan dampak signifikan di dunia penelitian investasi.

marsbit4m yang lalu

Mengungkap Sang "Dewa Riset Investasi" di Balik Citrini: Juara Pertama Substack Bertahun-tahun, Satu Laporan Menguapkan Triliunan Dolar Pasar Saham AS

marsbit4m yang lalu

Tinjauan Kuartal I 2026 Ethereum: Aktivitas On-Chain Capai Rekor Tertinggi, Aset Tokenisasi Memimpin Industri

**Ringkasan Laporan Kuartal I 2026 Ethereum: Aktivitas On-Chain Tembus Rekor, Aset Tokenisasi Memimpin** Laporan oleh Token Terminal menganalisis kinerja Ethereum pada kuartal pertama 2026, yang ditandai dengan dinamika unik: lonjakan aktivitas pengguna berbarengan dengan kontraksi dalam nilai aset yang diukur dalam dolar. **Aktivitas On-Chain Mencapai Rekor Tertinggi:** * Pengguna aktif bulanan (alamat unik): 13.2 juta, naik 53.5% secara kuartalan. * Total transaksi lapisan utama (L1): 200.4 juta, naik 38% secara kuartalan. * Throughput jaringan (TPS rata-rata): 25.78, naik 41.2%. Peningkatan ini didorong oleh penerapan upgrade "Blob Parameter Fork" (BPO#2) yang meningkatkan kapasitas penyimpanan data dan menurunkan biaya transaksi secara signifikan. Meskipun volume transaksi naik, total biaya gas di L1 justru turun 47.9%, menunjukkan manfaat skalabilitas yang mulai terasa. **Nilai Aset dan Pendapatan dalam Dolar Mengalami Kontraksi:** * Total nilai terkunci (TVL) di ekosistem: $316.2 miliar, turun 11%. * Volume perdagangan di bursa terdesentralisasi (DEX): $134.5 miliar, turun 24%. * Pendapatan fee dari seluruh aplikasi: $2 miliar, turun 16.9%. * Kapitalisasi pasar ETH (FDV): $290 miliar, turun 30.3%. Penurunan ini terutama disebabkan oleh koreksi harga aset kripto secara luas pada kuartal tersebut, yang mengurangi nilai nominal aset yang diukur dalam dolar. **Dominasi dalam Aset Tokenisasi Tetap Kuat:** Ethereum mempertahankan posisinya sebagai platform utama untuk aset tokenisasi: * Total kapitalisasi pasar aset tokenisasi: $203.4 miliar (hampir stabil, turun 0.7%). * **Stablecoin:** $178.9 miliar (87.9% dari total), dipimpin USDT dan USDC. * **Dana Tokenisasi:** $19.4 miliar (naik 4.9%), dengan produk dari BlackRock (BUIDL), WisdomTree, dan lainnya. * **Komoditas Tokenisasi (terutama emas):** $4.7 miliar (naik 60%). * **Saham Tokenisasi:** $365.1 juta (naik 16.5%). Ethereum mendominasi pangsa pasar aset tokenisasi di antara lima blockchain teratas, memegang lebih dari 60% untuk stablecoin dan lebih dari 70% untuk dana dan komoditas tokenisasi. **Prospek dan Kesimpulan:** Laporan ini menyoroti "Paradoks Jevons" di Ethereum: peningkatan efisiensi (biaya lebih rendah) justru mendorong permintaan yang lebih besar (lebih banyak pengguna dan transaksi). Strategi jangka panjang Ethereum adalah mengorbankan pendapatan fee jangka pendek untuk memperluas adopsi dan mengukuhkan posisinya sebagai lapisan penyelesaian inti untuk keuangan on-chain. Dengan roadmap peningkatan skalabilitas seperti upgrade Glamsterdam yang akan datang, Ethereum bertujuan untuk mendukung adopsi keuangan institusional yang terus berkembang, sebagaimana dibuktikan oleh peluncuran berbagai dana dan stablecoin baru oleh institusi besar seperti BlackRock, JPMorgan, dan aliansi bank Eropa pada bulan-bulan berikutnya.

Foresight News6m yang lalu

Tinjauan Kuartal I 2026 Ethereum: Aktivitas On-Chain Capai Rekor Tertinggi, Aset Tokenisasi Memimpin Industri

Foresight News6m yang lalu

Mengungkap di Balik "Dewa Riset Investasi" Citrini: Selalu Unggul di Peringkat Pertama Substack, Satu Laporan Menghapus Triliunan Dolar Pasar Saham AS

**Mengungkap Citrini dan “Dewa Riset Investasi” di Baliknya** Citrini Research, lembaga riset investasi independen yang menduduki peringkat pertama di platform Substack, telah menarik perhatian dengan pengaruhnya yang besar di pasar keuangan. Didirikan oleh James van Geelen, lulusan biologi dan psikologi UCLA dengan latar belakang sebagai tenaga medis darurat dan entrepreneur di sektor kesehatan, Citrini dikenal dengan pendekatan investasi yang tidak konvensional. Konten Citrini sering kali berdampak signifikan. Laporan berjudul "The 2028 Global Intelligence Crisis" yang dirilis Februari lalu memicu gelombang jual besar-besaran saham-saham perangkat lunak AS, menghapus ratusan miliar dolar AS dari kapitalisasi pasar. Citrini juga aktif menganalisis tren jangka panjang seperti AI, geopolitik, dan kebijakan fiskal, dengan fokus pada "efek orde kedua" — menganalisis dampak lanjutan dari suatu peristiwa, bukan hanya peristiwa itu sendiri. Gaya investasi Geelen sangat dipengaruhi oleh "pemikiran naratif" dan skenario kontra-arus. Ia menyoroti peluang dalam transisi, seperti yang tercermin dari nama "citrinitas" yang terinspirasi dari tahap dalam alkimia di mana timbal mulai berubah menjadi emas. Lembaga ini menawarkan ide investasi makro yang dapat ditindaklanjuti dan telah meluncurkan portofolio model berbayar (Citrindex) yang dilaporkan menghasilkan pengembalian kumulatif lebih dari 200%. Dengan tim kecil yang terdiri dari analis anonim dan spesialis industri, Citrini terus mengembangkan cakupannya, dari analisis semikonduktor hingga laporan langsung dari titik konflik seperti Selat Hormuz. Meskipun kadang kontroversial, pendekatan multidimensi dan prediksi berani Citrini telah mengukuhkannya sebagai suara yang berpengaruh bagi puluhan ribu subscriber-nya.

Odaily星球日报14m yang lalu

Mengungkap di Balik "Dewa Riset Investasi" Citrini: Selalu Unggul di Peringkat Pertama Substack, Satu Laporan Menghapus Triliunan Dolar Pasar Saham AS

Odaily星球日报14m yang lalu

Gate Research Institute: Aliran Keluar ETF Menekan Preferensi Risiko, Sistem Dua Arah Melintasi Pasar Lemah

**Ringkasan Laporan Riset Gate: Strategi Dua Arah Unggul di Pasar Lemah Mei** Pasar kripto bulan Mei menunjukkan peralihan dari reli awal bulan menjadi koreksi dan konsolidasi ber- volatilitas rendah di akhir bulan. BTC, ETH, dan SOL sama-sama membentuk puncak pada awal Mei sebelum mengalami penyesuaian. Struktur pasar didominasi oleh perdagangan leverage dengan dukungan spot yang lemah, ditandai aliran keluar ETF BTC/ETH yang berkelanjutan dan volume perpetual yang tinggi. Analisis kinerja strategi mengungkap bahwa **strategi dua arah (long & short)** dengan sistem breakout berbasis *moving average cluster* pada kerangka waktu 4 jam memberikan hasil terbaik. Portofolio setara bobot tiga aset menghasilkan: * **Buy & Hold:** -6.09% * **Strategi Hanya Long:** -3.65% * **Strategi Dua Arah (Long & Short): +2.11%** Keuntungan utama berasal dari transaksi short pada tren turun ETH dan SOL di pertengahan hingga akhir Mei, membuktikan pasar lebih cocok untuk trading tren dua arah. Mekanisme exit berbasis EMA12 berperan efektif mengendalikan kerugian dari sinyal *false breakout*, sementara target profit 3R (3x risiko) berhasil mengamankan keuntungan dari tren yang kuat. Struktur dana menunjukkan pergeseran dari ETF mainstream (BTC/ETH) ke aset tematik dan altcoin seperti SOL, meskipun likuiditas stablecoin dan DeFi secara keseluruhan tetap stabil. Pasar kripto juga masih berkorelasi tinggi dengan preferensi risiko saham AS, di mana aliran keluar ETF kripto kontras dengan kinerja kuat saham teknologi seperti Nvidia, menekan kinerja aset digital. Kesimpulan untuk bulan Juni menekankan pendekatan disiplin dengan sistem dua arah, daripada subjektif mengejar kenaikan. Fokus harus pada identifikasi kondisi pasar (kompresi volatilitas), eksekusi sinyal dua arah, pengendalian risiko per transaksi (stop loss 2.5%), dan membiarkan keuntungan dari sedikit transaksi tren besar menutupi banyak kerugian kecil. Pemberian bobot pada sinyal harus mempertimbangkan konfirmasi kekuatan dari BTC, aliran ETF, dan konteks risiko saham AS.

marsbit35m yang lalu

Gate Research Institute: Aliran Keluar ETF Menekan Preferensi Risiko, Sistem Dua Arah Melintasi Pasar Lemah

marsbit35m yang lalu

Trading

Spot
Futures
活动图片