Mô hình nhỏ 3B, điểm lập trình sánh ngang Opus 4.5, mô hình bí ẩn gây xôn xao, hóa ra là sản phẩm trong nước

marsbitXuất bản vào 2026-06-18Cập nhật gần nhất vào 2026-06-18

Tóm tắt

Trong những ngày gần đây, mô hình nhỏ VibeThinker-3B (3 tỷ tham số) từ đội ngũ Weibo (Trung Quốc) đã gây chú ý trên mạng X nhờ khả năng lập trình và suy luận có thể kiểm chứng, được cho là ngang bằng với các mô hình tiên tiến lớn hơn nhiều như GPT-5, Claude Opus 4.5 hay Gemini 3 Pro. Mô hình này được xây dựng dựa trên Qwen2.5-Coder-3B và trải qua quy trình đào tạo nâng cao "Spectrum-to-Signal", bao gồm tinh chỉnh có giám sát hai giai đoạn theo lộ trình, học tăng cường đa lĩnh vực, tự chưng cất ngoại tuyến và học tăng cường theo chỉ dẫn (Instruct RL). Nó cũng giới thiệu chiến lược đánh giá độ tin cậy theo tuyên bố (Claim-Level Reliability - CLR) để nâng cao hiệu suất trong các bài kiểm tra. Kết quả ấn tượng: AIME26: 94.3 (97.1 với CLR), HMMT25: 89.3 (95.4 với CLR), tỷ lệ Pass@1 trên LiveCodeBench v6 là 80.2%, và tỷ lệ giải đúng các bài LeetCode mới nhất đạt 96.1%. Báo cáo kỹ thuật đưa ra "giả thuyết nén tham số": khả năng suy luận có thể kiểm chứng (như toán học, lập trình) có thể được nén hiệu quả vào mô hình nhỏ với phản hồi đáng tin cậy, trong khi kiến thức thực tế tổng quát và đối thoại mở lại phụ thuộc nhiều hơn vào quy mô tham số lớn. Mục tiêu không phải là thay thế mô hình lớn, mà là thăm dò giới hạn của mô hình nhỏ trong các lĩnh vực cụ thể, mở ra hướng nghiên cứu mới bổ sung cho mô hình truyền thống. Mô hình có sẵn trên HuggingFace và arXiv, nhưng cần lưu ý nó được thiết kế cho các nhiệm vụ suy luận có thể xác minh, không phải cho kiến thức tổng quát hay đối thoại...

Mấy ngày gần đây, một mô hình nhỏ 3B đã gây sốt trên X, vì trong một số nhiệm vụ suy luận có thể xác minh độ khó (ví dụ như lập trình), nó đã lọt vào phạm vi hiệu suất của các mô hình tiên phong như Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, trong khi kích thước của nó nhỏ hơn rất nhiều so với các mô hình này.

Mô hình này có tên là VibeThinker-3B, là một mô hình suy luận đặc chắc với 3 tỷ tham số, nhằm mục đích khám phá xem, trong quy mô mô hình nhỏ nghiêm ngặt, khả năng suy luận có thể xác minh có thể được đẩy đến mức độ nào.

Sau khi mô hình được công bố, nhiều người đã kinh ngạc trước thành tích của nó, và nói rằng muốn tự mình trải nghiệm.

Đáng chú ý là, nó còn là một mô hình trong nước, đến từ đội ngũ Weibo Sina.

Báo cáo kỹ thuật cho thấy, mô hình này được thiết kế chuyên biệt cho các nhiệm vụ có tín hiệu xác minh đáng tin cậy, bao gồm suy luận toán học, lập trình thi đấu, suy luận STEM và thực thi lệnh với các ràng buộc rõ ràng.

Do đó, nó thể hiện xuất sắc trong các bài kiểm tra chuẩn. Nó đạt 94.3 điểm trong bài kiểm tra AIME26, 89.3 điểm trong bài kiểm tra HMMT25, 80.2 điểm (Pass@1) trong bài kiểm tra LiveCodeBench v6, và đạt tỷ lệ vượt qua 96.1% trong các cuộc thi tuần và thi đôi (biweekly contests) mới nhất không công khai trên LeetCode từ ngày 25/4/2026 đến 31/5/2026.

Mô hình này được huấn luyện như thế nào? Báo cáo kỹ thuật tiết lộ một số chi tiết.

Đầu tiên, nó được xây dựng dựa trên Qwen2.5-Coder-3B, và sử dụng quy trình Spectrum-to-Signal nâng cấp để huấn luyện hậu kỳ (post-training). Quy trình này tăng cường tổng hợp dữ liệu, lọc chất lượng và học theo lộ trình (curriculum learning) trong quá trình tinh chỉnh có giám sát (SFT), mở rộng việc học tăng cường theo phong cách MGPO sang nhiều lĩnh vực có thể xác minh, giữ lại toàn bộ đường đi suy luận ngữ cảnh dài, và củng cố các khả năng thông qua tự cô đặc ngoại tuyến (offline self-distillation) và học tăng cường chỉ dẫn (Instruct RL).

Quy trình huấn luyện tổng thể của VibeThinker-3B

Quy trình Spectrum-to-Signal.

Ngoài ra, VibeThinker-3B còn giới thiệu Đánh giá Độ tin cậy Cấp độ Tuyên bố (Claim-Level Reliability - CLR), một chiến lược mở rộng quy mô lúc kiểm tra (test-time scaling) hướng tới suy luận có câu trả lời có thể xác minh. CLR tiếp tục nâng cao hiệu suất trong các bài kiểm tra chuẩn toán học, nâng AIME26 từ 94.3 lên 97.1, HMMT25 từ 89.3 lên 95.4, và nâng BruMO25 lên 99.2.

Quy trình huấn luyện cụ thể của nó như sau:

SFT hai giai đoạn dựa trên lộ trình. Giai đoạn đầu tập trung vào phạm vi khả năng rộng rãi như toán học, lập trình, suy luận STEM, hội thoại chung và tuân thủ chỉ dẫn. Giai đoạn hai chuyển sang các mẫu suy luận khó hơn và tầm nhìn rộng hơn. Sự cô đặc khám phá đa dạng (Diversity exploration distillation) được sử dụng để giữ lại nhiều đường giải pháp hiệu quả.
Học tăng cường suy luận đa lĩnh vực. VibeThinker-3B tái sử dụng MGPO. Học tăng cường được áp dụng lần lượt cho các nhiệm vụ toán học, lập trình và suy luận STEM. Quá trình huấn luyện sử dụng một cửa sổ ngữ cảnh dài 64K duy nhất để giữ lại toàn bộ đường đi suy luận miền thời gian dài.
Tự cô đặc ngoại tuyến. Lọc và cô đặc các đường đi chất lượng cao từ các checkpoint RL toán học, lập trình và STEM, cuối cùng tạo thành một mô hình học sinh thống nhất. Điểm tiềm năng học tập được sử dụng để ưu tiên những đường đi đúng nhưng mô hình học sinh chưa bắt chước tốt.
Instruct RL. Giai đoạn cuối cùng nâng cao khả năng kiểm soát đối với các hướng dẫn hướng tới người dùng. Đối với dữ liệu hướng dẫn nhạy cảm về định dạng và mở, bộ xác thực dựa trên quy tắc và mô hình phần thưởng dựa trên tiêu chí chấm điểm được sử dụng.

Trong một bài đăng gần đây, nhà nghiên cứu AI và blogger nổi tiếng Sebastian Raschka đã tổng kết có hệ thống các điểm chính được tiết lộ trong báo cáo kỹ thuật VibeThinker-3B, bao gồm những điểm sau:

Nếu bạn quan tâm đến những nội dung này, có thể đi xem chi tiết báo cáo kỹ thuật của họ. Hiện tại, mô hình cũng có thể tải xuống công khai.

Tiêu đề báo cáo: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Liên kết báo cáo: https://arxiv.org/pdf/2606.16140

Liên kết HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Tuy nhiên, phạm vi áp dụng của mô hình này có những hạn chế rõ ràng, vì nó không thể hiện xuất sắc trong các lĩnh vực cần kiến thức tổng quát.

Bên chính thức cũng chỉ rõ điểm này, và đưa ra "Giả thuyết Nén Tham số Bao phủ": các khả năng khác nhau phụ thuộc vào tham số mô hình theo những cách hoàn toàn khác nhau. Suy luận có thể xác minh gần hơn với một khả năng có thể nén cao, đặc chắc tham số, cốt lõi của nó nằm ở suy luận nhiều bước, thỏa mãn ràng buộc, tự sửa lỗi và xác minh câu trả lời. Khi không gian nhiệm vụ có cấu trúc đủ rõ ràng và tín hiệu phản hồi đủ đáng tin cậy, một mô hình nhỏ gọn cũng có thể có khả năng suy luận gần với mức tiên phong. Ngược lại, kiến thức lĩnh vực mở, hội thoại chung và hiểu biết các tình huống đuôi dài (long-tail) lại phụ thuộc nhiều hơn vào tham số quy mô lớn để bao phủ rộng rãi các sự kiện, khái niệm và kiến thức thế giới. Giả thuyết này rất mang tính gợi mở. VentureBeat trong bài báo đã viết: "Nó tiết lộ rằng có sự tách rời một phần giữa khả năng suy luận và kiến thức thực tế, và khả năng trước có thể được nén hiệu quả hơn so với những gì được nghĩ trước đây — một hiểu biết sâu sắc có tác động sâu rộng đến cách ngành công nghiệp nhìn nhận về thiết kế mô hình, chi phí triển khai và tính phổ biến của các tính năng AI cao cấp."

Tác giả cho biết, mục tiêu của họ không phải là tạo ra một mô hình nhỏ thay thế cho các mô hình quy mô lớn, mà là xem xét ranh giới thực sự của các mô hình nhỏ dọc theo các chiều kích khả năng cụ thể. Với VibeThinker-3B, họ hy vọng chỉ ra rằng, mô hình nhỏ không nên chỉ được coi là một giải pháp thỏa hiệp để giảm chi phí triển khai. Trong các lĩnh vực khả năng có cơ chế phản hồi và xác minh rõ ràng, các mô hình ngôn ngữ nhỏ đang thể hiện một con đường nghiên cứu đầy hứa hẹn, có khả năng đạt được hiệu suất ở mức tiên phong, và hình thành một mối quan hệ bổ sung cơ bản với mô hình mở rộng quy mô tham số truyền thống.

Hiện tại, mô hình này trong cộng đồng vẫn đang phải đối mặt với một số nghi ngờ. Nếu mọi người quan tâm đến mô hình này, tốt nhất nên tự mình thử nghiệm.

Liên kết tham khảo:

https://x.com/orcus108/status/2066876960073281582

Bài viết này đến từ tài khoản WeChat công cộng "机器之心" (ID:almosthuman2014), tác giả: Zhang Qian

Câu hỏi Liên quan

QMô hình VibeThinker-3B có những đặc điểm nổi bật nào?

AVibeThinker-3B là một mô hình suy luận dày đặc với 3 tỷ tham số, được phát triển bởi đội ngũ Weibo (Sina Weibo). Nó nổi bật với khả năng đạt điểm số tương đương các mô hình lớn như GPT-4 hay Claude Opus trong các nhiệm vụ suy luận có thể xác minh được, chẳng hạn như lập trình và toán học, mặc dù có kích thước nhỏ hơn rất nhiều. Mô hình được huấn luyện chuyên biệt cho các nhiệm vụ có tín hiệu xác minh rõ ràng.

QVibeThinker-3B đạt kết quả thế nào trong các bài kiểm tra chuẩn?

ATrong các bài kiểm tra chuẩn, VibeThinker-3B đạt được điểm số rất cao: 94.3 điểm trên AIME26, 89.3 điểm trên HMMT25, 80.2 điểm trên LiveCodeBench v6, và tỷ lệ vượt qua 96.1% trên các cuộc thi LeetCode mới nhất (chưa công bố). Khi áp dụng chiến lược CLR, điểm số còn được cải thiện hơn nữa.

QQuy trình đào tạo của VibeThinker-3B có những bước chính nào?

AQuy trình đào tạo của VibeThinker-3B bao gồm: 1) SFT hai giai đoạn dựa trên chương trình giảng dạy, 2) Học tăng cường lý luận đa lĩnh vực (sử dụng MGPO), 3) Tự chưng cất ngoại tuyến để hợp nhất các khả năng, và 4) Học tăng cường theo chỉ dẫn (Instruct RL) để cải thiện khả năng điều khiển theo lời nhắc của người dùng. Nó được xây dựng dựa trên Qwen2.5-Coder-3B.

QGiả thuyết 'nén tham số' được đề cập trong bài là gì và có ý nghĩa thế nào?

AGiả thuyết 'nén tham số' cho rằng khả năng suy luận có thể xác minh và kiến thức thực tế phần nào tách rời nhau. Khả năng suy luận (như giải toán, lập trình) có tính nén cao và phụ thuộc nhiều vào tham số hơn, có thể đạt hiệu suất cao ngay cả ở mô hình nhỏ nếu nhiệm vụ có cấu trúc rõ ràng và tín hiệu phản hồi đáng tin cậy. Trong khi đó, kiến thức thực tế và đối thoại mở cần nhiều tham số hơn để bao phủ rộng. Điều này mở ra hướng nghiên cứu mới về thiết kế và triển khai mô hình hiệu quả.

QMô hình VibeThinker-3B có hạn chế gì và ở đâu có thể tải xuống?

AHạn chế chính của VibeThinker-3B là nó không xuất sắc trong các lĩnh vực đòi hỏi kiến thức chung rộng, như đối thoại mở hoặc hiểu các tình huống đuôi dài. Mô hình được tối ưu hóa chuyên biệt cho các nhiệm vụ suy luận có thể xác minh. Báo cáo kỹ thuật và mô hình có thể được tải xuống công khai từ liên kết arXiv và HuggingFace được cung cấp trong bài viết.

Nội dung Liên quan

Khối tài sản của Elon Musk vượt qua vốn hóa thị trường Bitcoin: Trò chơi tài sản bùng nổ của SpaceX

Elon Musk đã vượt qua vốn hóa thị trường của Bitcoin, với tài sản cá nhân ước đạt 1,32 nghìn tỷ USD so với 1,29 nghìn tỷ USD của Bitcoin. Điều này chủ yếu nhờ vào đà tăng mạnh của SpaceX sau khi lên sàn, với giá cổ phiếu tăng hơn 50% trong tuần đầu, đưa vốn hóa lên khoảng 2,7 nghìn tỷ USD. Sự kiện này phản ánh sự dịch chuyển vốn đầu cơ từ thị trường tiền mã hóa sang SpaceX, được một số người ví như "cổ phiếu meme trị giá 2 nghìn tỷ USD". Làn sóng mua vào mạnh mẽ đến từ các nhà đầu tư bán lẻ, đặc biệt là ở Hàn Quốc, cùng với giao dịch sôi động cho các quỹ ETF có đòn bẩy liên kết với SpaceX. Tuy nhiên, định giá cao của SpaceX đi kèm với những câu hỏi về cơ bản. Công ty báo lỗi gần 50 tỷ USD vào năm 2025 và tiếp tục thua lỗ trong quý I/2026. Định giá hiện tại phần lớn dựa trên lời hứa của Musk về doanh thu 1 nghìn tỷ USD vào năm 2030 và tiềm năng từ Starlink, AI và hệ sinh thái công nghệ của ông. Mốc so sánh này cho thấy trọng tâm ưa thích rủi ro của thị trường hiện nay: giao dịch đầu cơ lớn nhất không còn là tiền mã hóa, mà có thể là một công ty hàng không vũ trụ đang được định giá cho tương lai xa.

marsbit5 phút trước

Khối tài sản của Elon Musk vượt qua vốn hóa thị trường Bitcoin: Trò chơi tài sản bùng nổ của SpaceX

marsbit5 phút trước

a16z: Ngành Công nghiệp Crypto Bước Vào Thời Đại 'Cho Tôi Xem Bằng Chứng'

Ngành công nghiệp tiền mã hóa đang bước vào kỷ nguyên "show me", nơi các dự án cần cung cấp bằng chứng cụ thể hơn là chỉ những lời hứa và tầm nhìn xa. Sau những vụ bê bối và sự giám sát ngày càng chặt chẽ, cộng đồng và các nhà đầu tư trở nên hoài nghi hơn với những câu chuyện kể đơn thuần. Sự gia nhập của các tổ chức tài chính truyền thống lớn như BlackRock, Fidelity và JPMorgan với các sản phẩm thực tế đã nâng cao tiêu chuẩn cho một "dự án đáng tin cậy". Bài viết nhấn mạnh rằng logic truyền thông đang thay đổi. Thay vì chỉ nói "chúng tôi đang xây dựng tương lai của thanh toán", một dự án thuyết phục cần phải chứng minh: "Chúng tôi đã rút ngắn thời gian chuyển tiền xuyên biên giới từ ba ngày xuống còn bốn phút, và đã có doanh nghiệp thực sự sử dụng." Cái gọi là "chồng bằng chứng" giờ đây bao gồm dữ liệu chính xác (khối lượng giao dịch chính thức, người dùng hoạt động, doanh thu), các đối tác thực sự có thể xác minh công khai và sự phù hợp thị trường sản phẩm được chứng minh bởi người dùng tự nhiên. Điều này đặt ra áp lực nhưng cũng tạo cơ hội cho các nhà xây dựng. Ngưỡng truyền thông cao hơn sẽ loại bỏ nhiều dự án chỉ dựa trên bao bì khái niệm, đồng thời giúp những đội ngũ có sản phẩm, dữ liệu và người dùng thực sự dễ được nhận ra hơn. Tầm nhìn vẫn quan trọng, nhưng nó phải được hỗ trợ bởi những thành quả hiện tại. Trong kỷ nguyên mới này, chiến lược truyền thông hiệu quả phải được thiết kế để trưng ra bằng chứng, chứ không còn là hứa hẹn về chúng.

marsbit8 phút trước

a16z: Ngành Công nghiệp Crypto Bước Vào Thời Đại 'Cho Tôi Xem Bằng Chứng'

marsbit8 phút trước

Tin Nóng, Người Đồng Phụ Trách Gemini Của Google Bị OpenAI Tuyển Dụng

Ngày 19/6, nhà nghiên cứu Noam Shazeer của Google DeepMind, đồng lãnh đạo dự án Gemini, chính thức gia nhập OpenAI với vai trò Trưởng nhóm nghiên cứu kiến trúc. Ông sẽ phụ trách khám phá kiến trúc thế hệ AI mới và thúc đẩy sự phát triển tiếp theo của kiến trúc Transformer. Shazeer là một nhân vật huyền thoại, một trong những tác giả chính của bài báo năm 2017 "Attention Is All You Need", đặt nền móng cho kiến trúc Transformer - cốt lõi của các mô hình lớn hiện đại như GPT, Gemini, Claude. Trước đó, ông từng rời Google để đồng sáng lập Character.AI vào năm 2021. Năm 2024, Google đã ký một thỏa thuận trị giá khoảng 27 tỷ USD để đưa Shazeer và một phần đội ngũ trở lại DeepMind, nơi ông trở thành đồng lãnh đạo Gemini. Việc chuyển sang OpenAI của Shazeer được xem là một tổn thất lớn đối với Google và là một bước tăng cường quan trọng cho OpenAI trong cuộc cạnh tranh khốc liệt với Anthropic. Nhiệm vụ của ông tại OpenAI là nghiên cứu hướng đi mới cho kiến trúc AI sau thời đại Transformer. Sự kiện này phản ánh cuộc chiến tranh giành nhân tài cấp cao ngày càng gay gắt giữa các gã khổng lồ AI.

marsbit33 phút trước

Tin Nóng, Người Đồng Phụ Trách Gemini Của Google Bị OpenAI Tuyển Dụng

marsbit33 phút trước

Mất 10 năm, cuối cùng Sam Altman cũng có được người mà ông muốn

Sau 2 năm trở lại Google với thỏa thuận trị giá 2,7 tỷ USD, Noam Shazeer - một trong những tác giả của kiến trúc Transformer mang tính bước ngoặt - đã chính thức rời công ty để gia nhập OpenAI. Trong thông báo trên X, Shazeer bày tỏ lòng tự hào về những gì đã xây dựng tại Google nhưng cũng bày tỏ sự hào hứng khi được hợp tác với đội ngũ tại OpenAI. CEO Sam Altman của OpenAI tiết lộ rằng ông đã muốn làm việc cùng Shazeer từ khi thành lập công ty, và phải mất 10 năm mới có được cơ hội này. Shazeer sẽ đảm nhận vị trí Trưởng nhóm Nghiên cứu Kiến trúc tại OpenAI. Mark Chen, Trưởng bộ phận Nghiên cứu của OpenAI, nhấn mạnh những đóng góp to lớn của Shazeer trong các lĩnh vực như Transformer, mô hình hỗn hợp chuyên gia (MoE) và giải mã hiệu quả, đồng thời tin tưởng vào tầm nhìn của ông về phát triển AGI an toàn. Việc Shazeer, từng là đồng lãnh đạo kỹ thuật của dự án Gemini tại Google, chuyển sang đối thủ cạnh tranh trực tiếp được coi là một tổn thất nhân sự lớn đối với Google. Nhiều ý kiến trong cộng đồng cho rằng điều này có thể ảnh hưởng đến nỗ lực phát triển Gemini, trong khi một số khác coi đây là một "thỏa thuận mua lại" cực kỳ có lợi cho OpenAI. Sự kiện này làm nổi bật cuộc chiến tranh giành nhân tài khốc liệt trong ngành AI.

marsbit37 phút trước

Mất 10 năm, cuối cùng Sam Altman cũng có được người mà ông muốn

marsbit37 phút trước

Thu Nhập 13 Tỷ USD, Chi 17.2 Tỷ USD Cho Microsoft: Sự Thật Về Số Tiền Khổng Lồ Đang Đốt Cháy Trong Ngành AI Qua Bộ Sổ Sách Rò Rỉ Của OpenAI

Vào tháng 6/2026, một tài liệu tài chính bị rò rỉ của OpenAI cho thấy công ty đạt doanh thu 13,07 tỷ USD vào năm 2025 nhưng cũng chịu lỗ hoạt động 20,92 tỷ USD, tương đương chi 1,6 USD cho mỗi USD kiếm được. Chi phí chủ yếu đến từ R&D (19,18 tỷ USD, gồm 10,59 tỷ USD trả cho Microsoft) và chi phí tính toán suy luận (7,5 tỷ USD). Một gánh nặng cấu trúc lớn là khoản thanh toán 17,2 tỷ USD cho Microsoft, chiếm 50,5% tổng chi phí. Đây không phải là hiện tượng cá biệt. XAI của Elon Musk báo lỗ hoạt động 6,4 tỷ USD so với doanh thu 3,2 tỷ USD năm 2025. Anthropic tuy tăng trưởng doanh thu nhanh (ARR 47 tỷ USD vào 5/2026) nhưng cũng chịu áp lực chi phí suy luận cao, với tỷ suất lãi gộp chỉ 40%. Cả ba công ty hàng đầu này cùng chịu lỗ hoạt động tổng cộng hơn 30 tỷ USD năm 2025, cho thấy mô hình "đốt tiền đổi quy mô" là phổ biến. Với 9 tỷ người dùng hoạt động hàng tuần, ChatGPT có tỷ lệ chuyển đổi sang trả phí chỉ khoảng 5,6% (50 triệu người). Áp lực biến đổi người dùng miễn phí thành doanh thu ngày càng lớn khi chi phí suy luận tăng. Trong khi Anthropic tập trung vào định giá cao cho doanh nghiệp, OpenAI vẫn duy trì mô hình đăng ký phổ thông 20 USD/tháng. Tương lai của ngành phụ thuộc vào việc giảm mạnh chi phí biên, thông qua chip chuyên dụng hoặc đổi mới kiến trúc, để thoát khỏi vòng xoáy lỗ hiện tại.

marsbit52 phút trước