3B小模型，编程得分比肩Opus 4.5，神秘模型引发热议，原是国产

marsbit发布于2026-06-18更新于2026-06-18

文章摘要

最近，一个名为VibeThinker-3B的30亿参数小型语言模型引发关注。它在编程等可验证推理任务上的性能，可与Gemini 3 Pro、GPT-5 high、Claude Opus 4.5等前沿大模型相媲美。该模型由新浪微博团队开发，基于Qwen2.5-Coder-3B构建，采用升级版Spectrum-to-Signal流程进行训练，强化了数据合成、质量过滤和课程学习，并应用了多领域推理强化学习等技术。其在AIME26、LiveCodeBench等数学与编程基准测试中成绩突出。报告提出“参数压缩覆盖假设”，认为在任务结构清晰、反馈可靠的可验证推理领域，推理能力可以被高度压缩，小型模型也能达到前沿水平，这与依赖大量参数覆盖事实的通用知识能力形成对比。作者强调，其目标是探索小模型在特定能力维度的边界，而非替代大模型。该模型已公开，但其在需要通用知识的领域表现有限。

最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。

这个模型名叫 VibeThinker-3B,是一个拥有 30 亿参数的密集推理模型,旨在探索在严格的小模型规模下,可验证推理能力能被推进到何种程度。

模型发布后,很多人都被它的成绩惊艳到了,表示要上手一试。

值得注意的是,它还是一个国产模型,来自新浪微博团队。

技术报告显示,该模型专为具有可靠验证信号的任务而设计,包括数学推理、竞技编程、STEM 推理以及带有明确约束的指令执行。

因此,它在各项基准测试中均表现出色。其在 AIME26 测试中获得 94.3 分 ,在 HMMT25 测试中获得 89.3 分 ,在 LiveCodeBench v6 测试中获得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期间 LeetCode 最新未公开的周赛和双周赛中取得了 96.1% 的通过率。

这个模型是怎么训练的?技术报告揭示了一些细节。

首先,它基于 Qwen2.5-Coder-3B 构建,并采用升级版 Spectrum-to-Signal 流程进行后训练。该流程在监督微调(SFT)中加强了数据合成、质量过滤和课程学习,将 MGPO 风格的强化学习扩展到多个可验证领域,保留了完整的长上下文推理轨迹,并通过离线自蒸馏和指令强化学习(Instruct RL)来巩固各项能力。

VibeThinker-3B 整体训练流程

Spectrum-to-Signal 流程。

此外,VibeThinker-3B 还引入了 Claim-Level 可靠性评估(CLR),这是一种面向答案可验证推理的测试时 scaling 策略。CLR 进一步提升了数学基准测试的性能,将 AIME26 从 94.3 提高到 97.1,HMMT25 从 89.3 提高到 95.4,并将 BruMO25 提升至 99.2。

其具体训练流程如下:

基于课程的两阶段 SFT。第一阶段侧重于数学、编程、STEM 推理、一般对话和指令遵循等方面的广泛能力覆盖。第二阶段转向难度更高、视野更广阔的推理样本。多样性探索蒸馏用于保留多个有效的解决方案路径。
多领域推理强化学习。VibeThinker-3B 重用了 MGPO。强化学习依次应用于数学、编程和 STEM 推理任务。训练使用单个 64K 长上下文窗口来保留完整的长时域推理轨迹。
离线自蒸馏。从数学、编程和 STEM RL 检查点筛选和提炼高质量轨迹,最终形成统一的学生模型。学习潜力评分用于优先考虑那些正确但学生尚未很好地模仿的轨迹。
Instruct RL。最后阶段提高了面向用户的提示的可控性。对于格式敏感且开放式的教学数据,采用基于规则的验证器和基于评分标准的奖励模型。

在最近的一个帖子中,知名 AI 研究者和博主 Sebastian Raschka 系统总结了 VibeThinker-3B 技术报告中披露的要点,包括以下几条:

如果你对这些内容感兴趣,可以去详细翻阅他们的技术报告。目前,模型也是可以公开下载的。

报告标题:VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

报告链接:https://arxiv.org/pdf/2606.16140

HuggingFace 链接:https://huggingface.co/WeiboAI/VibeThinker-3B

不过,该模型的适用范围是有明确限制的,因为它在需要通用知识的领域表现并不出色。

官方也明确指出了这一点,并提出「参数压缩覆盖假设」:不同的能力对模型参数的依赖方式截然不同。可验证推理更接近于一种高度可压缩、参数密集的能力,其核心在于多步骤推理、约束满足、自我纠错和答案验证。当任务空间结构足够清晰且反馈信号足够可靠时,紧凑型模型也可能具备接近前沿的推理能力。相比之下,开放领域知识、通用对话和长尾场景理解则更依赖于大规模参数来广泛覆盖事实、概念和世界知识。这一假设非常具有启发性。VentureBeat 在报道中写道:「它揭示了推理能力和事实知识之间存在部分解耦,并且前者可以比之前设想的更有效地压缩—— 这一洞见对业界如何看待模型设计、部署成本以及高级人工智能功能的普及性都具有深远的影响。」

作者表示,他们的目标并非打造一个替代大规模模型的小模型,而是沿着特定能力维度,审视小模型的真实边界。借助 VibeThinker-3B,他们希望表明,小模型不应仅仅被视为降低部署成本的妥协方案。在具有清晰反馈与验证机制的能力领域中,小型语言模型正展现出一条颇具前景的研究路径,有望实现前沿水平的性能,并与传统的参数规模扩展范式形成根本性的互补关系。

目前,该模型在社区中还面临一些质疑。如果大家对这个模型感兴趣,不妨自己去亲自试一下。

参考链接:

https://x.com/orcus108/status/2066876960073281582

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:张倩

你可能也喜欢

因Coldcard遭黑客攻击，近期比特币钱包最大规模被盗事件引发新一轮损失！损失持续攀升

Galaxy Research报告称，针对Coldcard硬件钱包的第三波攻击已发生，此次造成207.7294 BTC损失，使总损失增至约1367.05 BTC（约8860万美元），涉及4585个地址。前两波攻击在区块链行为上相似，疑似同一攻击者所为，但第三波在多个可测特征上显著不同：它为每个受害者创建独立地址、针对P2WSH而非P2WPKH地址、平均每次汇入6.37个受害地址，且仅扫描标准派生路径。这些差异可能是原攻击者升级工具以混淆追踪，也可能是漏洞公开后出现了新的攻击者。目前，被盗BTC仍存放在攻击者地址中未转移。分析显示，损失地址多为余额低于1 BTC的个人钱包，但大余额地址贡献了主要损失金额。存在漏洞的Coldcard固件发布于2021年3月17日，所有被盗BTC均在此后生成。

cryptonews.ru40分钟前

因Coldcard遭黑客攻击，近期比特币钱包最大规模被盗事件引发新一轮损失！损失持续攀升

cryptonews.ru40分钟前

特朗普媒体再抛售2628枚BTC，持有量降至4261枚

特朗普媒体与科技集团再度出售2,628枚比特币，价值约1.65亿美元，将其比特币持仓减少至4,261枚，当前价值约2.698亿美元。据区块链数据分析，该公司在过去七个月内已累计出售7,281枚比特币，总价值约5.45亿美元，平均出售价格为每枚74,855美元。此次出售正值与特朗普相关的加密业务面临更广泛的伦理审查之际，美国立法者正在审议《数字资产市场清晰法案》，该法案涉及公职人员数字资产所有权的道德规则与潜在利益冲突。批评者指出，特朗普相关的加密项目，包括特朗普和梅拉尼娅主题 meme 币，凸显了政治影响力与私人加密利益之间的重叠问题。

cointelegraph1小时前

cointelegraph1小时前

福建晋江，一家存储超级独角兽静悄悄

近日，随着长鑫科技A股上市成为股王，同为国内三大存储芯片项目之一的福建晋华集成电路有限公司（晋华）重新进入公众视野。这家位于福建晋江的DRAM企业，自2016年成立起便肩负打破海外垄断的使命，却因2018年被美国列入实体清单并遭遇司法指控而陷入长达数年的沉寂。2024年2月，美国法院裁定其无罪，晋华才得以摆脱法律阴影。晋华的曲折发展与灵魂人物陈正坤密不可分。这位拥有美光与联电背景的工程师，怀揣自主开发DRAM的梦想加入晋华。公司初期通过与联电合作快速推进，但随后美光发起诉讼，指控技术窃密，导致晋华产线因设备禁运而停摆。在极端困难下，陈正坤带领团队改造国产设备、重构工艺，艰难维持运营。尽管最终赢得清白，但发展进度已被严重拖慢。目前，晋华专注于利基型DRAM市场，月产能约4万片，拥有千余项专利，但仍在美国实体清单限制之下。晋江这座以鞋服闻名的民营经济强市，为引入晋华这一“硬科技”项目投入巨资，并以政府基金、全链条配套和持续的政策支持，助力企业在制裁中生存下来。如今，以晋华为龙头，晋江已形成超千亿规模的集成电路产业集群。在全球AI驱动存储繁荣的周期中，晋华虽规模尚小，但其在封锁中重建的经历，已成为中国存储产业自主攻坚的缩影。

marsbit1小时前

marsbit1小时前

38GW电力缺口下，比特币矿场为何突然成了AI算力的新入口？

当AI数据中心竞争的核心转向电力资源时，曾经高度依赖电力的比特币矿场正凭借其现成的电网接入、土地和电力设施，转型为AI算力基础设施供应商。摩根士丹利预测，美国2026-2028年数据中心电力缺口可能高达38GW，而改造旧矿场有望贡献10-19GW的容量。一批北美上市矿企，如TeraWulf、Hut 8等，正从“挖矿”转向成为“带电机房壳体提供商”。它们不再只是出售算力，而是向云厂商和AI公司提供已具备电力、土地和基础建筑的场地，帮助客户更快地部署大规模算力。这一转型的关键在于，获取新的电网接入许可可能需要等待5-7年，而现成矿场所拥有的已获批电力容量变得极其稀缺。因此，旧矿场的核心价值正从生产比特币，转变为提供通往AI算力的“电力入口”，其资产价值面临重估。

华尔街日报1小时前

华尔街日报1小时前

迈克尔·塞勒："我们从未说过永远不会出售比特币"

微策略公司主席迈克尔·塞勒表示，公司从未承诺永不卖出其持有的比特币，但预计在长期内仍将保持比特币的净买家身份。此番言论是针对有报道称微策略新获准出售最多价值50亿美元比特币的回应。塞勒澄清，该出售许可并非新消息，而是公司早在6月29日就已公布的资本管理体系的一部分。他指出，相关许可是为了特定目的而设，但并未强制公司必须出售比特币。他强调，公司没有宣布任何新的许可，且预期未来将继续净买入比特币。塞勒还说明，公司的比特币货币化计划并不要求出售比特币资产，并重申公司从未正式采纳“永不卖出比特币”的政策。

cryptonews.ru2小时前