3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

marsbit发布于2026-06-18更新于2026-06-18

文章摘要

最近,一个名为VibeThinker-3B的30亿参数小型语言模型引发关注。它在编程等可验证推理任务上的性能,可与Gemini 3 Pro、GPT-5 high、Claude Opus 4.5等前沿大模型相媲美。该模型由新浪微博团队开发,基于Qwen2.5-Coder-3B构建,采用升级版Spectrum-to-Signal流程进行训练,强化了数据合成、质量过滤和课程学习,并应用了多领域推理强化学习等技术。其在AIME26、LiveCodeBench等数学与编程基准测试中成绩突出。报告提出“参数压缩覆盖假设”,认为在任务结构清晰、反馈可靠的可验证推理领域,推理能力可以被高度压缩,小型模型也能达到前沿水平,这与依赖大量参数覆盖事实的通用知识能力形成对比。作者强调,其目标是探索小模型在特定能力维度的边界,而非替代大模型。该模型已公开,但其在需要通用知识的领域表现有限。

最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。

这个模型名叫 VibeThinker-3B,是一个拥有 30 亿参数的密集推理模型,旨在探索在严格的小模型规模下,可验证推理能力能被推进到何种程度。

模型发布后,很多人都被它的成绩惊艳到了,表示要上手一试。

值得注意的是,它还是一个国产模型,来自新浪微博团队。

技术报告显示,该模型专为具有可靠验证信号的任务而设计,包括数学推理、竞技编程、STEM 推理以及带有明确约束的指令执行。

因此,它在各项基准测试中均表现出色 。其在 AIME26 测试中获得 94.3 分 ,在 HMMT25 测试中获得 89.3 分 ,在 LiveCodeBench v6 测试中获得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期间 LeetCode 最新未公开的周赛和双周赛中取得了 96.1% 的通过率。

这个模型是怎么训练的?技术报告揭示了一些细节。

首先,它基于 Qwen2.5-Coder-3B 构建,并采用升级版 Spectrum-to-Signal 流程进行后训练。该流程在监督微调(SFT)中加强了数据合成、质量过滤和课程学习,将 MGPO 风格的强化学习扩展到多个可验证领域,保留了完整的长上下文推理轨迹,并通过离线自蒸馏和指令强化学习(Instruct RL)来巩固各项能力。

VibeThinker-3B 整体训练流程

Spectrum-to-Signal 流程。

此外,VibeThinker-3B 还引入了 Claim-Level 可靠性评估(CLR),这是一种面向答案可验证推理的测试时 scaling 策略。CLR 进一步提升了数学基准测试的性能,将 AIME26 从 94.3 提高到 97.1,HMMT25 从 89.3 提高到 95.4,并将 BruMO25 提升至 99.2。

其具体训练流程如下:

  • 基于课程的两阶段 SFT。第一阶段侧重于数学、编程、STEM 推理、一般对话和指令遵循等方面的广泛能力覆盖。第二阶段转向难度更高、视野更广阔的推理样本。多样性探索蒸馏用于保留多个有效的解决方案路径。
  • 多领域推理强化学习。VibeThinker-3B 重用了 MGPO。强化学习依次应用于数学、编程和 STEM 推理任务。训练使用单个 64K 长上下文窗口来保留完整的长时域推理轨迹。
  • 离线自蒸馏。从数学、编程和 STEM RL 检查点筛选和提炼高质量轨迹,最终形成统一的学生模型。学习潜力评分用于优先考虑那些正确但学生尚未很好地模仿的轨迹。
  • Instruct RL。最后阶段提高了面向用户的提示的可控性。对于格式敏感且开放式的教学数据,采用基于规则的验证器和基于评分标准的奖励模型。

在最近的一个帖子中,知名 AI 研究者和博主 Sebastian Raschka 系统总结了 VibeThinker-3B 技术报告中披露的要点,包括以下几条:

如果你对这些内容感兴趣,可以去详细翻阅他们的技术报告。目前,模型也是可以公开下载的。

报告标题:VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

报告链接:https://arxiv.org/pdf/2606.16140

HuggingFace 链接:https://huggingface.co/WeiboAI/VibeThinker-3B

不过,该模型的适用范围是有明确限制的,因为它在需要通用知识的领域表现并不出色。

官方也明确指出了这一点,并提出「参数压缩覆盖假设」:不同的能力对模型参数的依赖方式截然不同。可验证推理更接近于一种高度可压缩、参数密集的能力,其核心在于多步骤推理、约束满足、自我纠错和答案验证。当任务空间结构足够清晰且反馈信号足够可靠时,紧凑型模型也可能具备接近前沿的推理能力。相比之下,开放领域知识、通用对话和长尾场景理解则更依赖于大规模参数来广泛覆盖事实、概念和世界知识。这一假设非常具有启发性。VentureBeat 在报道中写道:「它揭示了推理能力和事实知识之间存在部分解耦,并且前者可以比之前设想的更有效地压缩—— 这一洞见对业界如何看待模型设计、部署成本以及高级人工智能功能的普及性都具有深远的影响。」

作者表示,他们的目标并非打造一个替代大规模模型的小模型,而是沿着特定能力维度,审视小模型的真实边界。借助 VibeThinker-3B,他们希望表明,小模型不应仅仅被视为降低部署成本的妥协方案。在具有清晰反馈与验证机制的能力领域中,小型语言模型正展现出一条颇具前景的研究路径,有望实现前沿水平的性能,并与传统的参数规模扩展范式形成根本性的互补关系。

目前,该模型在社区中还面临一些质疑。如果大家对这个模型感兴趣,不妨自己去亲自试一下。

参考链接:

https://x.com/orcus108/status/2066876960073281582

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:张倩

相关问答

QVibeThinker-3B模型的主要特点和核心目标是什么?

AVibeThinker-3B是一个拥有30亿参数的密集推理模型。其主要特点是在编程等可验证推理任务上,性能比肩Gemini 3 Pro、GPT-5 high、Claude Opus 4.5等前沿大模型,但模型体积远小于它们。其核心目标是探索在小模型规模下,可验证推理能力(如数学、编程、STEM推理)能被推进到何种边界。

Q根据文章,VibeThinker-3B在哪些具体基准测试中表现出色?列举几个得分。

A该模型在多个可验证推理基准测试中表现出色,具体得分包括:在AIME26测试中获得94.3分,在HMMT25测试中获得89.3分,在LiveCodeBench v6测试中获得80.2分(Pass@1),并且在2026年4月25日至5月31日期间的LeetCode最新未公开周赛和双周赛中取得了96.1%的通过率。

QVibeThinker-3B模型的训练流程主要包含哪几个关键阶段?

A其训练流程主要包含四个关键阶段:1. 基于课程的两阶段监督微调,先广泛覆盖基础能力,再聚焦高难度样本。2. 多领域推理强化学习,依次应用于数学、编程和STEM任务。3. 离线自蒸馏,从强化学习检查点提炼高质量轨迹形成统一学生模型。4. Instruct RL,提高模型对面向用户提示的可控性和指令遵循能力。

Q文章中提到一个重要的技术假设叫什么?其主要观点是什么?

A这个假设叫做“参数压缩覆盖假设”。其主要观点是:不同的模型能力对参数的依赖方式不同。可验证推理能力(如多步骤推理、约束满足)是高度可压缩、参数密集的,在任务结构清晰、反馈可靠时,小模型也能达到前沿水平。而开放领域知识、通用对话等则更依赖大规模参数来覆盖广泛的事实和概念,表明推理能力与事实知识存在部分解耦。

QVibeThinker-3B模型是由哪个团队开发的?它的基础模型是什么?

AVibeThinker-3B是由新浪微博团队开发的国产模型。其基础模型是Qwen2.5-Coder-3B。

你可能也喜欢

完整版首秀问答!美联储主席沃什:坚守2%通胀目标,成立五个特别工作组,个人未提交点阵图

美联储新任主席沃什在首次FOMC会议上宣布维持利率在3.5%-3.75%不变,并释放了强烈的政策变革信号。他强调,委员会明确且一致地承诺将实现2%的通胀目标,在重获实现该目标的能力之前,不会重新审视这一目标。 沃什宣布立即成立五个特别工作组,分别聚焦美联储沟通机制、资产负债表(包括审查其6.7万亿美元的规模及政策工具效果)、数据源使用、生产率与就业(含AI影响)以及通胀框架,旨在年底前提出改进建议。 本次会议声明大幅缩减,取消了长期沿用的“前瞻性指引”。沃什本人打破惯例,未提交个人经济预测(SEP)和“点阵图”。其他18位官员的预测显示分歧,一半人预计今年至少加息一次,另一半认为利率将维持不变或下降。市场反应剧烈,美股下跌,美债收益率飙升,美元走强。 沃什指出当前政策的限制性效果“不均衡”,例如在房地产领域有所体现,但在金融市场则不然。他批评现有经济数据存在滞后和误差,希望获取更实时的信息。此外,他意图改变市场过度依赖央行言论的“喂食”模式,希望市场更多依据经济数据本身定价。沃什还将人工智能视为成年后最重要的经济变化,认为其带来了巨大需求,同时可能促进增长、就业与低通胀的兼容。

链捕手14分钟前

完整版首秀问答!美联储主席沃什:坚守2%通胀目标,成立五个特别工作组,个人未提交点阵图

链捕手14分钟前

DAT 公司玩起了副业

本文探讨了在加密市场低迷背景下,多家数字资产财库(DAT)公司的战略转型。以Metaplanet为代表的头部公司调整了资本策略,在股价低迷时转向抵押融资和股票回购,而非稀释股权。许多DAT公司,如ETHZilla,已选择退出该模式或回归核心业务。 面对困境,仍在坚持的公司主要探索了两条转型路径:一是转型为机构级的加密资产管理平台和收益基金,例如SharpLink Gaming将全部ETH用于质押并为股东创造收益,并与Galaxy Digital合作推出收益基金;GameSquare则通过算法在DeFi协议中动态配置资产以追求更高回报。二是转型为区块链基础设施运营商,这在Solana生态中尤为明显,如DeFi Development通过收购验证器公司、推出流动性质押代币并深度集成至DeFi协议来构建收入模式。 这些转型反映出DAT模式正从单纯的资本套利转向依靠运营能力、技术优势和生态参与来创造价值。成功的关键在于构建难以复制的运营壁垒,例如技术能力、网络效应或机构合作。然而,转型也伴随风险,如DeFi的智能合约风险和对特定区块链生态的依赖。 总体而言,DAT公司的集体转型标志着行业正从狂热走向冷静。能够真正参与网络建设、创造现金流并提供实际价值的公司,才更可能具备抗周期能力。这场转型既是生存压力下的应对,也是加密行业走向成熟的必经阶段。

Foresight News26分钟前

DAT 公司玩起了副业

Foresight News26分钟前

数字银行的宿命:再花哨的 App,不如一张银行牌照

文章指出,新兴数字银行(新银行)普遍面临盈利困境,约76%处于亏损状态,其核心原因在于业务模式缺陷。新银行早期以零手续费、便捷的App体验吸引大量用户,但其主要收入来源——借记卡消费产生的支付手续费——利润微薄,难以支撑运营。 传统银行真正的利润核心在于信贷业务(如房贷、车贷的利息)。而绝大多数新银行因缺乏银行牌照,无法大规模开展贷款业务。文章以Nubank、Revolut和Chime为例,说明成功的数字银行最终都转向并依赖信贷业务实现盈利。Nubank大部分营收来自信用卡和个人贷款利息;Revolut通过外汇、订阅等业务积累资本后,信贷规模迅猛增长;Chime在推出预支薪资等贷款产品后才首次实现季度盈利。 文章进一步揭示了新银行模式的结构性风险。它们大多依赖第三方服务商(如已破产的Synapse)处理资金托管和清算,一旦中间环节出问题,将导致用户资金冻结甚至丢失,整个体系脆弱不堪。相比之下,持有银行牌照(如美国OCC全国信托牌照)意味着获得直接监管背书,能自主托管资产、处理支付,从根本上摆脱对合作银行的依赖和中间商风险。 加密金融领域的企业(如Paxos、Circle等)近年也纷纷申请银行牌照,以合规地托管大量链上资产并开展业务。同时,文章指出DeFi领域在无抵押借贷上面临巨大挑战,由于链上匿名性和缺乏有效的违约追偿机制,该业务规模极小。要实现类似Nubank基于行为数据的普惠信贷,很可能仍需依托持牌银行的现实法律框架。 最终结论是:无论技术如何创新,银行业的盈利本质始终是通过发放贷款收取利息。数字银行无论界面多么花哨,若没有银行牌照以开展核心信贷业务,其商业模式便难以持续。真正的出路在于获得牌照,回归银行业的基本逻辑。

marsbit36分钟前

数字银行的宿命:再花哨的 App,不如一张银行牌照

marsbit36分钟前

交易

现货
合约
活动图片