腾讯新模型发布,姚顺雨交卷了

marsbitPublié le 2026-04-27Dernière mise à jour le 2026-04-27

文 | 新眸,作者 | 李小东

大模型的牌局上,腾讯终于甩出了一张新牌。

4月23日,腾讯混元Hy3 preview语言模型正式发布并开源。这是一款快慢思考融合的混合专家(MoE)模型,总参数295B(2950亿),激活参数21B,最大支持256K上下文长度。官方给它的定义干脆利落:“混元重建后训练的第一个模型”,以及“混元迄今最智能的模型”。

如果把目光往回拉四个月,腾讯AI的日子并不好过。今年年会上,马化腾亲口承认“动作慢了”,慢了9个月到1年。刘炽平复盘,混元像高中生背题应考,成绩单好看,一上真实考场就露馅。与此同时,字节豆包月活已达3.45亿,阿里千问1.66亿,而元宝约5700万,差距不仅没缩小还在拉大。

所以当28岁的姚顺雨——前OpenAI研究员、清华姚班出身、中国互联网最受瞩目的天才少年,在去年被正式任命为腾讯“CEO/总裁办公室”首席AI科学家时,外界解读只有一个意思:腾讯要动真格了。

四个月后,Hy3 preview上线。交卷时刻似乎到了。

01 一场“推倒重来”式的重建

Hy3 preview不是一次常规迭代。用腾讯自己的话说,这是一场底层工程的重构。2月,混元重建了预训练和强化学习的基础设施,原有的训练框架没有沿用,姚顺雨到任后在一个月内完成了整个基础设施的重建。

重建的方向很明确,三个原则:能力体系化、评测真实性、性价比追求。翻译一下就是,不做“偏科生”,不刷榜,不让模型变成烧钱的无底洞。

“不做偏科生”这条尤其值得展开。Hy3 preview从研发之初就围绕智能体场景做了针对性设计,而姚顺雨的判断是,即便是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。你不能让模型只会写代码却看不懂文档,或者能聊天但调不了API。

同时,姚顺雨指出,过去的混元过度追逐榜单成绩,将打榜语料放入训练集导致数据被污染,影响了真实场景表现。他要求团队“以后不要打榜”,主动跳出易被刷榜的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式来评估模型的“真实战斗力”。

从研发节奏来看,Hy3 preview于2026年1月底正式启动训练,从训练到上线用了不到三个月,被腾讯内部定义为混元大模型从“读万卷书”走向“行万里路”、尝试解决真实世界复杂问题的开端。

不到三个月,重建基础设施、定方向、训模型、开源发布。这个速度放在大厂体系里,相当激进。

Hy3 preview最核心的技术理念是“快慢思考融合”。

这个概念对应的是认知科学中的双系统理论:系统1(快思考)是快速、自动、直觉式的反应;系统2(慢思考)是缓慢、深度、需要调用大量计算资源的推理。传统大模型在设计时通常两条路只能选一条,要么快但能力有限,要么强但响应慢。

Hy3 preview的做法是让模型根据任务难度自动选择思考模式:简单任务用快思考,复杂任务切换到慢思考,在速度和能力之间找一个最优平衡点。

工程上,这套机制依赖MoE架构来实现。295B的总参数中,每次推理只激活21B,激活占比约7.1%。这意味着实际计算量远小于一个2950亿的稠密模型。

慢思考任务会激活更多专家、调用更多计算资源,快思考任务则只激活少数专家、节省算力。快慢思考的切换不是简单叠加两个模型,而是在一个模型内部根据任务自适应用分配计算量。

这个设计思路并不新鲜,但能在不到三个月里完成架构选型、训练和上线,背后的工程能力确实不容小觑。

对腾讯这种手握微信、QQ、腾讯文档等海量用户产品的公司来说,推理成本的可控性很大程度上决定了模型能否真正进入产品,Hy3 preview的架构选择也正因如此具备了现实的商业考量。

02 不刷榜的底气是什么?

既然说“不打榜”,评估体系就得自己建。

腾讯混元提出了CL-bench和CL-bench-Life两套评测框架,重点考察模型在长而杂乱的上下文中理解信息、遵循复杂规则并完成任务的能力。这两套框架对应的正是许多真实生产和生活场景里最常见、也最难被传统榜单覆盖的问题。

在具体性能表现上,Hy3 preview在几个关键基准测试中取得了有竞争力的结果。在编程基准SWE-Bench Verified中,Hy3 preview得分74.4%,相比前代Hy2的53.0%提升超过40%,已接近GLM-4.7的水平。

在复杂推理任务上,Hy3 preview在FrontierScience-Olympiad、IMOAnswerBench等高难度理工科推理任务中表现突出,全国中学生生物学联赛(CHSBO 2025)等高难度推理任务中,Hy3 preview同样取得优异成绩,展现了其在复杂逻辑推理上的泛化能力。

虽然没有刻意追求任何单一维度的“SOTA”,但Hy3 preview在各个方向上都展现出了相当均衡的竞争力。这种选择恰好印证了姚顺雨在AGI-Next峰会上传递的信号,行业需要跳出“打榜”束缚,核心聚焦在真实用户价值。

不过也要看到,Hy3 preview的某些实测表现并不完美。

有机构一手测试显示,在一个覆盖数据抓取、数值计算、可视化生成和文本分析的全链路综合任务中,Hy3 preview在数据获取阶段反复受阻,接口认证失败后接连切换多个数据源,部分数据因速率限制缺失而被迫用模拟数据替代;

最关键的是,提示词明确要求输出500字的跨市场资产配置Memo,模型却只给出了几行Bullet point式的简略配置比例,没有成文的分析段落。

这表明Hy3 preview在真实复杂场景下的交付完整性仍有不小提升空间。当然,作为一款preview版本,这些瑕疵大致在预期之内。

除此以外,价格层面可能也是现在最受关注的问题之一,Hy3 preview在腾讯云大模型服务平台TokenHub上的定价是:输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。同时,腾讯云联合混元推出的定制Token Plan套餐,个人版定价最低28元/月。

放在当前的市场坐标系里,Hy3 preview的价格并不算激进。

作为对比,DeepSeek-V4-Flash的输入价格为0.2元/百万tokens,V4-Pro在限时优惠后输入缓存命中价格更是低至0.025元/百万tokens。在OpenRouter平台上,DeepSeek-V4-Flash每百万Token的平均输出价仅为GPT-5.5 Pro的1.55‰。

但在“百模大战”进入Agent时代的当下,腾讯的价格逻辑是清晰的:不拼绝对低价,追求“能力-成本-场景”的三角平衡。

21B的激活参数本身就是一张成本牌的底,结合MoE架构的高效推理,它为Agent场景中高频次、长链路的调用提供了一个相对可控的成本底座。

换句话说,摸到了Agent落地的门槛。

03 腾讯AI的底牌仍然是自有生态

模型的真正价值在于用起来。

Hy3 preview目前在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续接入中。

值得留意的是开源生态的接入:Hy3 preview支持接入OpenClaw、OpenCode、KiloCode等流行开源智能体产品。这意味着腾讯不仅在用自己的模型武装自家的产品矩阵,也在试图进入更广泛的开源智能体生态。

但产品侧的挑战同样直接。元宝此前接入DeepSeek-R1后日活暴涨超20倍,但搜索链路分走混元和DeepSeek两套系统,体验不统一,留存转化始终是难题。Hy3 preview全面接入后,能否解决这个“分流”问题,将是检验模型真实战斗力的第一次试金。

目前,腾讯旗下最大的AI应用元宝已全面接入Hy3 preview。从微信到QQ,从腾讯文档到和平精英,腾讯的产品矩阵正在围绕一个统一的模型底座进行集结。这种“自有生态+自有模型”的打法,和字节豆包依托火山引擎的路径形成了有趣的对比。

回到Hy3 preview,发布当天,同一天晚上,OpenAI发布GPT-5.5。不到24小时,DeepSeek V4预览版跟着上线。

这是一个缩影。今年大模型牌局,对手们出牌的速度远比外界想象的快。

Meta前段时间凭Muse Spark打了个翻身仗,股价当日大涨;Google的Gemini 3.1系列继续保持强势,AI聊天机器人市场份额已从不到6%攀升至约20%以上。国内方面,阿里的Qwen3.6-Max-Preview,月之暗面的Kimi K2.6。更早之前,豆包大模型2.0首次大版本跨代升级,百度也发了2.4万亿参数的原生全模态文心大模型5.0正式版。

至于DeepSeek,V4-Pro在Agent能力、世界知识和推理性能上达到开源模型最佳水平,并在两天内连续降价,部分价格降至原价的四十分之一,V4-Flash每百万tokens输入缓存命中价格仅为0.02元。

行业里有了共识,跟DeepSeek拼价格,对任何厂商都不是划算的买卖。

在这一背景下,腾讯按自己的节奏走“实用主义+生态落地”的路线。正如汤道生此前判断的,主流大模型的能力差距正在缩小,企业的核心需求已不再是拥有最好的模型,而是如何通过系统工程把模型的能力最大程度发挥出来,真正拉开差距的是“工程化交付能力”。

04 姚顺雨:从“定义下半场”到“交出模型”

整件事最特别的地方在于一个人:姚顺雨。

2025年4月,还在OpenAI的姚顺雨发表了一篇博客《The Second Half》,提出AI已经从上半场走到下半场,重点不再是训练出更强的模型,而是如何定义值得解决的问题,用更接近真实世界的方式评估模型。

这篇博客让他获得了“定义AI下半场的人”这样的标签。

加入腾讯后,他需要从提出判断走向落地判断。四个月,一套新的基础设施,一个新模型,一次开源。对于外界来说,Hy3 preview是一个答案的开头。

姚顺雨自己的表态很清醒:“Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升Hy3正式版的实用性”。

这番话没有任何夸口的成分,倒更像一个阶段性的项目汇报。

公开信息显示,除了姚顺雨,腾讯在过去一年从微软、阿里、DeepSeek等顶尖团队引入了不下10位AI大牛,包括前微软亚洲研究院视觉计算组首席研究员胡瀚、微软WizardLM项目创建者徐灿等。腾讯在AI人才上的投入力度,从薪资、职级到职责范围,都给了候选人能在业内拿到的几乎最高水平。

Hy3 preview不是一个天才少年单枪匹马的成果,而是一个重新集结后的团队,在一个被重建的基础上做出的第一款产品。

对于腾讯而言,Hy3 preview本质上是在回答一个问题:腾讯大模型到底还行不行?从参数、架构、评测数据和产品落地来看,这份答卷至少在及格线之上。

但一个preview版本只是起点。在这样一个对手环伺、节奏加速的牌局里,腾讯需要的是一个能持续迭代、真正在自有生态里扎根、并最终跑出差异化价值的模型体系。

这才是接下来真正值得关注的问题:Hy3正式版何时到来,腾讯的产品矩阵能否围绕它形成一套真正自洽的“模型-应用-商业”闭环,元宝能否在混元自己的基座上跑出留存和增长,以及,在Agent时代真正到来时,腾讯的生态纵深能否转化为实际的竞争优势。

四个月前,姚顺雨拿到了一张新牌桌。四个月后,Hy3 preview是第一张牌。接下来怎么打,才是看功力的地方。

本文系新眸原创,申请转载授权、商务合作请联系微信:ycj841642330,添加好友请备注公司和职位。

— END —


更多内容,点击下方关注

Cryptos en tendance

Lectures associées

Le Triangle impossible est en réalité un faux problème

L'auteur conteste la pertinence du "trilemme" classique (décentralisation, scalabilité, sécurité) pour les blockchains. Il propose que les vrais freins à l'adoption massive sont la légitimité (environnement réglementaire) et le manque de confidentialité par défaut. La blockchain est définie comme un ordinateur partagé, lent et cher, dont la seule valeur unique est de fonctionner sans propriétaire ni permission. Seul l'argent natif (comme les stablecoins) est un actif adapté, car sa simple inscription au registre constitue sa valeur. Le marché actuel ne sert qu'une niche ("les gens assez aisés"). Les gros capitaux institutionnels restent à l'écart, principalement à cause des risques opérationnels et de deux défauts structurels : 1. **Légitimité** : L'absence de permission, essentielle, crée des zones grises réglementaires. Des progrès législatifs récents (ex: loi GENIUS) commencent à combler ce fossé. 2. **Transparence** : Celle-ci est présentée comme une vertu, mais constitue en réalité une taxe. Elle expose chaque transaction, position et paiement, permettant le MEV (extraction de valeur maximale) et décourageant toute entité sérieuse de révéler sa trésorerie au monde. L'auteur souligne l'ironie d'un système fondé sur la cryptographie qui ne protège pas la vie financière des utilisateurs. La solution réside dans une **confidentialité par défaut avec des preuves de conformité** (via des preuves à connaissance nulle - ZK). Cela permet de prouver un fait (solvabilité, respect des limites, KYC) sans révéler les données sous-jacentes, combinant ainsi protection individuelle et vérifiabilité pour les auditeurs et régulateurs. Cette évolution, purement améliorative, pourrait enfin attirer les milliers de milliards de capitaux institutionnels et faire de la blockchain l'infrastructure financière qu'elle était censée être.

marsbitIl y a 7 h

Le Triangle impossible est en réalité un faux problème

marsbitIl y a 7 h

L'impossible trilemme est un faux problème

L'industrie de la cryptographie a construit le système de cryptographie le plus puissant de l'histoire, mais son principal échec est l'absence de confidentialité financière par défaut. Chaque transaction, paiement et portefeuille est diffusé publiquement. La blockchain est essentiellement un ordinateur partagé, lent et coûteux, dont la seule valeur réside dans son absence de propriétaire unique et sa résistance à la censure. Pendant des années, le débat s'est concentré sur le "trilemme" (décentralisation, évolutivité, sécurité), qui est aujourd'hui largement résolu. Le vrai frein à l'adoption massive n'est pas là. La véritable contrainte est double : la légitimité juridique et le manque de confidentialité. Les fonds sont l'actif natif de la blockchain, mais les grands capitaux institutionnels restent à l'écart car l'environnement est perçu comme trop risqué et non conforme. La transparence totale de la chaîne n'est pas une vertu, mais une taxe. Elle expose les utilisateurs au MEV (Maximum Extractable Value), où les transactions sont espionnées et exploitées avant leur règlement, drainant des milliards de dollars de valeur. La plus grande ironie est que ce système, bâti sur la cryptographie, n'applique pas le chiffrement aux activités financières des utilisateurs, contrairement à la communication qui l'a adopté il y a des décennies. La solution n'est pas un anonymat total, mais une confidentialité prouvable et conforme. Les technologies cryptographiques modernes (comme les preuves à connaissance nulle) permettent de vérifier la solvabilité, la conformité KYC ou les limites de risque sans révéler les données sous-jacentes. Cela préserve les avantages de l'auditabilité tout en éliminant l'exposition permanente. En combinant un cadre réglementaire émergent (comme le GENIUS Act) et une confidentialité par défaut avec des mécanismes de divulgation vérifiable, la blockchain peut effectuer une mise à niveau pure. Elle cesse d'être un "tableur public coûteux" pour devenir une machine partagée qui confirme la véracité des transactions sans en divulguer le contenu. C'est le pont qui permettra aux capitaux institutionnels et à la finance traditionnelle de rejoindre la chaîne, débloquant ainsi les milliers de milliards de dollars qui attendent. Le système cryptographique le plus puissant apprend enfin à garder un secret, et cela change tout.

链捕手Il y a 7 h

L'impossible trilemme est un faux problème

链捕手Il y a 7 h

Des puces optiques en pleine expansion de production collective

La demande de puces photoniques connaît une croissance exponentielle, stimulée par les besoins en interconnexion optique des centres de données d'IA. Une course mondiale aux capacités de production est engagée. Aux États-Unis, Coherent étend sa ligne de production de semi-conducteurs InP de 6 pouces au Texas, soutenue par un financement et un investissement stratégique de Nvidia. Nokia développe ses capacités de test et d'emballage avancés en Pennsylvanie. Le japonais JX Advanced Metals prévoit d'augmenter sa production de substrats InP par 7 à 10 fois. En Europe, IQE et Tower Semiconductor ont conclu un accord d'approvisionnement à long terme pour les plaquettes InP, illustrant la tendance à l'intégration hétérogène des composants InP performants dans les plateformes silicium-optique matures. En Chine, l'expansion est rapide. Suzhou TFC Optical Communication (Solstice) investit 12 milliards de dollars dans un projet d'expansion. San'an Photonics possède une capacité de production mensuelle de 2 750 plaquettes pour les puces InP. Yunnan Germanium a lancé un projet pour augmenter la production de tranches de monocristal InP. La chaîne d'approvisionnement chinoise se consolide de la matière première au module. Malgré les débats sur les délais de déploiement du CPO (Co-Packaged Optics), l'augmentation globale de la consommation de contenu optique (moteurs photoniques, lasers) est incontestable, tirée par la demande croissante de bande passante dans l'IA. Le paysage futur impliquera probablement plusieurs architectures (silicium-optique, VCSEL, MicroLED) coexistant pour différentes distances et besoins. Cette frénésie d'expansion mondiale, des États-Unis et du Japon à l'Europe et la Chine, représente un pari collectif de l'industrie des semi-conducteurs sur l'avenir photonique de l'informatique à haute performance.

marsbitIl y a 10 h

Des puces optiques en pleine expansion de production collective

marsbitIl y a 10 h

Les stablecoins trouvent enfin un rendement réel : Détails de la réassurance en chaîne Re | Discussion avec Karan Saroya, fondateur de Re

Le projet Re est une plateforme de réassurance décentralisée qui connecte les stablecoins à l'industrie traditionnelle de l'assurance. Elle collecte des stablecoins (actuellement 1700 milliards de dollars en circulation) et les utilise comme garantie pour fournir du capital à des compagnies d'assurance américaines. En échange, les assureurs paient des primes dont les bénéfices sont reversés aux déposants sur la blockchain, générant un rendement annuel réel estimé entre 12% et 14%. Le modèle exploite un effet de levier réglementaire : 1 dollar de garantie permet de soutenir 5 à 7 dollars de primes d'assurance. Cette efficacité opérationnelle, couplée à l'automatisation par contrats intelligents, permet à Re de concurrencer les géants traditionnels du secteur avec une équipe réduite. Les déposants reçoivent des jetons représentatifs (receipt tokens) qu'ils peuvent ensuite utiliser dans le DeFi (ex: Morpho, Fluid) pour du "looping" et potentiellement augmenter leurs rendements. Re a également émis un jeton de gouvernance, RE, inspiré du modèle historique de Lloyd's of London, permettant de contrôler l'allocation du capital central. En résumé, Re crée une nouvelle source de rendement non corrélée aux marchés crypto ou actions, en canalisant les stablecoins vers l'économie réelle via la réassurance, tout en démocratisant l'accès à cette classe d'actifs auparavant réservée aux grands investisseurs institutionnels.

链捕手Il y a 11 h

Les stablecoins trouvent enfin un rendement réel : Détails de la réassurance en chaîne Re | Discussion avec Karan Saroya, fondateur de Re

链捕手Il y a 11 h

1996 ou 1999 ? Le premier test de Walsh est 'comment voir l'IA'

L’arrivée de Jerome Warsh à la tête de la Fed est confrontée à une question fondamentale : **comment interpréter le boom actuel de l’IA** ? Deux scénarios historiques s’affrontent. Le premier, inspiré de 1996 sous Alan Greenspan, suggère que les gains de productivité conteniront l’inflation, permettant à la Fed de rester patiente. Le second, évoquant 1999, craint que des attentes trop optimistes ne provoquent une surchauffe, exigeant un resserrement monétaire précoce. Warsh penche vers le scénario de 1996, affirmant qu’une croissance tirée par la productivité est à « embrasser ». Il redoute qu’une réaction prématurée de la Fed n’étouffe une expansion bénéfique. Cependant, le contexte actuel – tensions commerciales, déficits budgétaires, reflux de la mondialisation – est bien plus inflationniste que celui des années 1990, réduisant la marge de manœuvre. La position de Warsh est contestée, notamment par Austan Goolsbee de la Fed de Chicago. Selon lui, un boom anticipé par tous peut inciter à une dépense prématurée, alimentant l’inflation avant même que les gains de productivité ne se matérialisent. La flambée des coûts des data centers et des composants en serait un signe. En réponse, d’autres, comme Christopher Waller, notent que les contraintes de crédit des ménages pourraient limiter cet effet de « anticipation des dépenses ». Enfin, Warsh souhaite réduire le « forward guidance » (guidage prospectif), un outil hérité de 1999. Mais si l’économie suit le scénario de 1999, il pourrait être contraint de l’utiliser pour éviter des turbulences sur les marchés. Ainsi, **la première grande épreuve de Warsh consistera à trancher : sommes-nous en 1996 ou en 1999 ?** Sa réponse définira l’orientation de la politique monétaire et marquera son mandat.

marsbitIl y a 12 h

1996 ou 1999 ? Le premier test de Walsh est 'comment voir l'IA'

marsbitIl y a 12 h

Trading

Spot
Futures

Articles tendance

Comment acheter 4

Bienvenue sur HTX.com ! Nous vous permettons d'acheter 4 (4) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément 4 (4).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos 4 (4)Après avoir acheté vos 4 (4), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des 4 (4)Tradez facilement 4 (4) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

439 vues totalesPublié le 2025.10.20Mis à jour le 2026.06.02

Comment acheter 4

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de 4 (4) sont présentées ci-dessous.

活动图片