实测混元Hy3 preview:腾讯AI,终于能打了?

marsbit发布于2026-04-26更新于2026-04-26

文章摘要

腾讯混元Hy3 preview于4月23日正式发布并开源,采用混合专家架构,总参数量达295B,支持256K上下文长度,在推理、指令遵循、代码生成和智能体能力等方面有显著提升。实测显示,该模型在复杂逻辑推理中表现扎实,但陷阱识别和逆向思维仍有不足;在上下文信息提取和指令遵循方面稳定可靠;代码和智能体任务执行能力基本合格,但复杂任务交付完整性有待加强;自然语言表达已摆脱套路化,对话更自然,创意文本可读性较高。整体而言,Hy3 preview是一款无明显短板的实用型模型,虽非顶尖,但标志着腾讯在大模型领域的积极转变。

文 | AIX财经,作者 | 雷晶,编辑 | 金玙璠

AI圈近期动作频频,腾讯混元Hy3 preview也正式亮相。

4月23日,腾讯混元正式发布并开源了新一代语言模型Hy3 preview。据官网介绍,该模型采用快慢思考融合的混合专家架构,总参数295B、激活参数21B,最大支持256K上下文长度。这是被官方称为混元迄今最智能的模型。

三个月前,姚顺雨带着ReAct框架和OpenAI的实战经验加入腾讯,主导完成了预训练和强化学习基础设施的重构。Hy3 preview是重建后的首份答卷。官方表示,该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体等能力均实现大幅提升。

从官方披露的数据和评测结果来看,Hy3 preview在多项基础测试中展现出亮眼的实力,虽然未必在所有维度都达到行业顶尖水准,但足以满足多数场景下的实用需求。

在实际运行效率和稳定性方面,Hy3 preview也有所突破。官方数据显示,这款模型的首Token延迟降低54%,端到端时长降低47%,大幅提升了响应速度。同时,任务成功率也有所提升,已能稳定驱动复杂的Agent工作流,覆盖文档处理、数据分析等多种业务场景。

此外,它的推理成本也有所下降。在腾讯云API输入低至1.2元/百万Tokens,个人套餐最低28元/月,在同尺寸模型中属于最低价梯队。目前,Hy3 preview已在腾讯云、元宝、WorkBuddy等腾讯核心产品中上线。

接下来,我们将根据官方提到的四个方向,实测混元大模型在实际应用中的表现。

推理能力:复杂逻辑能拆解,陷阱识别仍需加强

我们首先测试了模型的推理能力。逻辑推理题是网友最喜欢拿来测模型“智商”的类型之一。在这一环节中,我们先用经典的“洗车问题”在元宝内进行测试。

在这个经典陷阱题中,Hy3 preview起初并未答对。它给出了条理清晰的推理来建议步行,而忽视了重点在于“洗车”。在再次提醒需要洗车后,它才给出正确答案。

需要注意的是,在其他网友的实测中,Hy3 preview出现过能直接答对的情况,说明它的陷阱识别能力稳定性不足。

我们再来试一道脑筋急转弯题。在这个问题中,需要理解现实逻辑,碎了、煎了、吃了的是同一批鸡蛋。但Hy3 preview没有意识到这一点,它认为煎了的鸡蛋依然存在,可以吃掉。

随后,我们加大难度,用一道推导过程更为复杂的逻辑题来考验它。这道题的难点在于没有直接的定位信息,需要靠隐性条件来做排除,容易遗漏关键信息。

在这一场景中,Hy3 preview给出了正确答案。它先逐条拆解线索、提炼人物与职业的互斥关系,再通过排除法锁定身份。接着,它依次确定部分岗位的归属,再结合规则逐步补全。

综合来看,Hy3 preview常规理性逻辑推演能力较强,但逆向思维、陷阱识别与生活场景变通思考能力仍有不足。面对陷阱类脑筋急转弯时,容易局限于字面常规逻辑,忽略题目陷阱与现实场景,反应欠佳。但在面对条件隐蔽、推导繁琐的复杂逻辑推理题时,它能够拆解线索,层层推演,逻辑分析和分步推导能力表现扎实。

上下文学习和指令遵循 :提取信息,干扰场景下表现稳定

这一环节考验模型的两个基本功:能否抓住真正的指令,以及能否快速理解指令。

腾讯在官方博客中给出了项目规划、旅游总结、读书记录等五个场景,我们选取两个场景来实测。

场景一:内容杂乱的会议纪要信息提取

我们给了一段混乱的会议录音转写,混杂着插话、跑题、反复修正等情况,要求其摘录三类信息。

Hy3 preview给出的答案准确地列出了这三类信息,信息抓取能力表现不错。

场景二:理解并遵循新的语言规则

我们自创了一个简单的语言,通过实例向它展示规则,并给它三个新的句子让它翻译。

在这一轮中,Hy3 preview能够准确完成相关要求,每个细节都能按规则执行。

综合来看,Hy3 preview能理解指令要求,有效排除干扰信息,适合繁杂信息干扰、信息抓取等实用场景。

代码和智能体:工具调用较成熟,任务交付完整性不足

代码能力与智能体能力,是评判一款AI助手是否好用的重要维度。这既考验模型对用户需求的理解深度,也检验Agent在多步骤任务中的规划、工具调用及任务闭环能力。这一环节,我们为WorkBuddy(腾讯旗下AI助手)设计了三个任务。

第一个任务,我们要求WorkBuddy爬取五个城市近一年的空气状况,并基于空气质量数据生成一份分析报告。

从页面呈现来看,成品表现合格。季节切换、雷达图、趋势图、相关性热力图等板块结构完整,视觉呈现有序,图表也具备基本的交互功能。这表明它在前端呈现这一层面的执行力达标。

但问题主要有两个,一是由于数据获取阶段受阻,Hy3 preview只拿到了224天的有效数据,缺口较大,影响了后续表格的可信度;二是提示词中明确要求写一段分析结论,Hy3 preview虽在页面上保留了对应板块的区域,但实际内容是一片空白。这意味着,它有任务闭环意识,但最终的交付能力仍有不足。

第二个任务,我们让它搭建一个贪吃蛇小游戏。

最终结果较为成熟,画面精美、逻辑完整,可以正常运行。但需要指出的是,贪吃蛇属于规则封闭类任务,需求明确且无需调用外部数据,评价标准比较明确,是智能体较擅长的应用场景。WorkBuddy在该任务中的表现只能体现在舒适区内的能力,验证了其具有一定的实用价值。

第三个任务,我们将难度提高,让它分析一个开放式复杂任务:分析AI Coding行业的商业模式演变,盘点2023年至今的发展历程,并找出行业关键转折点及核心驱动因素。

这是一个开放式复杂任务,没有统一的标准答案,成果质量取决于Agent的判断力、信息筛选能力与表达能力。

在执行层面,WorkBuddy能够自动调用多个工具,先修订执行计划、再落地推进计划,整个过程大概耗时半个小时。

但最终结果并不算惊艳,它只是搭建了一个基础框架,实际内容不够扎实。可以看出,虽然它掌握了拆解研究问题的方法,却不懂得如何将这些维度进一步提炼为有价值的研究论点。

总的来说,WorkBuddy已具备日常编码助手该有的能力,但在复杂任务的深度执行和最终交付上,还有提升空间。

自然对话:AI味明显减弱

最后,我们再来看看元宝有没有“人味”。这一轮通过两个场景来测试:闲聊对话与创意写作。

场景一:闲聊对话

官方文档中提到,Hy3 preview更能理解用户的倾诉意图,能承接用户情绪,避免说教式、模板化的回复。

实际测试下来,Hy3 preview的表现确实贴合这一定位。它没有一上来就罗列一堆建议,而是先客观分析背后的可能原因,再询问是否遇到什么事情。整体语气温和,较有分寸,有闲聊场景里的自然感。

场景二:创意写作

在这一环节中,我们设计了两个任务,考验它的叙事与表达能力。

我们先让它写一个主角全程未出场,但读者读完能清晰知道他是谁、经历了什么、为何重要的故事。

元宝交出的成品,全文逻辑自洽、叙事流畅,完成度较高,几乎读不出AI写作常见的套路感。

接着,我们再让它模仿《明朝那些事儿》的文风,撰写其他朝代的人物历史故事。

AI写作时容易将文风复刻表现为刻板的模仿,仅停留照搬行文框架,而不能吃透文章风格。但从生成结果来看,Hy3 preview文风复刻能力较强,整体符合要求。它抓住了原书通俗讲史的风格,较好地呈现了整个故事。

这一轮评测,最让人意外。整体来看,Hy3 preview在自然语言的表达上,已经摆脱了正确却无味的套路腔,能够写出可读性较高的文本。

结语

四个维度测下来,Hy3 preview给人的感觉是“稳而不惊”。

它没有在某一项上拿出碾压式的表现,但它也几乎没有明显的短板。放在整个国内大模型的排位里,它未必是最惊艳的一款,但符合能干活的实用型模型标准。

把视角拉远一点,Hy3 preview真正的意义或许并不在模型本身。

过去两年,腾讯在大模型战场上较为被动。今年1月底,马化腾在年会上公开承认,腾讯AI动作慢了。技术节奏相对较慢、没有一个能让外界记住的标杆模型,是腾讯面临的两大问题。而Hy3 preview的发布,让腾讯的AI故事有了转折点,也让腾讯有了整个生态都能用的AI模型。

目前Hy3 preview还只是一个预览版本,开源社区的反馈还在收集中,元宝、QQ、腾讯文档等产品的实际调用体验也还需要时间检验。据官方披露,后续会发布参数规模更大的模型。

但至少,腾讯AI已经开始撕掉过去两年“被动”的标签了。

相关问答

Q腾讯混元Hy3 preview模型的主要技术特点是什么?

A腾讯混元Hy3 preview采用快慢思考融合的混合专家架构,总参数295B、激活参数21B,最大支持256K上下文长度。它在复杂推理、指令遵循、上下文学习、代码生成及智能体等能力上均有大幅提升,首Token延迟降低54%,端到端时长降低47%,推理成本低至1.2元/百万Tokens。

QHy3 preview在逻辑推理测试中表现如何?

AHy3 preview在常规逻辑推理题中表现较强,能够拆解线索、层层推演,但在逆向思维、陷阱识别与生活场景变通思考方面仍有不足。例如,在经典的'洗车问题'和脑筋急转弯题中容易忽略题目陷阱,但在复杂逻辑推导题中能准确分析并给出正确答案。

QHy3 preview在代码和智能体任务中的优缺点是什么?

A优点:Hy3 preview能处理规则明确的编码任务(如搭建贪吃蛇游戏),工具调用较成熟,前端呈现能力达标。缺点:在复杂任务(如数据爬取和分析)中,数据获取可能不完整,任务交付完整性不足,深度执行和最终交付能力有待提升。

QHy3 preview在自然语言处理方面有哪些改进?

AHy3 preview在自然对话中'AI味'明显减弱,能更好理解用户倾诉意图,避免说教式回复,语气温和有分寸。在创意写作中,能生成逻辑自洽、叙事流畅的文本,文风复刻能力较强,摆脱了套路感,可读性较高。

QHy3 preview对腾讯AI战略的意义是什么?

AHy3 preview的发布标志着腾讯AI动作的转折点,解决了技术节奏慢和缺乏标杆模型的问题。它让腾讯有了整个生态可用的AI模型,目前已上线腾讯云、元宝、WorkBuddy等核心产品,后续将发布更大参数规模的模型,推动腾讯AI从被动转向主动。

你可能也喜欢

SharpLink CEO:如何理解以太坊开发者刚刚突破 100 万?

SharpLink CEO分享了其对以太坊开发者总数突破100万的见解。根据Electric Capital数据,以太坊历史开发者总数已达1,012,824人,其中约23.2万人在过去一年保持活跃,构成了加密领域最庞大的技术人才库。 作者认为,加密领域的核心竞争并非单纯追求速度与低费用,而是顶尖建设者的选择。以太坊凭借十年积累的制度、文化、经济与生态结构,形成了难以复制的综合优势,已成为可编程金融和互联网原生资本的默认操作系统。 这百万开发者正致力于攻克行业最前沿的挑战:通过预计2026年的Glamsterdam升级提升核心协议可扩展性;通过同步可组合性技术让众多Rollup如一条链般协同工作;以及积极布局抗量子能力,以太坊基金会已成立专门团队推进,目标是2029年前完成迁移。 更深层的护城河在于网络效应:以太坊的可组合性让应用像乐高积木一样互操作,EVM和Solidity技能在数百个网络中通用,形成了“更多开发者→更多工具与流动性→更多应用”的飞轮。此外,由超90万验证者保障的可信中立性、模块化扩展架构以及顶尖的研究与文化氛围,共同巩固了其作为大型机构首选信任层的地位。 作者在访问亚洲以太坊社区后强调,以太坊的竞争优势在于汇聚了改变未来金融的建设者,其生态不仅是链上活跃,更在成为互联网原生金融的长期协调层。

链捕手3分钟前

SharpLink CEO:如何理解以太坊开发者刚刚突破 100 万?

链捕手3分钟前

从身份协议到AI入口,World的野心有多大?

近期,加密市场中的WLD成为焦点,其价格持续上涨,市值突破30亿美元。这一热度源于World项目正式进入“The Simple Plan”第三阶段,其发展逻辑正从早期的代币激励转向实用驱动。World的核心目标是构建全球“人格证明”网络,通过扫描虹膜的World ID解决互联网中验证真实人类身份的关键问题。随着生成式AI爆发,区分真人与AI变得日益紧迫。 World的落地场景正在拓宽,覆盖企业端、个人端及AI Agent端。企业方面,与Zoom等公司合作应对深度伪造;个人层面,瞄准社交与票务等场景的真人验证需求;AI Agent端则推出AgentKit,旨在建立人与AI间的可信授权框架,为未来AI经济奠定信任基础。 市场上涨背后是对“真人身份”稀缺价值的重估。在AI内容成本趋近零的未来,真人身份与行为可能成为稀缺资源。World的运营策略也更聚焦,资源集中于高价值城市以构建网络效应,同时下一代Orb设备将实现自助化以降低扩张成本。 宏观来看,World可能推动加密叙事从金融扩展到身份基础设施,身份或成为可组合资产。它也有望成为AI Agent经济的关键入口,解决Agent归属、可信与验证问题。World ID 4.0引入的费用机制开启了协议的收入来源,使其商业模式更趋清晰。 总之,WLD的上涨反映了市场对World在AI时代定位的认可——其野心是成为验证人类身份的关键入口。随着AI与人的界限模糊,掌握人格证明网络可能意味着掌握下一代互联网的重要枢纽。

marsbit1小时前

从身份协议到AI入口,World的野心有多大?

marsbit1小时前

没有腾讯,燧原还剩什么?

燧原科技科创板IPO获通过,成为国产GPU“四小龙”中最后一家上市的公司。其招股书揭示了一个核心问题:公司营收高度依赖单一客户腾讯,2025年销售额的74.9%(按另一口径超80%)来自腾讯。 与其他“四小龙”先融资、讲故事的路径不同,燧原从成立起就锚定大客户交付,营收增长迅猛,2026年第一季度同比暴增1474.85%。这种陡峭增长源于超级大客户的算力订单集中释放。 腾讯大规模采购燧原芯片,背后是自身庞大的AI算力需求(如混元大模型、元宝等)以及构建可控、稳定算力供应链的战略考量。燧原超过80%的加速卡及模组收入来自推理产品,精准匹配了腾讯大模型落地的急需。 腾讯不仅是燧原第一大客户,也是持股20.26%的第一大股东。这种“股东+客户”的深度绑定,在产业逻辑上被视为供应链培育。腾讯通过确定性订单帮助燧原迭代工艺,而自身业务系统与燧原芯片的深度集成也形成了较高的替换成本,构成了燧原的生态护城河。 行业格局逐渐清晰:英伟达为规则制定者,华为昇腾走国家级路线,而燧原、摩尔线程等商业化玩家则依靠市场订单。燧原的定位愈发偏向“腾讯生态的算力底座”,其产品路线图与腾讯需求高度协同。 文章指出,中国AI芯片行业已告别PPT融资驱动,进入残酷的订单交付周期。未来比拼的关键不再是技术参数,而是订单量、交付能力和生态绑定深度。燧原手握腾讯长期且金额翻倍的采购订单,这或许比技术本身更能体现其现阶段价值。国产芯片的长期主义,在于赢得客户的信任、场景和持续订单。

marsbit1小时前

没有腾讯,燧原还剩什么?

marsbit1小时前

BTC 市场脉搏:第25周

比特币市场显现试探性反弹,但结构证据指向企稳而非趋势逆转。上周关键变化是交易者行为显著转变:永续合约CVD从-7.7亿美元转为+1.82亿美元,现货CVD从-2.05亿美元回升至接近盈亏平衡。RSI自超卖区反弹94.8%,但仍处29.1低位,显示缺乏持续买盘主导。 反弹基础脆弱:现货成交量骤降40.4%至58亿美元,期货未平仓合约再降3%至306亿美元,表明上涨主要由空头回补驱动。多头资金费率下降22.3%,ETF交易量下降38.1%至111亿美元,市场流动性减弱而非健康改善。 市场恐慌情绪有所缓解:波动率利差一周内压缩85%至4.07%,期权参与者快速下调尾部风险定价。25-Delta偏度从19.07%降至15.99%,反映下行保护需求减少。ETF净流出改善65.5%至-4.65亿美元,ETF MVRV回升至1.06。投降速度放缓:已实现盈亏比改善46%,NUPL收窄14%,但两者仍处亏损区间。 链上数据显示市场活动趋冷:活跃地址减少6.3%,实体调整转账量下降38.8%至39亿美元。已实现市值变化加深至-1.3%,表明资金持续流出网络。积极信号在于供应结构:热资本占比和短期持有者/长期持有者比率均跌破下轨,显示近期买入的供应已被大量清洗,持有者结构正转向长期主导。 目前仅50.8%流通供应处于盈利状态,低于55.1%的下轨,虽压制抛压但也延长投资者压力期。总体而言,市场正在构建盘整基础而非确认反转,缺乏成交量、衍生品规模收缩及资金持续外流表明,市场仍需等待真正的信心与机构资金回归作为催化动力。

insights.glassnode1小时前

BTC 市场脉搏:第25周

insights.glassnode1小时前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.6k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片