实测混元Hy3 preview:腾讯AI,终于能打了?

marsbit發佈於 2026-04-26更新於 2026-04-26

文章摘要

腾讯混元Hy3 preview于4月23日正式发布并开源,采用混合专家架构,总参数量达295B,支持256K上下文长度,在推理、指令遵循、代码生成和智能体能力等方面有显著提升。实测显示,该模型在复杂逻辑推理中表现扎实,但陷阱识别和逆向思维仍有不足;在上下文信息提取和指令遵循方面稳定可靠;代码和智能体任务执行能力基本合格,但复杂任务交付完整性有待加强;自然语言表达已摆脱套路化,对话更自然,创意文本可读性较高。整体而言,Hy3 preview是一款无明显短板的实用型模型,虽非顶尖,但标志着腾讯在大模型领域的积极转变。

文 | AIX财经,作者 | 雷晶,编辑 | 金玙璠

AI圈近期动作频频,腾讯混元Hy3 preview也正式亮相。

4月23日,腾讯混元正式发布并开源了新一代语言模型Hy3 preview。据官网介绍,该模型采用快慢思考融合的混合专家架构,总参数295B、激活参数21B,最大支持256K上下文长度。这是被官方称为混元迄今最智能的模型。

三个月前,姚顺雨带着ReAct框架和OpenAI的实战经验加入腾讯,主导完成了预训练和强化学习基础设施的重构。Hy3 preview是重建后的首份答卷。官方表示,该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体等能力均实现大幅提升。

从官方披露的数据和评测结果来看,Hy3 preview在多项基础测试中展现出亮眼的实力,虽然未必在所有维度都达到行业顶尖水准,但足以满足多数场景下的实用需求。

在实际运行效率和稳定性方面,Hy3 preview也有所突破。官方数据显示,这款模型的首Token延迟降低54%,端到端时长降低47%,大幅提升了响应速度。同时,任务成功率也有所提升,已能稳定驱动复杂的Agent工作流,覆盖文档处理、数据分析等多种业务场景。

此外,它的推理成本也有所下降。在腾讯云API输入低至1.2元/百万Tokens,个人套餐最低28元/月,在同尺寸模型中属于最低价梯队。目前,Hy3 preview已在腾讯云、元宝、WorkBuddy等腾讯核心产品中上线。

接下来,我们将根据官方提到的四个方向,实测混元大模型在实际应用中的表现。

推理能力:复杂逻辑能拆解,陷阱识别仍需加强

我们首先测试了模型的推理能力。逻辑推理题是网友最喜欢拿来测模型“智商”的类型之一。在这一环节中,我们先用经典的“洗车问题”在元宝内进行测试。

在这个经典陷阱题中,Hy3 preview起初并未答对。它给出了条理清晰的推理来建议步行,而忽视了重点在于“洗车”。在再次提醒需要洗车后,它才给出正确答案。

需要注意的是,在其他网友的实测中,Hy3 preview出现过能直接答对的情况,说明它的陷阱识别能力稳定性不足。

我们再来试一道脑筋急转弯题。在这个问题中,需要理解现实逻辑,碎了、煎了、吃了的是同一批鸡蛋。但Hy3 preview没有意识到这一点,它认为煎了的鸡蛋依然存在,可以吃掉。

随后,我们加大难度,用一道推导过程更为复杂的逻辑题来考验它。这道题的难点在于没有直接的定位信息,需要靠隐性条件来做排除,容易遗漏关键信息。

在这一场景中,Hy3 preview给出了正确答案。它先逐条拆解线索、提炼人物与职业的互斥关系,再通过排除法锁定身份。接着,它依次确定部分岗位的归属,再结合规则逐步补全。

综合来看,Hy3 preview常规理性逻辑推演能力较强,但逆向思维、陷阱识别与生活场景变通思考能力仍有不足。面对陷阱类脑筋急转弯时,容易局限于字面常规逻辑,忽略题目陷阱与现实场景,反应欠佳。但在面对条件隐蔽、推导繁琐的复杂逻辑推理题时,它能够拆解线索,层层推演,逻辑分析和分步推导能力表现扎实。

上下文学习和指令遵循 :提取信息,干扰场景下表现稳定

这一环节考验模型的两个基本功:能否抓住真正的指令,以及能否快速理解指令。

腾讯在官方博客中给出了项目规划、旅游总结、读书记录等五个场景,我们选取两个场景来实测。

场景一:内容杂乱的会议纪要信息提取

我们给了一段混乱的会议录音转写,混杂着插话、跑题、反复修正等情况,要求其摘录三类信息。

Hy3 preview给出的答案准确地列出了这三类信息,信息抓取能力表现不错。

场景二:理解并遵循新的语言规则

我们自创了一个简单的语言,通过实例向它展示规则,并给它三个新的句子让它翻译。

在这一轮中,Hy3 preview能够准确完成相关要求,每个细节都能按规则执行。

综合来看,Hy3 preview能理解指令要求,有效排除干扰信息,适合繁杂信息干扰、信息抓取等实用场景。

代码和智能体:工具调用较成熟,任务交付完整性不足

代码能力与智能体能力,是评判一款AI助手是否好用的重要维度。这既考验模型对用户需求的理解深度,也检验Agent在多步骤任务中的规划、工具调用及任务闭环能力。这一环节,我们为WorkBuddy(腾讯旗下AI助手)设计了三个任务。

第一个任务,我们要求WorkBuddy爬取五个城市近一年的空气状况,并基于空气质量数据生成一份分析报告。

从页面呈现来看,成品表现合格。季节切换、雷达图、趋势图、相关性热力图等板块结构完整,视觉呈现有序,图表也具备基本的交互功能。这表明它在前端呈现这一层面的执行力达标。

但问题主要有两个,一是由于数据获取阶段受阻,Hy3 preview只拿到了224天的有效数据,缺口较大,影响了后续表格的可信度;二是提示词中明确要求写一段分析结论,Hy3 preview虽在页面上保留了对应板块的区域,但实际内容是一片空白。这意味着,它有任务闭环意识,但最终的交付能力仍有不足。

第二个任务,我们让它搭建一个贪吃蛇小游戏。

最终结果较为成熟,画面精美、逻辑完整,可以正常运行。但需要指出的是,贪吃蛇属于规则封闭类任务,需求明确且无需调用外部数据,评价标准比较明确,是智能体较擅长的应用场景。WorkBuddy在该任务中的表现只能体现在舒适区内的能力,验证了其具有一定的实用价值。

第三个任务,我们将难度提高,让它分析一个开放式复杂任务:分析AI Coding行业的商业模式演变,盘点2023年至今的发展历程,并找出行业关键转折点及核心驱动因素。

这是一个开放式复杂任务,没有统一的标准答案,成果质量取决于Agent的判断力、信息筛选能力与表达能力。

在执行层面,WorkBuddy能够自动调用多个工具,先修订执行计划、再落地推进计划,整个过程大概耗时半个小时。

但最终结果并不算惊艳,它只是搭建了一个基础框架,实际内容不够扎实。可以看出,虽然它掌握了拆解研究问题的方法,却不懂得如何将这些维度进一步提炼为有价值的研究论点。

总的来说,WorkBuddy已具备日常编码助手该有的能力,但在复杂任务的深度执行和最终交付上,还有提升空间。

自然对话:AI味明显减弱

最后,我们再来看看元宝有没有“人味”。这一轮通过两个场景来测试:闲聊对话与创意写作。

场景一:闲聊对话

官方文档中提到,Hy3 preview更能理解用户的倾诉意图,能承接用户情绪,避免说教式、模板化的回复。

实际测试下来,Hy3 preview的表现确实贴合这一定位。它没有一上来就罗列一堆建议,而是先客观分析背后的可能原因,再询问是否遇到什么事情。整体语气温和,较有分寸,有闲聊场景里的自然感。

场景二:创意写作

在这一环节中,我们设计了两个任务,考验它的叙事与表达能力。

我们先让它写一个主角全程未出场,但读者读完能清晰知道他是谁、经历了什么、为何重要的故事。

元宝交出的成品,全文逻辑自洽、叙事流畅,完成度较高,几乎读不出AI写作常见的套路感。

接着,我们再让它模仿《明朝那些事儿》的文风,撰写其他朝代的人物历史故事。

AI写作时容易将文风复刻表现为刻板的模仿,仅停留照搬行文框架,而不能吃透文章风格。但从生成结果来看,Hy3 preview文风复刻能力较强,整体符合要求。它抓住了原书通俗讲史的风格,较好地呈现了整个故事。

这一轮评测,最让人意外。整体来看,Hy3 preview在自然语言的表达上,已经摆脱了正确却无味的套路腔,能够写出可读性较高的文本。

结语

四个维度测下来,Hy3 preview给人的感觉是“稳而不惊”。

它没有在某一项上拿出碾压式的表现,但它也几乎没有明显的短板。放在整个国内大模型的排位里,它未必是最惊艳的一款,但符合能干活的实用型模型标准。

把视角拉远一点,Hy3 preview真正的意义或许并不在模型本身。

过去两年,腾讯在大模型战场上较为被动。今年1月底,马化腾在年会上公开承认,腾讯AI动作慢了。技术节奏相对较慢、没有一个能让外界记住的标杆模型,是腾讯面临的两大问题。而Hy3 preview的发布,让腾讯的AI故事有了转折点,也让腾讯有了整个生态都能用的AI模型。

目前Hy3 preview还只是一个预览版本,开源社区的反馈还在收集中,元宝、QQ、腾讯文档等产品的实际调用体验也还需要时间检验。据官方披露,后续会发布参数规模更大的模型。

但至少,腾讯AI已经开始撕掉过去两年“被动”的标签了。

相關問答

Q腾讯混元Hy3 preview模型的主要技术特点是什么?

A腾讯混元Hy3 preview采用快慢思考融合的混合专家架构,总参数295B、激活参数21B,最大支持256K上下文长度。它在复杂推理、指令遵循、上下文学习、代码生成及智能体等能力上均有大幅提升,首Token延迟降低54%,端到端时长降低47%,推理成本低至1.2元/百万Tokens。

QHy3 preview在逻辑推理测试中表现如何?

AHy3 preview在常规逻辑推理题中表现较强,能够拆解线索、层层推演,但在逆向思维、陷阱识别与生活场景变通思考方面仍有不足。例如,在经典的'洗车问题'和脑筋急转弯题中容易忽略题目陷阱,但在复杂逻辑推导题中能准确分析并给出正确答案。

QHy3 preview在代码和智能体任务中的优缺点是什么?

A优点:Hy3 preview能处理规则明确的编码任务(如搭建贪吃蛇游戏),工具调用较成熟,前端呈现能力达标。缺点:在复杂任务(如数据爬取和分析)中,数据获取可能不完整,任务交付完整性不足,深度执行和最终交付能力有待提升。

QHy3 preview在自然语言处理方面有哪些改进?

AHy3 preview在自然对话中'AI味'明显减弱,能更好理解用户倾诉意图,避免说教式回复,语气温和有分寸。在创意写作中,能生成逻辑自洽、叙事流畅的文本,文风复刻能力较强,摆脱了套路感,可读性较高。

QHy3 preview对腾讯AI战略的意义是什么?

AHy3 preview的发布标志着腾讯AI动作的转折点,解决了技术节奏慢和缺乏标杆模型的问题。它让腾讯有了整个生态可用的AI模型,目前已上线腾讯云、元宝、WorkBuddy等核心产品,后续将发布更大参数规模的模型,推动腾讯AI从被动转向主动。

你可能也喜歡

交易

現貨
合約

熱門文章

什麼是 $S$

理解 SPERO:全面概述 SPERO 簡介 隨著創新領域的不斷演變,web3 技術和加密貨幣項目的出現在塑造數字未來中扮演著關鍵角色。在這個動態領域中,SPERO(標記為 SPERO,$$s$)是一個引起關注的項目。本文旨在收集並呈現有關 SPERO 的詳細信息,以幫助愛好者和投資者理解其基礎、目標和在 web3 和加密領域內的創新。 SPERO,$$s$ 是什麼? SPERO,$$s$ 是加密空間中的一個獨特項目,旨在利用去中心化和區塊鏈技術的原則,創建一個促進參與、實用性和金融包容性的生態系統。該項目旨在以新的方式促進點對點互動,為用戶提供創新的金融解決方案和服務。 SPERO,$$s$ 的核心目標是通過提供增強用戶體驗的工具和平台來賦能個人。這包括使交易方式更加靈活、促進社區驅動的倡議,以及通過去中心化應用程序(dApps)創造金融機會的途徑。SPERO,$$s$ 的基本願景圍繞包容性展開,旨在彌合傳統金融中的差距,同時利用區塊鏈技術的優勢。 誰是 SPERO,$$s$ 的創建者? SPERO,$$s$ 的創建者身份仍然有些模糊,因為公開可用的資源對其創始人提供的詳細背景信息有限。這種缺乏透明度可能源於該項目對去中心化的承諾——這是一種許多 web3 項目所共享的精神,優先考慮集體貢獻而非個人認可。 通過將討論重心放在社區及其共同目標上,SPERO,$$s$ 體現了賦能的本質,而不特別突出某些個體。因此,理解 SPERO 的精神和使命比識別單一創建者更為重要。 誰是 SPERO,$$s$ 的投資者? SPERO,$$s$ 得到了來自風險投資家到天使投資者的多樣化投資者的支持,他們致力於促進加密領域的創新。這些投資者的關注點通常與 SPERO 的使命一致——優先考慮那些承諾社會技術進步、金融包容性和去中心化治理的項目。 這些投資者通常對不僅提供創新產品,還對區塊鏈社區及其生態系統做出積極貢獻的項目感興趣。這些投資者的支持強化了 SPERO,$$s$ 作為快速發展的加密項目領域中的一個重要競爭者。 SPERO,$$s$ 如何運作? SPERO,$$s$ 採用多面向的框架,使其與傳統的加密貨幣項目區別開來。以下是一些突顯其獨特性和創新的關鍵特徵: 去中心化治理:SPERO,$$s$ 整合了去中心化治理模型,賦予用戶積極參與決策過程的權力,關於項目的未來。這種方法促進了社區成員之間的擁有感和責任感。 代幣實用性:SPERO,$$s$ 使用其自己的加密貨幣代幣,旨在在生態系統內部提供多種功能。這些代幣使交易、獎勵和平台上提供的服務得以促進,增強了整體參與度和實用性。 分層架構:SPERO,$$s$ 的技術架構支持模塊化和可擴展性,允許在項目發展過程中無縫整合額外的功能和應用。這種適應性對於在不斷變化的加密環境中保持相關性至關重要。 社區參與:該項目強調社區驅動的倡議,採用激勵合作和反饋的機制。通過培養強大的社區,SPERO,$$s$ 能夠更好地滿足用戶需求並適應市場趨勢。 專注於包容性:通過提供低交易費用和用戶友好的界面,SPERO,$$s$ 旨在吸引多樣化的用戶群體,包括那些以前可能未曾參與加密領域的個體。這種對包容性的承諾與其通過可及性賦能的總體使命相一致。 SPERO,$$s$ 的時間線 理解一個項目的歷史提供了對其發展軌跡和里程碑的關鍵見解。以下是建議的時間線,映射 SPERO,$$s$ 演變中的重要事件: 概念化和構思階段:形成 SPERO,$$s$ 基礎的初步想法被提出,與區塊鏈行業內的去中心化和社區聚焦原則密切相關。 項目白皮書的發布:在概念階段之後,發布了一份全面的白皮書,詳細說明了 SPERO,$$s$ 的願景、目標和技術基礎設施,以吸引社區的興趣和反饋。 社區建設和早期參與:積極進行外展工作,建立早期採用者和潛在投資者的社區,促進圍繞項目目標的討論並獲得支持。 代幣生成事件:SPERO,$$s$ 進行了一次代幣生成事件(TGE),向早期支持者分發其原生代幣,並在生態系統內建立初步流動性。 首次 dApp 上線:與 SPERO,$$s$ 相關的第一個去中心化應用程序(dApp)上線,允許用戶參與平台的核心功能。 持續發展和夥伴關係:對項目產品的持續更新和增強,包括與區塊鏈領域其他參與者的戰略夥伴關係,使 SPERO,$$s$ 成為加密市場中一個具有競爭力和不斷演變的參與者。 結論 SPERO,$$s$ 是 web3 和加密貨幣潛力的見證,能夠徹底改變金融系統並賦能個人。憑藉對去中心化治理、社區參與和創新設計功能的承諾,它為更具包容性的金融環境鋪平了道路。 與任何在快速發展的加密領域中的投資一樣,潛在的投資者和用戶都被鼓勵進行徹底研究,並對 SPERO,$$s$ 的持續發展進行深思熟慮的參與。該項目展示了加密行業的創新精神,邀請人們進一步探索其無數可能性。儘管 SPERO,$$s$ 的旅程仍在展開,但其基礎原則確實可能影響我們在互聯網數字生態系統中如何與技術、金融和彼此互動的未來。

85 人學過發佈於 2024.12.17更新於 2024.12.17

什麼是 $S$

什麼是 AGENT S

Agent S:Web3中自主互動的未來 介紹 在不斷演變的Web3和加密貨幣領域,創新不斷重新定義個人如何與數字平台互動。Agent S是一個開創性的項目,承諾通過其開放的代理框架徹底改變人機互動。Agent S旨在簡化複雜任務,為人工智能(AI)提供變革性的應用,鋪平自主互動的道路。本詳細探索將深入研究該項目的複雜性、其獨特特徵以及對加密貨幣領域的影響。 什麼是Agent S? Agent S是一個突破性的開放代理框架,專門設計用來解決計算機任務自動化中的三個基本挑戰: 獲取特定領域知識:該框架智能地從各種外部知識來源和內部經驗中學習。這種雙重方法使其能夠建立豐富的特定領域知識庫,提升其在任務執行中的表現。 長期任務規劃:Agent S採用經驗增強的分層規劃,這是一種戰略方法,可以有效地分解和執行複雜任務。此特徵顯著提升了其高效和有效地管理多個子任務的能力。 處理動態、不均勻的界面:該項目引入了代理-計算機界面(ACI),這是一種創新的解決方案,增強了代理和用戶之間的互動。利用多模態大型語言模型(MLLMs),Agent S能夠無縫導航和操作各種圖形用戶界面。 通過這些開創性特徵,Agent S提供了一個強大的框架,解決了自動化人機互動中涉及的複雜性,為AI及其他領域的無數應用奠定了基礎。 誰是Agent S的創建者? 儘管Agent S的概念根本上是創新的,但有關其創建者的具體信息仍然難以捉摸。創建者目前尚不清楚,這突顯了該項目的初期階段或戰略選擇將創始成員保密。無論是否匿名,重點仍然在於框架的能力和潛力。 誰是Agent S的投資者? 由於Agent S在加密生態系統中相對較新,關於其投資者和財務支持者的詳細信息並未明確記錄。缺乏對支持該項目的投資基礎或組織的公開見解,引發了對其資金結構和發展路線圖的質疑。了解其支持背景對於評估該項目的可持續性和潛在市場影響至關重要。 Agent S如何運作? Agent S的核心是尖端技術,使其能夠在多種環境中有效運作。其運營模型圍繞幾個關鍵特徵構建: 類人計算機互動:該框架提供先進的AI規劃,力求使與計算機的互動更加直觀。通過模仿人類在任務執行中的行為,承諾提升用戶體驗。 敘事記憶:用於利用高級經驗,Agent S利用敘事記憶來跟蹤任務歷史,從而增強其決策過程。 情節記憶:此特徵為用戶提供逐步指導,使框架能夠在任務展開時提供上下文支持。 支持OpenACI:Agent S能夠在本地運行,使用戶能夠控制其互動和工作流程,與Web3的去中心化理念相一致。 與外部API的輕鬆集成:其多功能性和與各種AI平台的兼容性確保了Agent S能夠無縫融入現有技術生態系統,成為開發者和組織的理想選擇。 這些功能共同促成了Agent S在加密領域的獨特地位,因為它以最小的人類干預自動化複雜的多步任務。隨著項目的發展,其在Web3中的潛在應用可能重新定義數字互動的展開方式。 Agent S的時間線 Agent S的發展和里程碑可以用一個時間線來概括,突顯其重要事件: 2024年9月27日:Agent S的概念在一篇名為《一個像人類一樣使用計算機的開放代理框架》的綜合研究論文中推出,展示了該項目的基礎工作。 2024年10月10日:該研究論文在arXiv上公開,提供了對框架及其基於OSWorld基準的性能評估的深入探索。 2024年10月12日:發布了一個視頻演示,提供了對Agent S能力和特徵的視覺洞察,進一步吸引潛在用戶和投資者。 這些時間線上的標記不僅展示了Agent S的進展,還表明了其對透明度和社區參與的承諾。 有關Agent S的要點 隨著Agent S框架的持續演變,幾個關鍵特徵脫穎而出,強調其創新性和潛力: 創新框架:旨在提供類似人類互動的直觀計算機使用,Agent S為任務自動化帶來了新穎的方法。 自主互動:通過GUI自主與計算機互動的能力標誌著向更智能和高效的計算解決方案邁進了一步。 複雜任務自動化:憑藉其強大的方法論,能夠自動化複雜的多步任務,使過程更快且更少出錯。 持續改進:學習機制使Agent S能夠從過去的經驗中改進,不斷提升其性能和效率。 多功能性:其在OSWorld和WindowsAgentArena等不同操作環境中的適應性確保了它能夠服務於廣泛的應用。 隨著Agent S在Web3和加密領域中的定位,其增強互動能力和自動化過程的潛力標誌著AI技術的一次重大進步。通過其創新框架,Agent S展現了數字互動的未來,為各行各業的用戶承諾提供更無縫和高效的體驗。 結論 Agent S代表了AI與Web3結合的一次大膽飛躍,具有重新定義我們與技術互動方式的能力。儘管仍處於早期階段,但其應用的可能性廣泛且引人入勝。通過其全面的框架解決關鍵挑戰,Agent S旨在將自主互動帶到數字體驗的最前沿。隨著我們深入加密貨幣和去中心化的領域,像Agent S這樣的項目無疑將在塑造技術和人機協作的未來中發揮關鍵作用。

680 人學過發佈於 2025.01.14更新於 2025.01.14

什麼是 AGENT S

如何購買S

歡迎來到HTX.com!在這裡,購買Sonic (S)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Sonic (S)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Sonic (S)購買Sonic (S)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Sonic (S)在HTX的現貨市場輕鬆交易Sonic (S)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

1.4k 人學過發佈於 2025.01.15更新於 2025.03.21

如何購買S

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 S (S)幣價的意見。

活动图片