AMD发布小型AI主机,直指英伟达DGX Spark

marsbit發佈於 2026-06-16更新於 2026-06-16

文章摘要

2026年6月,AMD发布了一款与苹果Mac mini大小相仿的AI开发主机Ryzen AI Halo,搭载128GB统一内存,定价2949至3999美元,直接对标英伟达此前推出的类似设备DGX Spark(起价3999美元)。两者虽内存规格相近,但技术路线迥异:AMD采用集成CPU、GPU和NPU的x86处理器,预装Windows或Ubuntu,强调通用性与开放性;英伟达则使用ARM CPU加Blackwell GPU的定制方案,配备高速网卡,运行专用DGX OS,强化集群扩展与CUDA生态集成。实测显示,在单批次推理中两者性能接近,但在复杂任务处理及分布式场景下,英伟达凭借软硬件深度优化仍保持优势。 近期,AMD通过收购获取系统设计能力、与OpenAI和Meta签订大额GPU供货协议,并持续迭代ROCm软件栈,展现出以开放生态和成本优势切入市场的策略。而英伟达则巩固其从桌面到数据中心的全栈闭环,通过软硬件绑定锁定开发者。Ryzen AI Halo的推出,是AMD将这一战略延伸至桌面端,为追求性价比、希望避免供应商锁定的开发者提供一个替代选择,而非试图在性能上全面超越。当前竞争格局表明,AMD正寻求在英伟达主导的市场中,以“可用替代选项”的角色争夺份额。

2026年6月,AMD在旧金山AI DevDay上确认了一款新设备的发货计划。这台机器和苹果Mac mini差不多大,搭载128GB统一内存,官方定位是本地AI开发平台。就在几个月前,英伟达的DGX Spark已经出现在开发者的桌面上,同样是巴掌大的金属盒子,同样是128GB统一内存,同样宣称能在本地运行2000亿参数的大模型。

AMD Ryzen AI Halo 开发者平台,搭载 Ryzen AI Max+ 395 处理器

Tom's Hardware基于HP Z2 Mini G1a的实测报道给出了AMD阵营的参考定价:$2,949到$3,999。英伟达官网显示DGX Spark起价$3,999,部分OEM版本在2026年2月有过涨至$4,679的讨论。价格上AMD压了一头,但这只是表面账。

同样的128GB,两条不同的路线

AMD Ryzen AI Halo的核心是一颗Ryzen AI Max+ 395处理器,16个Zen 5核心,40个RDNA 3.5架构的GPU计算单元,旁边还挂着一颗50 TOPS算力的XDNA 2 NPU。NVIDIA官方硬件文档对DGX Spark的描述是另一套逻辑:GB10 Grace Blackwell Superchip,20核ARM CPU搭配Blackwell架构GPU,没有NPU,但塞进了一张ConnectX-7 200Gbps网卡。AMD设备提供2.5GbE网口和WiFi 7;英伟达这边是10GbE加WiFi 7,外加那张价值不菲的高速网卡。

内存规格表面接近。两边都是128GB LPDDR5x。AMD的产品页面标注内存带宽为256 GB/s,NVIDIA官方给出的数字是273 GB/s。差距不到7%,在大多数推理任务中几乎感知不到。

操作系统选择暴露了两家更根本的分歧。AMD Ryzen AI Halo预装Windows 11 Pro,可选Ubuntu 24.04。开机进入的是标准PC桌面,有Thunderbolt接口,有完整的通用外设支持。DGX Spark跑的是DGX OS,基于Ubuntu定制,开机后第一件事是配置CUDA环境和NVIDIA容器工具链。

The Register在2025年12月做了一次详细的实测对比。结论是:单批次大语言模型推理时,两台机器的token生成速度非常接近。但在prompt处理阶段,DGX Spark快出2到3倍。这个差距来自Blackwell架构对低精度计算的支持,以及NVIDIA在推理管线上的数年代码路径优化。ServeTheHome的评测则指出了另一个维度:DGX Spark的ConnectX-7网卡单独零售价超过$900,它在多机集群场景中的潜在价值远超出单机推理的范畴。

据Tom's Hardware等媒体实测,Ryzen AI Halo的尺寸为85mm高、168mm宽、200mm深,重2.3公斤,更接近传统迷你工作站的体格。NVIDIA官方文档显示DGX Spark是150mm见方、50.5mm厚,重1.2公斤。一个像堆叠的硬盘盒,一个像路由器。

ROCm的进度条,不再只是“能用就行”

AMD官方发布说明显示,ROCm 7.2于2026年1月上线,随后的7.2.4版本专门优化了AI推理工作负载的稳定性和性能。Phoronix在发布当天做了详细报道。

对Linux环境下的开发者,ROCm现在的安装流程已经比两年前简化了很多。2026年3月,技术博客作者Kunal Ganglani在一篇详细的ROCm使用指南中写道,他在RX 7900 XTX上完成从系统配置到运行PyTorch模型的全过程只花了约30分钟,“而在2024年,干同样的事需要折腾半天”。他的博客确认ROCm目前已支持PyTorch、TensorFlow、JAX、DGL四个主流深度学习框架,vLLM、Ollama、llama.cpp等推理引擎均有ROCm后端可用。

但这些进展挡不住CUDA的惯性。英伟达的软件栈积累了17年,Stack Overflow上的CUDA相关问答数量是ROCm的几十倍。FlashAttention、xFormers等前沿库的新版本通常先出CUDA版,ROCm移植版要等数周到数月。任何超出PyTorch标准API范围的自定义CUDA内核,在AMD平台上都需要手动适配。AMD官方兼容性矩阵列出了已验证通过的框架和GPU组合,但“通过验证”和“出问题时有足够多的社区讨论帖能搜到”是两码事。

Reddit的r/LocalLLaMA板块上,关于该选哪台设备的讨论帖从2025年底就没断过。最常被引用的一条总结来自Ganglani那篇博客的结尾:“如果你需要一切在第一天就完美运行,买NVIDIA。如果你愿意花一个下午解决问题来省$800,ROCm已经准备好了。”

AMD似乎很清楚这一点。过去一年,这家公司的动作不是在正面复制英伟达的护城河,而是在护城河外另起炉灶。

2024年8月,AMD宣布以$49亿收购ZT Systems。华尔街日报在2025年3月确认交易完成。ZT Systems的业务是帮超大规模数据中心客户设计和组装整机架级别的AI服务器系统,客户包括微软、Meta这类每年采购数万张GPU的巨头。AMD拿到的是从单颗GPU到整机架的系统设计能力。

但AMD很快做了一个看似矛盾的决定。2025年5月,据Sanmina官方公告,AMD将ZT Systems的数据中心制造业务剥离给了这家电子制造服务商,自己只保留设计团队。逻辑很清楚:AMD不想变成自己OEM客户的竞争对手。如果AMD自己生产AI服务器,那些卖AMD显卡的服务器厂商会立刻警觉。保留设计能力、外包制造,这手操作平衡了能力进补和生态关系。

更关键的两件事发生在随后半年。

2025年10月,AMD官方新闻稿宣布与OpenAI达成战略合作,部署6GW的AMD Instinct GPU。首批1GW定于2026年下半年出货。这份协议里藏了一个条款:OpenAI可选择购买AMD最多10%的股份。Reuters和CNBC在当天的报道中都强调了这个细节。为OpenAI供货的将是下一代Instinct GPU,AMD未公开具体型号。

2026年2月,AMD再次发布官方新闻稿,宣布与Meta的扩展合作,同样部署6GW GPU。这次的芯片是Meta定制的MI450变体,计划2026年下半年开始出货。CNBC当天的报道点出了一个细节:就在这笔合作公开前几天,Meta也宣布了与英伟达的扩展AI芯片采购协议。

Meta同时签下两家的长期订单,这件事本身比任何技术对比都更有说服力。对于每年在AI基础设施上投入数百亿美元的企业,把鸡蛋放在一个篮子里是不可接受的风险。AMD不需要性能全面超越英伟达,只需要在英伟达之外提供一个可用的选项,就能在“双供应商”的逻辑下切到订单。两个6GW合约的规模暗示,至少OpenAI和Meta已经把AMD列入了这张单子。

英伟达同期的应对,是一套组合拳

同一个时段,英伟达在企业级市场打的是组合拳。DGX Spark定位为开发者桌面设备,但它的ConnectX-7网卡决定了它不是孤立的工作站。ServeTheHome的评测详细分析了这张网卡在原型验证和分布式训练调试中的价值,结论是虽然比数据中心级的NVLink慢很多,但对于小规模集群场景已经够用。这个设计把DGX Spark锚定在了英伟达更大的企业产品线中:开发者用Spark做原型,然后把代码迁移到DGX Station或云端DGX实例,最后部署到搭载H200或B200的服务器集群。一条从桌面到数据中心、软硬件一致的工具链被焊死在CUDA上。

英伟达同期还推出了AI Enterprise软件订阅套件,把TensorRT、RAPIDS、Triton推理服务器等工具打包,按节点收费。NVIDIA官方产品页列出了AI Enterprise包含的完整工具清单。这不是卖硬件,是在开发者习惯CUDA之后,把企业级部署和运维也变成持续付费的生意。

对比一下两边的路径,分歧已经足够清晰。

英伟达做的是一个从芯片到系统到软件到云服务的全栈闭环。开发者进入这个闭环的第一天就可以用上优化好的工具,代价是被绑定在一个供应商的生态里。AMD走的是一条开放替代路线:用行业标准的x86架构,支持Windows和Linux双系统,把ROCm做成兼容主流框架的开源栈,用更低的价格争取那些对成本敏感或已经决定分散供应商风险的客户。

Ryzen AI Halo这个产品本身是这条路线最简洁的硬件表达。它没有定制网卡,没有专用OS,没有低精度训练加速单元。它是一台通用PC,恰好塞进了一块能跑200B参数模型的统一内存和一套还算过得去的GPU。你可以用它跑大模型推理,也可以关掉终端去开Photoshop。Tom's Hardware在报道中引用的HP Z2 Mini G1a $2,949的价格,远低于DGX Spark $3,999的起步价,如果换成其他OEM版本,价差可能拉到$1,000以上。

但这种灵活性的背面是妥协。The Register的实测数据已经说明,一旦离开单批次推理进入需要大量并行计算的场景,Blackwell架构的低精度优势和数年优化的软件栈会迅速拉开差距。如果你需要一个能跑Stable Diffusion出图的桌面盒子,NVIDIA的CUDA生态里有一整套即装即用的工具。AMD的RDNA 3.5架构不支持FP4和FP8低精度格式,在图像生成这类工作负载上性能吃亏,这是RDNA架构设计决定的,不是驱动更新能解决的。

盒子的归宿,不在盒子里

把时间线收回来,AMD近一年的动作构成一条相当清晰的路线。

硬件层面,Instinct MI300和MI325X量产,MI350和MI450按路线图推进,Ryzen AI Max+ 395从笔记本芯片变成桌面APU塞进开发平台。系统层面,通过收购ZT Systems拿到机架级设计能力,然后剥离制造保留研发。客户层面,用两份6GW级别的长期合约绑定全球最大的两个AI算力消费者,顺便把OpenAI拉进股东名单。软件层面,ROCm以大概每季度一个版本的速度迭代,追上主流框架支持,但前沿库的移植和社区积累还需要时间。

每一步都不是孤立的。收购ZT Systems是为了有能力设计OpenAI和Meta需要的那种超大规模AI集群,而不是只卖GPU给服务器厂商。ROCm的快速迭代是为了让签下6GW合约的客户在部署时有可用的软件栈,而不是裸机交付。Ryzen AI Halo的推出是为了把同一个ROCm生态延伸到桌面端,让开发者可以用一台$3,000的机器做本地调试,再把模型部署到云端MI450集群上。

但这不代表AMD已经追上了英伟达。两份6GW合约是未来的部署承诺,以吉瓦计算的能源容量反映的是基础设施规划规模,不是已经出货的芯片数量。MI450的具体规格至今没有公开,芯片的实际性能、良率、大规模部署后的稳定性都是未知数。ROCm在主流框架上做到了“能用”,但“出问题时社区能帮到你”这个状态还需要更长时间积累。而CUDA的17年积累不是靠几个季度快速迭代就能消化的。

英伟达的护城河也不只是在软件上。DGX Spark那张ConnectX-7网卡暗示的是另一种竞争维度:当AMD在用性价比和开放性争取开发者时,英伟达在用集群扩展能力锁定那些需要做分布式训练和大型推理管线的团队。买一台DGX Spark是$3,999,买两台加上网线就可以跑分布式原型。这个场景下,ROCm在单机推理上打平的优势就被消解了。

两家公司在AI上的分歧,最终落在这个巴掌大的盒子上时,变成了一个具体的选择题。你打开AMD的盒子,得到一个熟悉的PC环境,用几乎一样的指令装好PyTorch,加载模型,开始推理,过程顺畅,直到你需要用某个只有CUDA后端的库。你打开英伟达的盒子,得到了一个从硬件到驱动到容器工具链都优化好的专用环境,启动后一切都在预期内,只是账单上多了一千多美元,而且今后换供应商的迁移成本已经被提前锁定了。

AMD没有正面挑战英伟达的全栈帝国。它选择了一条更务实的路:在英伟达的定价和供应链交付能力跟不上所有客户需求时,做一个够用的替代选项。两个6GW合约是这个策略到目前为止最有力的证据。Ryzen AI Halo是这个策略在桌面端的延伸,不是跟风做小型AI盒子,而是沿着“用开放生态和成本优势争取不想被锁定的开发者”这条线往前走了一步。

相關問答

Q根据文章内容,AMD Ryzen AI Halo 与 NVIDIA DGX Spark 这两款小型AI主机的官方定价分别是多少?

A根据文章,AMD Ryzen AI Halo 的参考定价为 $2,949 到 $3,999(基于HP Z2 Mini G1a的实测报道)。NVIDIA DGX Spark 的官网起价为 $3,999,部分OEM版本在2026年2月有过涨至 $4,679 的讨论。

Q文章指出AMD Ryzen AI Halo 和 NVIDIA DGX Spark 在操作系统选择上暴露了哪些根本分歧?

A文章指出,AMD Ryzen AI Halo 预装 Windows 11 Pro,可选 Ubuntu 24.04,开机进入标准PC桌面。而 NVIDIA DGX Spark 运行的是基于Ubuntu定制的 DGX OS,开机后首要任务是配置CUDA环境和NVIDIA容器工具链。这体现了AMD追求通用PC环境与英伟达打造专用优化闭环的不同路线。

QAMD在近一年中为构建其AI生态采取了哪些关键的战略行动?

AAMD近一年的关键战略行动包括:1. 2024年8月宣布收购系统设计公司ZT Systems(2025年3月完成),随后剥离其制造业务以平衡与OEM客户的关系。2. 2025年10月与OpenAI达成战略合作,部署6GW的Instinct GPU,协议中包含OpenAI可购买AMD最多10%股份的条款。3. 2026年2月宣布与Meta达成扩展合作,同样部署6GW的GPU(MI450定制变体)。这些行动旨在获取系统设计能力、绑定关键大客户,并分散供应链风险。

Q根据The Register和ServeTheHome的评测,DGX Spark的ConnectX-7网卡带来了哪些AMD设备不具备的优势?

ADGX Spark的ConnectX-7网卡(单独零售价超过$900)带来了两大优势:1. 在多机集群场景中具有重要价值,方便进行原型验证和分布式训练调试。2. 这使得DGX Spark能够被锚定在英伟达更大的企业产品线中,形成从桌面(Spark)到数据中心(DGX Station/云端实例/服务器集群)的、软硬件一致的工具链,而AMD设备不具备这种集群扩展和生态锁定能力。

Q文章如何总结AMD与英伟达在AI领域竞争的核心策略分歧?

A文章总结的核心策略分歧是:英伟达致力于构建一个从芯片、系统、软件到云服务的全栈闭环生态,用优化好的工具绑定开发者,但供应商锁定度高。AMD则走一条开放替代路线,基于行业标准的x86架构,支持主流操作系统,推动开源ROCm软件栈,并利用价格优势和“双供应商”策略,争取对成本敏感或希望分散供应链风险的客户,而不追求在性能或生态完整性上全面超越英伟达。

你可能也喜歡

Solana 隐私生态全景图,从计算到 AI 的完整隐私栈

Solana隐私生态仍处于早期阶段,但正在快速发展。其独特架构(如ZK压缩)有望实现无需持久Rollup的大规模可组合隐私协议。理想的“最终隐私栈”可能是全同态加密(FHE)与零知识证明(ZK)的结合。 目前隐私计算主要由Arcium和MagicBlock提供。Arcium利用多方计算(MPC)构建可定制的执行环境,处理加密数据并正在开发保密代币标准(C-SPL),应用场景包括私密支付、数据分析及医疗保健。MagicBlock则基于可信执行环境(TEE)创建私密临时Rollup,确保交易的机密性、可扩展性和可组合性。两者基础设施催生了诸多应用。 私密转账与余额方面,Umbra基于Arcium构建,提供加密代币账户,实现金额、余额和关联关系的隐私,并支持选择性审计。Privacy Cash采用类似Tornado的屏蔽池处理SOL,Hush则整合了质押收益和私密兑换功能。 为消除链上痕迹,encifherio通过包装代币和TEE保护兑换隐私;Vanish Trade利用屏蔽流动性路由隐藏交易策略;Darklake构建ZK原生流动性基础设施和暗池,防止前端运行。 更高级的应用如私密预测市场(如Melee Markets)利用Arcium加密订单簿,保护参与者策略。在私密AI领域,Loyal结合Magic Block和Arcium技术,在链上加密存储和处理用户数据、对话及交易,确保用户拥有数据控制权。 总体而言,Solana隐私生态正从基础计算层向复杂应用层构建,覆盖支付、DeFi、预测市场及AI等多个垂直领域。

Foresight News26 分鐘前

Solana 隐私生态全景图,从计算到 AI 的完整隐私栈

Foresight News26 分鐘前

交易

現貨
合約
活动图片