AI PC来了,本地硬刚120B大模型!英伟达用RTX Spark重新定义“个人AI电脑”底座

marsbit发布于2026-06-01更新于2026-06-01

文章摘要

英伟达在GTC 2026大会上发布RTX Spark超芯片,将AI PC的算力标准大幅提升至1 petaflop(1000 TOPS),远超当前主流AI PC的NPU算力。该芯片采用Blackwell架构GPU与Arm架构Grace CPU的SoC设计,并配备最高128GB的统一内存,使CPU和GPU可直接共享数据,消除了传统架构中的数据搬运瓶颈。 凭借强大算力与统一内存,RTX Spark支持在本地设备上运行120B参数的大语言模型,并处理百万级token的上下文窗口,同时也能胜任12K视频编辑、大型3D渲染等高负载任务。微软为其升级了Windows安全机制,并引入英伟达的OpenShell沙盒运行时,以保障AI代理操作的安全性。 软件生态方面,Adobe宣布将底层重构Photoshop和Premiere以适配新架构,宣称性能可提升2倍。多家主流OEM厂商如华硕、戴尔、联想等将于今年秋季推出搭载该芯片的轻薄笔记本和台式机。 RTX Spark的出现,标志着PC架构正从以x86 CPU为核心转向以GPU为中心的SoC平台,但其实际性能表现、功耗散热、定价及软件生态适配等仍有待市场验证。

过去两年,PC厂商在宣传“AI PC”时反复提及一个参数:NPU算力。但不管是英特尔Lunar Lake的45 TOPS,还是AMD Strix Point的50 TOPS,这些数字始终停留在一个相对温和的量级上。能做背景虚化、能做语音降噪、能跑一些小规模的端侧模型,但也仅此而已。

5月31日,英伟达在GTC 2026大会上拿出的RTX Spark超芯片,把这个数字拉到了1 petaflop,也就是1000 TOPS。不是提升30%或50%,是直接跨过一个数量级。

同场发布的还有另外几条消息:微软配合RTX Spark升级了Windows原生安全机制,并把英伟达的开源沙盒运行时OpenShell引入Windows平台;Adobe宣布从底层重构Photoshop和Premiere,专门适配RTX Spark的统一内存架构;首批六家OEM厂商确认今年秋季推出搭载这颗芯片的轻薄笔记本和紧凑型台式机。

英伟达在这届GTC上做的事情,不是发布一块新芯片。它在试图给“个人AI电脑”这个品类定下一个新的硬件标准。

当GPU成为PC的主角

先看这颗芯片本身。根据英伟达在GTC上公布的数据,RTX Spark集成了一颗Blackwell架构的GPU,6144个CUDA核心,搭配联发科联合设计的20核Arm架构Grace CPU,采用台积电3nm工艺。关键的变化在于内存架构:最高128GB的统一内存,CPU和GPU共享同一个内存池,数据不需要在两者之间来回搬运。

这和过去PC的架构逻辑相反。

传统PC的基本结构是“x86 CPU作为主处理器,独立GPU作为可选配件”。即便是近年兴起的AI PC概念,英特尔和AMD的做法也是在CPU里内置一块NPU,作为AI加速的附加模块,算力普遍在四五十TOPS。GPU仍然是“外挂”。

RTX Spark重新分配了话语权。这颗SoC把GPU变成主角,CPU退居配角。英伟达给出的AI算力是1 petaflop FP4,相当于1000 TOPS,是上一代AI PC内置NPU算力的20倍以上。这不是同一条赛道上的提速,是另一条赛道的起跑。

OEM厂商的跟进速度印证了这个判断。根据英伟达官方公告和DIGITIMES的后续报道,华硕、戴尔、惠普、联想、微软Surface和微星将在今年秋季推出搭载RTX Spark的轻薄笔记本和紧凑型台式机,宏碁与技嘉的型号随后跟进。主流Windows PC品牌几乎全部入局。

RTX Spark并不是从零诞生的产品。2025年初,同样的Blackwell加Grace核心芯片曾以Project DIGITS和DGX Spark的形态亮相,但当时定位是面向开发者的Linux桌面超算,体积接近一台小型台式机。一年后,这套架构被压进了轻薄本的散热空间里,操作系统从Linux换成了Windows,目标用户从AI开发者扩展到了普通消费者和企业用户。这才是GTC 2026消费级发布中最值得注意的变化:英伟达不是在发布一个开发者玩具,而是在推开消费级市场的大门。

120B模型跑在本地,够用了吗

算力和内存的数字最终要回答一个问题:能做什么?

英伟达在发布会上给出的答案是,RTX Spark支持本地运行120B参数的大模型,上下文窗口可以达到百万token。120B是什么概念?作为参照,当前消费级硬件跑本地模型的主流实践是,24GB显存的RTX 4090通过量化压缩可以跑30B到40B参数级别的模型。部分小的模型,在消费级显卡上可以快速跑起来的是9B模型。从9B到120B,这个跳跃幅度让端侧AI的“够用”标准被重新划定了。

128GB统一内存是这一切的前提。在传统PC架构上,CPU有自己的系统内存,GPU有自己的显存,两者之间有物理边界。一个超过显存容量的大模型要么根本跑不了,要么需要复杂的模型拆分和内存交换,速度急剧下降。统一内存架构消除了这个瓶颈,模型数据直接放进128GB的共享池子里,CPU和GPU都能访问。苹果在Apple Silicon上率先证明了这条技术路线的消费级可行性,现在英伟达把它带到了Windows阵营。

除了大模型推理,英伟达列出的用例还包括12K视频编辑、90GB以上的3D场景渲染、1440p分辨率下超过100fps的光线追踪游戏。这些场景的共同特点是单次处理的数据量极大,传统PC要么需要数倍于处理时间的等待,要么根本跑不起来。

“支持运行”和“流畅可用”之间还有一段距离。英伟达没有公布120B模型在RTX Spark上的实际推理速度,也没有给出百万token上下文场景下的首token延迟数据。决定长上下文推理速度的关键指标是内存带宽。作为参照,同样使用GB10核心的DGX Spark在实测中内存带宽约为301GB/s。这个带宽水平跑120B模型是可以的,但处理百万token级别的上下文窗口时,用户可能需要等待数秒才能看到第一个输出token。RTX Spark的笔记本版本可能因为功耗限制,实际带宽还会有所调整。

给AI代理加一道安全笼

算力之外的另一个核心发布,是英伟达与微软在系统层面的合作。这部分可能是GTC 2026消费级发布中最容易被忽视、但对产业影响最深的内容。

一台能跑120B模型的电脑,如果交给一个可以自主操作桌面、点击按钮、读写文件的AI代理来使用,安全风险就不再是“会不会丢数据”这个级别了,而是“代理会不会做你不希望它做的事”。这个问题不解决,企业不可能把这种设备部署给员工。

微软和英伟达给出的方案是两道防线。第一道,微软升级了Windows的原生安全机制,从操作系统层面为AI代理行为提供监控和约束。第二道,英伟达把OpenShell运行时正式引入Windows平台。根据英伟达的官方文档,OpenShell是一个开源的沙盒运行时,提供内核级隔离。它给AI代理圈定了一个可控的操作范围,代理可以在这个范围内自主执行任务,但权限被严格限定,不能越界访问系统核心文件、网络连接或用户敏感数据。

这个组合对企业采购的意义是明确的。在此之前,“本地AI代理”这个概念停留在技术演示阶段。硬件跑得动,安全框架是空的。没有企业IT部门敢把这种状态下的设备纳入采购清单。英伟达和微软在硬件和应用之间插入一层标准化的隔离层,把“能用”变成了“可管理”。

OpenShell本身的性能开销是一个待观察的变量。沙盒隔离通常会带来一定程度的性能损失,具体会影响多少推理速度或系统响应,英伟达目前没有公开数据。企业IT管理端的部署复杂度、与现有安全策略的兼容性,这些实际落地中的问题需要等到OEM设备上市后才能验证。

Adobe为什么愿意“从底层重构”

软件厂商的配合程度,通常是判断一个新硬件平台能否站稳脚跟的风向标。

Adobe在GTC期间宣布的动作是这轮发布中软件端最大的信号。根据英伟达官方博客和Adobe高管的确认,Adobe启动了Photoshop和Premiere的底层重构,专门适配RTX Spark的统一内存架构,宣称AI与图形处理性能提升可达2倍。

“底层重构”不是加个插件、做个适配层。在传统PC上,CPU、GPU各有自己的内存空间,处理一个超大PSD文件或8K视频时间线时,数据要在两套内存之间反复搬运,这是性能浪费的重灾区。RTX Spark的统一内存让CPU和GPU可以直接共享同一块128GB空间,这个结构变化对专业创作者的工作流有实际价值。Adobe为此动底层代码,说明它认可这个架构方向不是一次性的营销噱头。

不过,这个“2倍加速”的对比基准是什么,英伟达和Adobe都没有公布。是跟同代的x86处理器加独立显卡比,还是跟上一代AI PC的NPU方案比?结果截然不同。在基准测试条件公开之前,这个数字的含金量只能打一个问号。

同时宣布支持的还有Blackmagic Design、ComfyUI、llama.cpp、OTOY以及多家游戏厂商。ComfyUI和llama.cpp的跟进值得注意,因为它们是当前本地AI工作流中最活跃的开源工具。开发者社区的早期支持往往比大厂的承诺更真实地反映一个平台的生态潜力。

英伟达正在用CUDA生态和统一内存架构,在Windows阵营构建类似苹果软硬一体的体验。区别在于,苹果的围墙是自己砌的,英伟达需要说服微软和ISV们一起砌。Adobe愿意从底层动手,至少说明这堵墙的第一块砖垒上去了。

纸面参数之外

回到一个最实际的问题:这些设备到底能不能买到,买到手是什么体验?

根据英伟达公布的信息,首批RTX Spark设备将在今年秋季上市,涵盖华硕、戴尔、惠普、联想、微软Surface和微星的轻薄笔记本与紧凑型台式机。宏碁和技嘉的型号此后跟进。所有OEM的具体定价和确切上市日期都没有公布。

比定价更关键的是几个物理层面的未知数。把1 petaflop算力的芯片塞进轻薄笔记本,功耗和散热怎么平衡?RTX Spark在非AI场景下的日常办公性能和续航表现如何?128GB统一内存在笔记本形态下的实际带宽会不会因为功耗限制而明显缩水?

这些问题是工业化落地的真正考验。一颗芯片在工程样机上的峰值算力和它在消费者手中每天8小时的实际表现,往往是两回事。英伟达在发布会上强调了RTX Spark的能效比,但没有给出具体的TDP数值或续航数据。

从PC产业格局的角度看,RTX Spark的出现标志着一种新的分工模式正在成形。过去三十年,PC的核心芯片话语权掌握在x86处理器厂商手里,GPU厂商虽然越来越重要,但始终是“插在主板上的配件”。英伟达这次拿出的是一颗完整的SoC,从CPU到GPU到内存控制器全部集成,Arm架构的CPU部分由联发科设计。PC产业链的权力结构,正在从“x86 CPU加上可选的GPU”转向“以GPU为中心的SoC平台”。

这个转向不会在一天之内完成。OEM的定价策略、实际产品的能效表现、ISV软件的适配进度、企业客户的采购验证周期,每一个环节都决定RTX Spark是成为PC产业的新坐标,还是另一个高开低走的技术演示。答案至少要等到今年秋天。

相关问答

Q英伟达RTX Spark超芯片相比传统AI PC的NPU算力提升了多少量级?

A英伟达RTX Spark超芯片的AI算力达到了1 petaflop,即1000 TOPS,而英特尔和AMD的AI PC内置NPU算力普遍在45-50 TOPS。RTX Spark直接将算力提升了约20倍以上,是跨越了一个数量级的提升。

QRTX Spark能够支持本地运行多大参数规模的大语言模型,其关键支撑技术是什么?

ARTX Spark支持本地运行120B(即1200亿)参数的大语言模型,并支持百万token级别的上下文窗口。其关键支撑技术是最高128GB的统一内存架构(UMA),该架构使CPU和GPU共享同一个内存池,消除了传统PC架构中CPU内存与GPU显存之间的数据搬运瓶颈。

Q英伟达与微软为应对本地AI代理的安全风险,提出了哪两道防线?

A为应对本地AI代理的安全风险,英伟达与微软共同构建了两道防线:1. 微软升级了Windows的原生安全机制,从操作系统层面为AI代理行为提供监控和约束。2. 英伟达将其开源的OpenShell沙盒运行时正式引入Windows平台,OpenShell提供内核级隔离,为AI代理划定一个受限的操作范围,防止其越界访问系统核心或敏感数据。

Q为什么Adobe愿意为RTX Spark对Photoshop和Premiere进行“底层重构”?

AAdobe愿意进行“底层重构”是因为RTX Spark的统一内存架构(UMA)能从根本上解决传统PC上CPU与GPU内存分离导致的数据反复搬运问题。当处理超大PSD文件或8K视频时间线时,UMA允许CPU和GPU直接共享128GB内存空间,大幅减少了性能浪费,从而为专业创作软件带来显著的性能提升潜力。

QRTX Spark的推出,从PC产业格局来看,标志着什么样的转变?

ARTX Spark的推出标志着PC产业的核心话语权正在发生转变:从过去三十年由x86 CPU厂商主导的“CPU为主,GPU为可选配件”的模式,转向“以GPU为中心的SoC平台”模式。英伟达通过这颗集成了Arm架构CPU(联发科设计)和Blackwell GPU的完整SoC,正在重塑PC产业链的权力结构。

你可能也喜欢

Deepseek 能否为中国节省 1 万亿美元?

《DeepSeek 能否为中国节省 1 万亿美元?》一文探讨了DeepSeek如何通过技术创新,可能大幅降低中国AI基础设施的建设成本。 核心在于,AI硬件的成本正从计算芯片向昂贵的内存(如HBM)倾斜。DeepSeek通过三方面技术突破,系统性降低了对这类稀缺硬件的依赖: 1. **压缩“记性”**:采用多头潜在注意力(MLA)等技术,将长上下文对话所需的缓存(KV Cache)压缩至原来的极小部分,极大节省显存。 2. **按需唤醒“身体”**:利用混合专家(MoE)模型架构,每次只激活部分参数,并结合智能的存储调度,将多数参数移出昂贵显存。 3. **复用计算结果**:将算过的上下文作为缓存复用,用低成本的内存读取替代高成本的重复计算。 这些技术协同,使DeepSeek V4等模型在长上下文场景下,用同等硬件可能产出数倍的有效Token,等效于大幅提升硬件效率、摊薄单位成本。 文章据此进行推演:到2030年,全球AI硬件投资预计达数万亿美元。若DeepSeek的技术路线能使中国未来AI基建的硬件需求等效减少75%,在日均Token消耗达到数千万亿级的规模时,节省的投资额可能接近1万亿美元(约7万亿元人民币),相当于少建数万座智算中心。 更重要的是,此举将产业价值从受制于人的尖端算力芯片,部分转移至中国已有所突破的存储芯片及系统工程领域,提升了供应链安全性。DeepSeek的意义不在于“消灭硬件”,而在于通过极致优化,降低行业对最昂贵、最稀缺硬件的边际依赖,让AI能力更普惠,重塑未来AI基建的账本。 (注:文中关于万亿节省的具体数字属于基于行业趋势的推演观点。)

marsbit31分钟前

Deepseek 能否为中国节省 1 万亿美元?

marsbit31分钟前

推翻主流治幻觉思路:元认知,才是大模型破幻觉的全新解法

谷歌研究院与特拉维夫大学联合发表论文,提出对抗大模型“幻觉”问题的新思路:与其追求让AI全知全能或过度拒答,不如培养其“元认知”能力,即让模型能够感知并诚实表达自身对每个答案的确信程度。 论文指出,当前主流方法存在局限:一味增加知识覆盖无法穷尽所有事实;而通过大幅拒答来降低错误率则会征收沉重的“实用性税”,牺牲大量本可正确回答的问题。核心原因在于模型缺乏“判别力”,难以精准区分具体问题的对错,导致校准良好但实用性低下。 论文重新定义了“幻觉”:问题不在于AI输出错误信息,而在于其“没有资格确定却以确定的语气给出错误信息”。因此,解决路径应是实现“忠实不确定性”——让AI语言表达的确信度与其内部状态的真实确信度对齐。这比消灭所有错误更可行,是一个依赖内部信号的闭环问题。 在AI代理(Agent)时代,元认知更为关键。没有它,Agent在调用外部工具(如搜索)时将陷入“盲飞”,无法智能决策何时需要搜索、如何评估信息可信度。 实现元认知面临几大挑战:“自举悖论”涉及用静态数据训练动态能力的困难;“对齐破坏信号”指RLHF等训练可能磨灭模型原有的内部不确定性信号;“因果性评估”则需区分真正的元认知与对其的表演。 论文建议,评估反幻觉方法应超越单一准确率指标,转而分析完整的“实用性-错误率权衡曲线”,并关注其在其他任务上的“附带损伤”。最终目标是让AI学会诚实地沟通其认知状态,从而在保留实用性的同时,将错误信息的危害降至最低,建立可靠信任。

marsbit35分钟前

推翻主流治幻觉思路:元认知,才是大模型破幻觉的全新解法

marsbit35分钟前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

540人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片