iPhone本地跑Gemma 4火了,0 token时代还有多远?

marsbit發佈於 2026-04-06更新於 2026-04-06

文章摘要

谷歌开源新模型Gemma 4,其小参数版本(如2.3B和4.5B)可在手机端本地运行,支持多模态处理,上下文窗口达128K,被称作“可放入口袋的Gemini平替”。用户实测在iPhone和三星等设备上推理速度超过40 token/秒,体验流畅如“魔法”,适用于医疗等敏感场景。通过官方App“Google AI Edge Gallery”可便捷安装使用。 不过,Gemma 4在复杂任务(如代码代理、工具调用和结构化输出)上表现不佳,智力水平仍有局限。尽管当前开源模型与顶尖闭源模型尚有差距,端侧AI的发展趋势已非常明确:未来本地模型将逐步接管高频简单任务,迫使依赖API销售的厂商转向更复杂的Agent能力、超长上下文和实时数据处理。Gemma 4只是一个开端,端侧与云端体验无差别的那天,将重塑AI商业模式。

机器之心编辑部

谷歌前几天开源的新模型 Gemma 4,给了业内一个大大的惊喜。

它采用了与 Gemini 3 同源的技术架构,支持原生全模态,在 Arena AI 排行榜上拿到了全球第三,而且有多个型号可以选。几个较小的型号 —— E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)—— 可以直接部署在手机端本地运行,上下文窗口达到 128K,可以说是「可以放进口袋的 Gemini平替」。

不出所料,模型发布后很快就成了手机用户的新玩具。

其中,一个 X 用户的帖子被围观数十万次。他在帖子里放了一个视频,讲述自己如何在 iPhone 上本地运行 Gemma 4,包括处理图片、音频、控制手电筒开关。他表示,Gemma 4 速度快得惊人,感觉像魔法一样。

有人在 iPhone 17 Pro 上量化了这一速度,指出如果手机用的是苹果芯片,那么在针对这套芯片优化的 MLX(苹果的机器学习框架)的帮助下,模型的推理速度可以超过 40 token / 秒。

还有人在三星 Galaxy 上也跑出了类似的速度,而且还是在开启了思考模式的情况下。这让人直呼「快得不真实」。

这样的速度让手机端运行 AI 模型成为了未来可以被接受的选项,而且在医疗等敏感场景中非常有用。

128k 的上下文窗口也让这些小模型变得更有吸引力。

那具体怎么运行呢?其实很简单,不是极客专属,因为谷歌发布了官方 App——Google AI Edge Gallery。想在手机上体验的人可以直接下载这个 App,然后下载想要运行的模型版本,之后打开就能跑了。

而且,由于是谷歌官方发布,安全问题自然也不用太担心。

除了这些在手机端运行的小模型,还有人在更强的硬件上尝试了更大的 Gemma 4 版本,比如在 M5 Pro 版本的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B。

如果是直接对话,这个模型的速度还是很快的,文本生成、代码解释都很顺畅。

但当他真的将 Gemma 4 当成 coding agent 去用时,问题就来了。因为跑 agent 时需要大上下文(Gemma 4 26B 上下文窗口为 256k)、复杂 prompt 和稳定的工具调用,Gemma 4 在这些地方明显扛不住,经常卡住、报错,或者输出结构不对。

转折点发生在他将模型换成qwen3-coder 的时刻 ,同样环境下,文件创建、命令执行、多步任务都能正常跑。他认为,问题不在 agent 框架,而在模型本身有没有为「工具调用 + 结构化输出」做过优化。在这方面,Gemma 4 可能做得还不够,也有可能这位开发者还没找到正确的用法。

此外,还有人说,Gemma 4 在智力水平上还有点鸡肋。

虽然如此,Gemma 4 这种「性能小钢炮」的出现依然不容小觑。如果以后大量的日常查询、聊天、简单推理、代码生成、图像理解任务都可以本地跑了,不再需要买 token,那卖 token 的厂商岂不是处境很尴尬?

当然,当前情况还没有那么悲观,毕竟现在被开源出来的模型和前沿的旗舰闭源模型之间还有差距,而且大部分能打的开源模型依然受制于硬件能力,暂时还没办法在端侧达到可用级别。

但未来的趋势是清晰的。短期看,云端闭源模型在最前沿的复杂推理和超大规模多代理协作上依然领先;但长期看,当硬件继续进步、量化技术继续优化,端侧模型会逐步蚕食云端的高频简单任务。

那些只靠卖 token、卖 API 订阅的厂商,将不得不更狠地卷「真正难啃」的部分 —— 超强 Agent、超长可靠上下文、以及需要海量实时数据的专有能力。

Gemma 4 只是一个开始。下一个惊喜,可能就是某款端侧模型在日常使用中彻底让用户感觉不到「本地」和「云端」的区别。那一天到来时,整个 AI 产业的商业模式,都会迎来一次真正的洗牌。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心

相關問答

QGemma 4模型有哪些主要特点?

AGemma 4采用了与Gemini 3同源的技术架构,支持原生全模态,在Arena AI排行榜上排名全球第三。它提供多个型号,其中较小的E2B(2.3B参数)和E4B(4.5B参数)可直接在手机端本地运行,上下文窗口达到128K,被称为“可以放进口袋的Gemini平替”。

Q在iPhone上本地运行Gemma 4的速度如何?

A在iPhone 17 Pro上,通过苹果芯片和针对其优化的MLX框架,Gemma 4的推理速度可以超过40 token/秒。类似的速度也在三星Galaxy等设备上得到验证,甚至在开启思考模式后仍保持高速,被用户形容为“快得不真实”。

Q如何在手机上运行Gemma 4模型?

A用户可以通过下载谷歌官方发布的App“Google AI Edge Gallery”来运行Gemma 4。在App中下载所需的模型版本后,即可直接在手机上本地运行,无需复杂设置,且安全性由谷歌官方保障。

QGemma 4在复杂任务(如coding agent)中的表现如何?

AGemma 4在简单对话和代码生成中表现流畅,但在作为coding agent处理需要大上下文(如256K窗口)、复杂prompt和稳定工具调用的任务时,经常出现卡顿、报错或输出结构错误的问题。相比之下,其他模型如qwen3-coder在相同环境下表现更稳定。

QGemma 4的出现对AI产业可能产生什么影响?

AGemma 4的端侧高性能模型可能逐步蚕食云端模型的高频简单任务(如日常查询、聊天、图像理解),迫使依赖token销售和API订阅的厂商转向更复杂的领域,如超强Agent、超长可靠上下文和实时数据专有能力。长期来看,端侧模型的进步可能重塑AI产业的商业模式。

你可能也喜歡

300美元的二手矿机,挖出了23万美元的比特币区块

一台价值约300美元的二手桌面矿机Avalon Nano 3S,于2026年5月30日意外挖出一个价值23.2万美元的比特币区块。该事件概率约为1.49亿分之一,堪比彩票头奖。 这台算力仅6.68 TH/s的小型设备,属于一位拥有十多台类似矿机的散户矿工。其整个矿机集群的预期中奖周期长达127年,而此次中奖的机器仅贡献了集群约4.5%的算力。在当今比特币挖矿行业已被大型工业矿场主导的背景下,这一事件尤为罕见。当前全网算力约1000 EH/s,而这台矿机的算力仅占约0.00000067%。 散户能够参与竞争,得益于Solo矿池(如Braiins Solo)的存在。这类矿池为个体矿工提供接入网络的技术支持,但不像传统矿池那样汇集算力分红;一旦某台机器成功挖出区块,奖励几乎全归矿工所有,矿池仅收取少量服务费。这被视为比特币生态系统留给普通参与者的“后门”,尽管其成功概率极低,本质近乎买彩票。 此事引发了关于比特币初心“一CPU一票”的讨论。如今挖矿已演变为“一EH/s一票”,普通个体极难通过挖矿获利。然而,这次极小概率事件恰恰证明了比特币工作量证明机制的核心规则依然有效:无论算力大小,只要率先计算出正确结果,就能获得奖励。系统并未对普通人关上大门,但门后是极高的风险与微乎其微的机遇。

marsbit43 分鐘前

300美元的二手矿机,挖出了23万美元的比特币区块

marsbit43 分鐘前

OpenAI时隔六年重启机器人业务,短期押注协助型机器人

OpenAI宣布时隔六年重启机器人业务,成立“OpenAI Robotics”新团队并招募硬件、软件等领域工程师,正式进军实体机器人赛道。公司首席执行官山姆·奥特曼阐述了短期与长期目标:短期内专注于研发协助技术工人建设基础设施的机器人;长期愿景是让每个人都拥有能完成各种需求的个人机器人。 此次重启基于内部“世界模拟”研究项目的快速发展,并由公司研究副总裁阿迪亚·拉梅什领导。OpenAI早期曾探索机器人技术,并在2019年通过强化学习训练机械手复原魔方,证明了仿真训练的可行性。但由于当时机器人数据稀缺,公司于2020年前后解散机器人团队,将资源集中于大语言模型研发,从而催生了ChatGPT。 近年来,OpenAI通过投资策略布局机器人领域,例如投资Figure AI并为其机器人开发AI模型。但今年2月双方因技术路线分歧终止合作,Figure AI转向自主研发端到端模型。这一变化促使OpenAI决定亲自下场,将机器人业务升级为内部战略。 在提交IPO草案、估值高涨的背景下,OpenAI此举也被视为在上市前描绘新的增长曲线,展示其从软件向软硬件结合、从虚拟向物理世界拓展的愿景,以“具身智能”故事应对市场对其盈利能力的担忧。公司计划利用其在大模型和“世界模型”方面的优势,遵循“先造大脑,再长身体”的路径,试图以软件和算法定义硬件,重塑机器人行业研发模式。

marsbit1 小時前

OpenAI时隔六年重启机器人业务,短期押注协助型机器人

marsbit1 小時前

交易

現貨
合約

熱門文章

如何購買4

歡迎來到HTX.com!在這裡,購買4 (4)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買4 (4)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的4 (4)購買4 (4)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易4 (4)在HTX的現貨市場輕鬆交易4 (4)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

885 人學過發佈於 2025.10.20更新於 2026.06.02

如何購買4

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 4 (4)幣價的意見。

活动图片