iPhone本地跑Gemma 4火了,0 token时代还有多远?

marsbit发布于2026-04-06更新于2026-04-06

文章摘要

谷歌开源新模型Gemma 4,其小参数版本(如2.3B和4.5B)可在手机端本地运行,支持多模态处理,上下文窗口达128K,被称作“可放入口袋的Gemini平替”。用户实测在iPhone和三星等设备上推理速度超过40 token/秒,体验流畅如“魔法”,适用于医疗等敏感场景。通过官方App“Google AI Edge Gallery”可便捷安装使用。 不过,Gemma 4在复杂任务(如代码代理、工具调用和结构化输出)上表现不佳,智力水平仍有局限。尽管当前开源模型与顶尖闭源模型尚有差距,端侧AI的发展趋势已非常明确:未来本地模型将逐步接管高频简单任务,迫使依赖API销售的厂商转向更复杂的Agent能力、超长上下文和实时数据处理。Gemma 4只是一个开端,端侧与云端体验无差别的那天,将重塑AI商业模式。

机器之心编辑部

谷歌前几天开源的新模型 Gemma 4,给了业内一个大大的惊喜。

它采用了与 Gemini 3 同源的技术架构,支持原生全模态,在 Arena AI 排行榜上拿到了全球第三,而且有多个型号可以选。几个较小的型号 —— E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)—— 可以直接部署在手机端本地运行,上下文窗口达到 128K,可以说是「可以放进口袋的 Gemini平替」。

不出所料,模型发布后很快就成了手机用户的新玩具。

其中,一个 X 用户的帖子被围观数十万次。他在帖子里放了一个视频,讲述自己如何在 iPhone 上本地运行 Gemma 4,包括处理图片、音频、控制手电筒开关。他表示,Gemma 4 速度快得惊人,感觉像魔法一样。

有人在 iPhone 17 Pro 上量化了这一速度,指出如果手机用的是苹果芯片,那么在针对这套芯片优化的 MLX(苹果的机器学习框架)的帮助下,模型的推理速度可以超过 40 token / 秒。

还有人在三星 Galaxy 上也跑出了类似的速度,而且还是在开启了思考模式的情况下。这让人直呼「快得不真实」。

这样的速度让手机端运行 AI 模型成为了未来可以被接受的选项,而且在医疗等敏感场景中非常有用。

128k 的上下文窗口也让这些小模型变得更有吸引力。

那具体怎么运行呢?其实很简单,不是极客专属,因为谷歌发布了官方 App——Google AI Edge Gallery。想在手机上体验的人可以直接下载这个 App,然后下载想要运行的模型版本,之后打开就能跑了。

而且,由于是谷歌官方发布,安全问题自然也不用太担心。

除了这些在手机端运行的小模型,还有人在更强的硬件上尝试了更大的 Gemma 4 版本,比如在 M5 Pro 版本的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B。

如果是直接对话,这个模型的速度还是很快的,文本生成、代码解释都很顺畅。

但当他真的将 Gemma 4 当成 coding agent 去用时,问题就来了。因为跑 agent 时需要大上下文(Gemma 4 26B 上下文窗口为 256k)、复杂 prompt 和稳定的工具调用,Gemma 4 在这些地方明显扛不住,经常卡住、报错,或者输出结构不对。

转折点发生在他将模型换成qwen3-coder 的时刻 ,同样环境下,文件创建、命令执行、多步任务都能正常跑。他认为,问题不在 agent 框架,而在模型本身有没有为「工具调用 + 结构化输出」做过优化。在这方面,Gemma 4 可能做得还不够,也有可能这位开发者还没找到正确的用法。

此外,还有人说,Gemma 4 在智力水平上还有点鸡肋。

虽然如此,Gemma 4 这种「性能小钢炮」的出现依然不容小觑。如果以后大量的日常查询、聊天、简单推理、代码生成、图像理解任务都可以本地跑了,不再需要买 token,那卖 token 的厂商岂不是处境很尴尬?

当然,当前情况还没有那么悲观,毕竟现在被开源出来的模型和前沿的旗舰闭源模型之间还有差距,而且大部分能打的开源模型依然受制于硬件能力,暂时还没办法在端侧达到可用级别。

但未来的趋势是清晰的。短期看,云端闭源模型在最前沿的复杂推理和超大规模多代理协作上依然领先;但长期看,当硬件继续进步、量化技术继续优化,端侧模型会逐步蚕食云端的高频简单任务。

那些只靠卖 token、卖 API 订阅的厂商,将不得不更狠地卷「真正难啃」的部分 —— 超强 Agent、超长可靠上下文、以及需要海量实时数据的专有能力。

Gemma 4 只是一个开始。下一个惊喜,可能就是某款端侧模型在日常使用中彻底让用户感觉不到「本地」和「云端」的区别。那一天到来时,整个 AI 产业的商业模式,都会迎来一次真正的洗牌。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心

相关问答

QGemma 4模型有哪些主要特点?

AGemma 4采用了与Gemini 3同源的技术架构,支持原生全模态,在Arena AI排行榜上排名全球第三。它提供多个型号,其中较小的E2B(2.3B参数)和E4B(4.5B参数)可直接在手机端本地运行,上下文窗口达到128K,被称为“可以放进口袋的Gemini平替”。

Q在iPhone上本地运行Gemma 4的速度如何?

A在iPhone 17 Pro上,通过苹果芯片和针对其优化的MLX框架,Gemma 4的推理速度可以超过40 token/秒。类似的速度也在三星Galaxy等设备上得到验证,甚至在开启思考模式后仍保持高速,被用户形容为“快得不真实”。

Q如何在手机上运行Gemma 4模型?

A用户可以通过下载谷歌官方发布的App“Google AI Edge Gallery”来运行Gemma 4。在App中下载所需的模型版本后,即可直接在手机上本地运行,无需复杂设置,且安全性由谷歌官方保障。

QGemma 4在复杂任务(如coding agent)中的表现如何?

AGemma 4在简单对话和代码生成中表现流畅,但在作为coding agent处理需要大上下文(如256K窗口)、复杂prompt和稳定工具调用的任务时,经常出现卡顿、报错或输出结构错误的问题。相比之下,其他模型如qwen3-coder在相同环境下表现更稳定。

QGemma 4的出现对AI产业可能产生什么影响?

AGemma 4的端侧高性能模型可能逐步蚕食云端模型的高频简单任务(如日常查询、聊天、图像理解),迫使依赖token销售和API订阅的厂商转向更复杂的领域,如超强Agent、超长可靠上下文和实时数据专有能力。长期来看,端侧模型的进步可能重塑AI产业的商业模式。

你可能也喜欢

交易

现货
合约

热门文章

如何购买4

欢迎来到HTX.com!我们已经让购买4(4)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买4(4)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的4(4)购买完您的4(4)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易4(4)在HTX的现货市场轻松交易4(4)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

1.1k人学过发布于 2025.10.20更新于 2025.10.23

如何购买4

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对4(4)币价的意见。

活动图片