iPhone本地跑Gemma 4火了,0 token时代还有多远?

marsbit发布于2026-04-06更新于2026-04-06

文章摘要

谷歌开源新模型Gemma 4,其小参数版本(如2.3B和4.5B)可在手机端本地运行,支持多模态处理,上下文窗口达128K,被称作“可放入口袋的Gemini平替”。用户实测在iPhone和三星等设备上推理速度超过40 token/秒,体验流畅如“魔法”,适用于医疗等敏感场景。通过官方App“Google AI Edge Gallery”可便捷安装使用。 不过,Gemma 4在复杂任务(如代码代理、工具调用和结构化输出)上表现不佳,智力水平仍有局限。尽管当前开源模型与顶尖闭源模型尚有差距,端侧AI的发展趋势已非常明确:未来本地模型将逐步接管高频简单任务,迫使依赖API销售的厂商转向更复杂的Agent能力、超长上下文和实时数据处理。Gemma 4只是一个开端,端侧与云端体验无差别的那天,将重塑AI商业模式。

机器之心编辑部

谷歌前几天开源的新模型 Gemma 4,给了业内一个大大的惊喜。

它采用了与 Gemini 3 同源的技术架构,支持原生全模态,在 Arena AI 排行榜上拿到了全球第三,而且有多个型号可以选。几个较小的型号 —— E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)—— 可以直接部署在手机端本地运行,上下文窗口达到 128K,可以说是「可以放进口袋的 Gemini平替」。

不出所料,模型发布后很快就成了手机用户的新玩具。

其中,一个 X 用户的帖子被围观数十万次。他在帖子里放了一个视频,讲述自己如何在 iPhone 上本地运行 Gemma 4,包括处理图片、音频、控制手电筒开关。他表示,Gemma 4 速度快得惊人,感觉像魔法一样。

有人在 iPhone 17 Pro 上量化了这一速度,指出如果手机用的是苹果芯片,那么在针对这套芯片优化的 MLX(苹果的机器学习框架)的帮助下,模型的推理速度可以超过 40 token / 秒。

还有人在三星 Galaxy 上也跑出了类似的速度,而且还是在开启了思考模式的情况下。这让人直呼「快得不真实」。

这样的速度让手机端运行 AI 模型成为了未来可以被接受的选项,而且在医疗等敏感场景中非常有用。

128k 的上下文窗口也让这些小模型变得更有吸引力。

那具体怎么运行呢?其实很简单,不是极客专属,因为谷歌发布了官方 App——Google AI Edge Gallery。想在手机上体验的人可以直接下载这个 App,然后下载想要运行的模型版本,之后打开就能跑了。

而且,由于是谷歌官方发布,安全问题自然也不用太担心。

除了这些在手机端运行的小模型,还有人在更强的硬件上尝试了更大的 Gemma 4 版本,比如在 M5 Pro 版本的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B。

如果是直接对话,这个模型的速度还是很快的,文本生成、代码解释都很顺畅。

但当他真的将 Gemma 4 当成 coding agent 去用时,问题就来了。因为跑 agent 时需要大上下文(Gemma 4 26B 上下文窗口为 256k)、复杂 prompt 和稳定的工具调用,Gemma 4 在这些地方明显扛不住,经常卡住、报错,或者输出结构不对。

转折点发生在他将模型换成qwen3-coder 的时刻 ,同样环境下,文件创建、命令执行、多步任务都能正常跑。他认为,问题不在 agent 框架,而在模型本身有没有为「工具调用 + 结构化输出」做过优化。在这方面,Gemma 4 可能做得还不够,也有可能这位开发者还没找到正确的用法。

此外,还有人说,Gemma 4 在智力水平上还有点鸡肋。

虽然如此,Gemma 4 这种「性能小钢炮」的出现依然不容小觑。如果以后大量的日常查询、聊天、简单推理、代码生成、图像理解任务都可以本地跑了,不再需要买 token,那卖 token 的厂商岂不是处境很尴尬?

当然,当前情况还没有那么悲观,毕竟现在被开源出来的模型和前沿的旗舰闭源模型之间还有差距,而且大部分能打的开源模型依然受制于硬件能力,暂时还没办法在端侧达到可用级别。

但未来的趋势是清晰的。短期看,云端闭源模型在最前沿的复杂推理和超大规模多代理协作上依然领先;但长期看,当硬件继续进步、量化技术继续优化,端侧模型会逐步蚕食云端的高频简单任务。

那些只靠卖 token、卖 API 订阅的厂商,将不得不更狠地卷「真正难啃」的部分 —— 超强 Agent、超长可靠上下文、以及需要海量实时数据的专有能力。

Gemma 4 只是一个开始。下一个惊喜,可能就是某款端侧模型在日常使用中彻底让用户感觉不到「本地」和「云端」的区别。那一天到来时,整个 AI 产业的商业模式,都会迎来一次真正的洗牌。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心

相关问答

QGemma 4模型有哪些主要特点?

AGemma 4采用了与Gemini 3同源的技术架构,支持原生全模态,在Arena AI排行榜上排名全球第三。它提供多个型号,其中较小的E2B(2.3B参数)和E4B(4.5B参数)可直接在手机端本地运行,上下文窗口达到128K,被称为“可以放进口袋的Gemini平替”。

Q在iPhone上本地运行Gemma 4的速度如何?

A在iPhone 17 Pro上,通过苹果芯片和针对其优化的MLX框架,Gemma 4的推理速度可以超过40 token/秒。类似的速度也在三星Galaxy等设备上得到验证,甚至在开启思考模式后仍保持高速,被用户形容为“快得不真实”。

Q如何在手机上运行Gemma 4模型?

A用户可以通过下载谷歌官方发布的App“Google AI Edge Gallery”来运行Gemma 4。在App中下载所需的模型版本后,即可直接在手机上本地运行,无需复杂设置,且安全性由谷歌官方保障。

QGemma 4在复杂任务(如coding agent)中的表现如何?

AGemma 4在简单对话和代码生成中表现流畅,但在作为coding agent处理需要大上下文(如256K窗口)、复杂prompt和稳定工具调用的任务时,经常出现卡顿、报错或输出结构错误的问题。相比之下,其他模型如qwen3-coder在相同环境下表现更稳定。

QGemma 4的出现对AI产业可能产生什么影响?

AGemma 4的端侧高性能模型可能逐步蚕食云端模型的高频简单任务(如日常查询、聊天、图像理解),迫使依赖token销售和API订阅的厂商转向更复杂的领域,如超强Agent、超长可靠上下文和实时数据专有能力。长期来看,端侧模型的进步可能重塑AI产业的商业模式。

你可能也喜欢

Claude Code 推出动态工作流:让AI学会自己组队干活

Claude Code 推出了动态工作流(workflows)功能,使AI能够根据任务动态组建多个智能体(Agent)团队协同工作,从而解决复杂的长周期任务。 该功能的核心价值在于,它改变了Claude Code原有的“单智能体在单一上下文内规划并执行”的模式。通过动态工作流,Claude可以将任务拆解,分派给多个拥有独立上下文的子智能体并行处理、交叉验证甚至彼此竞争,最后综合结果。这有效缓解了单智能体在处理长任务时常见的“智能体惰性”(提前宣布完成)、“自我偏好偏差”(倾向认可自己的结论)和“目标漂移”(逐渐偏离原始目标)等问题。 动态工作流通过执行一个包含特殊函数的JavaScript文件来协调子智能体。它支持多种实用模式,例如:将任务分类后路由给不同智能体;将任务拆分为多个小步骤并行处理再综合(扇出并综合);生成多个方案后通过锦标赛机制竞争筛选;以及进行对抗式验证等。 其应用场景显著超越了传统的代码任务,扩展至非技术领域。示例包括:代码迁移与重构、深度研究与事实核查、对大量简历或工单进行排序、从历史会话中提炼行为规则、进行事故根因调查、对积压任务进行大规模分诊,以及在命名、设计等需要探索和品味判断的任务中生成并筛选方案。 文章也指出,动态工作流并非万能。它通常会消耗更多token,因此不适合所有常规编程任务。最佳实践仍在形成中,开发者需要根据任务复杂度判断是否使用。用户可以通过详细提示(prompt)设计工作流,并结合 `/goal` 和 `/loop` 等指令,或设置token使用预算来优化效果。创建的工作流可以保存、共享甚至通过技能(skill)进行分发。 总的来说,动态工作流标志着Claude Code从一个代码助手向一个可编排的智能体工作台演进。未来AI工具的竞争力,可能不仅在于单个模型的智能程度,更在于其组织可靠、可复用执行流程的能力。

marsbit25分钟前

Claude Code 推出动态工作流:让AI学会自己组队干活

marsbit25分钟前

Hyperliquid,华尔街全天候交易便利店

《华尔街日报》报道,去中心化加密交易平台Hyperliquid已成为华尔街交易者,尤其是短线操作者的重要工具。其核心优势在于提供全年无休、全天候交易服务,允许投资者在美股休市(如周末)时提前建仓或平仓,以捕捉如地缘政治事件等带来的市场波动。对冲基金交易员Vala Zeinali分享了他利用该平台在中东冲突消息发布后,及时交易原油衍生品并获得高额回报的经历。 平台由前高频交易员Jeff Yan创立,旨在提供高性能且用户自主托管资产的交易系统,以应对类似FTX破产的风险。尽管公司仅有11名员工,但其业务增长迅速,去年营收约8亿美元,其原生代币HYPE市值已达约160亿美元。 Hyperliquid提供多样化的交易标的,包括比特币、标普500指数、原油以及SpaceX等未上市公司的永续合约,吸引了大量传统金融和加密领域资金。平台的高杠杆特性也意味着高风险,曾在市场剧烈波动时导致巨额爆仓。 目前,美国用户虽被协议禁止使用,但仍有人通过VPN访问。平台吸引力还在于其简洁的界面、丰富的产品以及活跃的社区文化,用户甚至可以直接与创始团队互动。Hyperliquid计划未来拓展至预测市场和期权交易领域,其终极目标是整合所有金融业务。然而,监管机构警告,永续合约结构复杂,面向散户的风险披露可能不足,存在隐患。

marsbit25分钟前

Hyperliquid,华尔街全天候交易便利店

marsbit25分钟前

谁为代理提供资金?

文章探讨了人工智能代理支付领域的关键问题:治理层的价值与竞争。OpenAI曾因缺乏清晰的购物规则(如退货、防欺诈)而关闭代理购物功能,这凸显了治理(支出控制、身份验证、政策执行)在代理经济中的核心地位。 目前,代理支付平均金额仅31美分,传统支付手续费(如Stripe)使得利润微薄,这为低成本的加密货币结算层(如Layer-2稳定币支付)创造了机会。Coinbase的x402协议和Stripe等公司推出的机器支付协议(MPP)正在争夺支付基础设施的主导权。 然而,真正的价值不仅在于处理交易,更在于管理资金流动的规则,即治理层。钱包(如Stripe收购的Privy)因其处在资金流动的关键节点,成为实施消费限额和审批的理想治理层。Stripe、Coinbase等巨头正通过垂直整合技术栈(覆盖结算、钱包、协议、治理等层面)来建立竞争优势。它们通过投资或收购治理初创公司,确保无论治理功能是内嵌还是独立,都能获利。 分析指出,支付处理终将商品化,价值会向上转移到决定交易能否发生的治理环节。预计到2030年,AI代理交易额可达3-5万亿美元,即使收取很低的治理费率,也能产生数十亿美元收入,堪比Coinbase目前的年订阅服务总收入。因此,在钱包、结算和治理层进行垂直整合,通过浮动余额收益、结算费用和合规费用多元获利,将是企业在代理支付时代保持竞争力的关键商业模式。

marsbit52分钟前

谁为代理提供资金?

marsbit52分钟前

交易

现货
合约

热门文章

如何购买4

欢迎来到HTX.com!我们已经让购买4(4)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买4(4)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的4(4)购买完您的4(4)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易4(4)在HTX的现货市场轻松交易4(4)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

1.2k人学过发布于 2025.10.20更新于 2026.06.02

如何购买4

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对4(4)币价的意见。

活动图片