iPhone本地跑Gemma 4火了,0 token时代还有多远?

marsbit發佈於 2026-04-06更新於 2026-04-06

文章摘要

谷歌开源新模型Gemma 4,其小参数版本(如2.3B和4.5B)可在手机端本地运行,支持多模态处理,上下文窗口达128K,被称作“可放入口袋的Gemini平替”。用户实测在iPhone和三星等设备上推理速度超过40 token/秒,体验流畅如“魔法”,适用于医疗等敏感场景。通过官方App“Google AI Edge Gallery”可便捷安装使用。 不过,Gemma 4在复杂任务(如代码代理、工具调用和结构化输出)上表现不佳,智力水平仍有局限。尽管当前开源模型与顶尖闭源模型尚有差距,端侧AI的发展趋势已非常明确:未来本地模型将逐步接管高频简单任务,迫使依赖API销售的厂商转向更复杂的Agent能力、超长上下文和实时数据处理。Gemma 4只是一个开端,端侧与云端体验无差别的那天,将重塑AI商业模式。

机器之心编辑部

谷歌前几天开源的新模型 Gemma 4,给了业内一个大大的惊喜。

它采用了与 Gemini 3 同源的技术架构,支持原生全模态,在 Arena AI 排行榜上拿到了全球第三,而且有多个型号可以选。几个较小的型号 —— E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)—— 可以直接部署在手机端本地运行,上下文窗口达到 128K,可以说是「可以放进口袋的 Gemini平替」。

不出所料,模型发布后很快就成了手机用户的新玩具。

其中,一个 X 用户的帖子被围观数十万次。他在帖子里放了一个视频,讲述自己如何在 iPhone 上本地运行 Gemma 4,包括处理图片、音频、控制手电筒开关。他表示,Gemma 4 速度快得惊人,感觉像魔法一样。

有人在 iPhone 17 Pro 上量化了这一速度,指出如果手机用的是苹果芯片,那么在针对这套芯片优化的 MLX(苹果的机器学习框架)的帮助下,模型的推理速度可以超过 40 token / 秒。

还有人在三星 Galaxy 上也跑出了类似的速度,而且还是在开启了思考模式的情况下。这让人直呼「快得不真实」。

这样的速度让手机端运行 AI 模型成为了未来可以被接受的选项,而且在医疗等敏感场景中非常有用。

128k 的上下文窗口也让这些小模型变得更有吸引力。

那具体怎么运行呢?其实很简单,不是极客专属,因为谷歌发布了官方 App——Google AI Edge Gallery。想在手机上体验的人可以直接下载这个 App,然后下载想要运行的模型版本,之后打开就能跑了。

而且,由于是谷歌官方发布,安全问题自然也不用太担心。

除了这些在手机端运行的小模型,还有人在更强的硬件上尝试了更大的 Gemma 4 版本,比如在 M5 Pro 版本的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B。

如果是直接对话,这个模型的速度还是很快的,文本生成、代码解释都很顺畅。

但当他真的将 Gemma 4 当成 coding agent 去用时,问题就来了。因为跑 agent 时需要大上下文(Gemma 4 26B 上下文窗口为 256k)、复杂 prompt 和稳定的工具调用,Gemma 4 在这些地方明显扛不住,经常卡住、报错,或者输出结构不对。

转折点发生在他将模型换成qwen3-coder 的时刻 ,同样环境下,文件创建、命令执行、多步任务都能正常跑。他认为,问题不在 agent 框架,而在模型本身有没有为「工具调用 + 结构化输出」做过优化。在这方面,Gemma 4 可能做得还不够,也有可能这位开发者还没找到正确的用法。

此外,还有人说,Gemma 4 在智力水平上还有点鸡肋。

虽然如此,Gemma 4 这种「性能小钢炮」的出现依然不容小觑。如果以后大量的日常查询、聊天、简单推理、代码生成、图像理解任务都可以本地跑了,不再需要买 token,那卖 token 的厂商岂不是处境很尴尬?

当然,当前情况还没有那么悲观,毕竟现在被开源出来的模型和前沿的旗舰闭源模型之间还有差距,而且大部分能打的开源模型依然受制于硬件能力,暂时还没办法在端侧达到可用级别。

但未来的趋势是清晰的。短期看,云端闭源模型在最前沿的复杂推理和超大规模多代理协作上依然领先;但长期看,当硬件继续进步、量化技术继续优化,端侧模型会逐步蚕食云端的高频简单任务。

那些只靠卖 token、卖 API 订阅的厂商,将不得不更狠地卷「真正难啃」的部分 —— 超强 Agent、超长可靠上下文、以及需要海量实时数据的专有能力。

Gemma 4 只是一个开始。下一个惊喜,可能就是某款端侧模型在日常使用中彻底让用户感觉不到「本地」和「云端」的区别。那一天到来时,整个 AI 产业的商业模式,都会迎来一次真正的洗牌。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心

相關問答

QGemma 4模型有哪些主要特点?

AGemma 4采用了与Gemini 3同源的技术架构,支持原生全模态,在Arena AI排行榜上排名全球第三。它提供多个型号,其中较小的E2B(2.3B参数)和E4B(4.5B参数)可直接在手机端本地运行,上下文窗口达到128K,被称为“可以放进口袋的Gemini平替”。

Q在iPhone上本地运行Gemma 4的速度如何?

A在iPhone 17 Pro上,通过苹果芯片和针对其优化的MLX框架,Gemma 4的推理速度可以超过40 token/秒。类似的速度也在三星Galaxy等设备上得到验证,甚至在开启思考模式后仍保持高速,被用户形容为“快得不真实”。

Q如何在手机上运行Gemma 4模型?

A用户可以通过下载谷歌官方发布的App“Google AI Edge Gallery”来运行Gemma 4。在App中下载所需的模型版本后,即可直接在手机上本地运行,无需复杂设置,且安全性由谷歌官方保障。

QGemma 4在复杂任务(如coding agent)中的表现如何?

AGemma 4在简单对话和代码生成中表现流畅,但在作为coding agent处理需要大上下文(如256K窗口)、复杂prompt和稳定工具调用的任务时,经常出现卡顿、报错或输出结构错误的问题。相比之下,其他模型如qwen3-coder在相同环境下表现更稳定。

QGemma 4的出现对AI产业可能产生什么影响?

AGemma 4的端侧高性能模型可能逐步蚕食云端模型的高频简单任务(如日常查询、聊天、图像理解),迫使依赖token销售和API订阅的厂商转向更复杂的领域,如超强Agent、超长可靠上下文和实时数据专有能力。长期来看,端侧模型的进步可能重塑AI产业的商业模式。

你可能也喜歡

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

**Crypto GP的中年危机:没有PMF,就没有LP的下一张支票** 当前加密货币市场,有限合伙人(LP)已不再愿意为虚无的梦想买单,普通合伙人(GP)必须拿出具有产品市场契合度(PMF)的具体产品才能持续获得融资。市场环境已从“购买未来愿景”转向“购买具体产品”阶段,LP要求立即、相对确定的赚钱机会。 文章将当前加密募资产品分为三大类:一级市场(Primary)、流动性市场(Liquid)以及中心化/去中心化金融原生收益(CeFi/DeFi Native Yield)。本文上篇重点分析一级市场。 **一级市场现状与挑战:** 过去,LP投资加密VC的主要理由包括:捕捉行业增长红利、获取项目投资渠道、信赖GP的卓越判断力、看重GP的“攒局”资源整合能力,或是进行声誉投资。然而,这些理由如今已大大削弱: 1. 获取加密资产曝险的途径(如ETF、托管账户等)已非常丰富,不再依赖VC盲池基金。 2. LP自身学习能力增强,或已建立内部团队,对GP渠道的依赖降低。 3. 多数GP在上个周期未能证明其判断力优于市场。 4. 市场下行时,“攒局”与退出变得困难。 **谁能留在牌桌上?** 在当前环境下,能继续在一级市场募资的GP主要包括: 1. 管理规模足以进入捐赠基金等长期耐心资本配置范围的基金。 2. 使用自有资金投资的家族办公室、公司或高净值人士。 3. 在本周期内真正为LP创造了超额回报的少数基金。 4. 具备明确生态资源和利益置换能力的“攒局型”基金。 对于其他大多数GP而言,行业信任已然受损,需要心态归零,在细分领域重新证明自己创造超额回报的能力,或提供具体的服务价值,以此重建信任并寻求发展。

marsbit46 分鐘前

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

marsbit46 分鐘前

脱钩时代来临,比特币不再是加密的唯一罗盘

文章指出,加密市场正告别以比特币为单一风向标的时代,分化为“内生型”和“外生型”两大资产阵营。 内生型资产(如比特币和多数传统加密货币)的价值仍与加密市场整体行情深度绑定。而外生型资产的崛起成为新趋势,其价值主要依托自身业务的真实需求和基本面,日益独立于比特币价格波动。 例如,Hyperliquid作为混合型案例,其部分合约交易已转向非加密资产。Venice等项目则完全脱离加密市场,其商业模式更接近消费级AI服务,收入来自用户为AI推理付费。Figure公司利用区块链技术提升贷款效率,其核心价值在于金融科技业务本身。 此外,稳定币等赛道的企业收购与高增长(如BVNK、Bridge),也显示了其发展与加密牛熊周期的脱钩。 这一转变意味着行业分析逻辑的根本改变:研究外生型资产需要像分析传统企业一样,专注于用户群体、经济模型和行业护城河等基本面,而非紧盯比特币价格。文章列举了多个具备潜力的外生型赛道,包括链上金融服务、AI与加密融合、新型数字银行、支付、非金融消费产品等。 目前,投资相关企业股权仍是主要途径,代币机制仍需优化。但核心趋势已定:加密市场的驱动力正变得多元,行业研究重心将从解读比特币图表转向深耕企业基本面。未来,加密市场齐涨共跌的局面或将不再。

marsbit2 小時前

脱钩时代来临,比特币不再是加密的唯一罗盘

marsbit2 小時前

在下一周期,由于更高的增长速度,这五种加密货币可能超越比特币表现

比特币主导着市场走向,但随着其市值增长,分析师普遍认为下一周期最高的百分比涨幅将来自具有更高增长潜力的资产。尽管比特币可能稳步上涨,但一些加密货币——从成熟平台到新兴的AI基础设施项目——有望实现相对于比特币的超额回报。 以下是分析师认为在百分比涨幅上可能超越比特币的五种资产,其中Ozak AI被视为本周期增长潜力最大的黑马。 **Ozak AI ($OZ)**:这是一款处于预售阶段(价格0.014美元)的AI基础设施代币,目标是上市价格达到1美元。它正在构建一个完整的AI原生区块链生态系统,包括用于AI预测的预测代理、实时数据交付网络、共享安全层、可扩展执行层以及结构化AI数据集。其极低的起始估值意味着其具备比特币难以比拟的增长倍数潜力。 **以太坊 (ETH)**:作为主导性的智能合约平台,以太坊支撑着DeFi、资产代币化和Layer-2扩展。由于其网络活动和费用生成能力以及机构采用,分析师认为其相对上涨弹性仍优于比特币的价值存储模式。 **Solana (SOL)**:其高吞吐量、低费用和不断扩展的开发者生态,使其在流动性回归时能够迅速增长。历史上SOL在风险偏好改善时展现过大幅超越比特币的能力。 **Chainlink (LINK)**:作为领先的预言机提供商,LINK处于DeFi、代币化资产乃至AI驱动区块链应用的中心。其对整个加密经济的杠杆效应使其常在扩张周期中实现强劲的百分比涨幅。 **Avalanche (AVAX)**:其子网架构和对企业友好的设计,使其在Layer-1平台中具有独特地位。随着现实世界资产代币化和机构区块链部署的增长,AVAX有望获得不成比例的利益。 **总结**:比特币的上涨需要巨大的资金流入,而像Ozak AI这样的早期阶段资产,其估值重估速度可以非常快。随着市场周期加速,资本可能轮动到以AI为重点的早期基础设施代币中,以寻求最高的增长潜力。对于寻求平衡稳定性和指数级上行潜力的投资者而言,Ozak AI可能成为增长最快的领域。

TheNewsCrypto2 小時前

在下一周期,由于更高的增长速度,这五种加密货币可能超越比特币表现

TheNewsCrypto2 小時前

交易

現貨
合約

熱門文章

如何購買4

歡迎來到HTX.com!在這裡,購買4 (4)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買4 (4)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的4 (4)購買4 (4)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易4 (4)在HTX的現貨市場輕鬆交易4 (4)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

884 人學過發佈於 2025.10.20更新於 2026.06.01

如何購買4

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 4 (4)幣價的意見。

活动图片