谷歌最新「香蕉」AI 图像模型，让网友疯玩「Vibe Photoshoping」

深潮发布于2025-08-29更新于2025-09-01

高度的角色一致性，带来了前所未有的「Vibe Photoshoping」体验。

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗？当时在 LMArena 大语言模型竞技场里，它凭借出色表现一度被讨论得沸沸扬扬。Google Gemini 各路技术大牛也是轮番出马，在社交媒体上吊足众人胃口，甚至一度成为了传闻中的 Gemini 3.0 Pro。

如今，Google 终于揭开了它的神秘面纱。

北京时间 8 月 27 日凌晨，Google AI Studio 正式发布了 Gemini 2.5 Flash Image（代号 nano banana）🍌。

预热许久终于登场的 Gemini 2.5 Flash Image ｜图片来源：极客公园

这是迄今为止 Google 最先进的图像生成与编辑模型，不仅速度快得离谱，几乎是「闪电般」的体验，还在多个榜单上拿下了 SOTA 的成绩，在 LMArena 上更是遥遥领先。

一登场就达到 SOTA 能力的 Gemini 2.5 Flash Image ｜图片来源：LMarena.ai

在技术博客里，Google 提到 Gemini 2.0 Flash 已经凭借低延迟和高性价比赢得了开发者的青睐，但用户们一直期待更高质量的图像和更强大的创作控制。Gemini 2.5 Flash Image 正是带着这些重磅升级而来：角色一致性终于得以充分保持，基于提示的图片编辑也更精准，多幅图像的融合效果自然流畅，再加上对现实世界知识的理解，让它不仅是一款模型，更像是为下一代爆款应用奠定基础的「原点」。

极客公园也在第一时间体验了它。出乎意料的是，这不仅仅是一个模型更新，它让人第一次真切地感觉到，AI 修图未来的样子已经近在眼前。

Google AI Studio 中目前已经开放体验｜图片来源：极客公园

一开始，我的确只是抱着常规体验、「看看新模型又快在哪」的心态。可没想到，短短几个小时的体验，让我仿佛提前窥见了下一代爆款应用的模样。

过去我们习惯了美图秀秀这样的工具，点点按钮、套个滤镜，照片就能迅速变美。但 Gemini 2.5 Flash Image 给人的感觉完全不同。它快得不可思议，聪明得像个懂你心思的设计师，你只需要说出想要的效果，它就能在几秒钟里把画面呈现出来。

除了效果，速度也是 Gemini 2.5 Flash Image 另一个明显不同于此前模型生图产品的体验｜图片来源：极客公园

01 极速生成，几秒钟出结果

Nano banana 体验最直观的就是速度。以往在使用一些开源模型时，哪怕你电脑配置不错，从输入提示到生成一张像样的图，也得等个几十秒甚至更久。对于手机端用户来说，这个等待过程更是煎熬。

但 Gemini 2.5 Flash Image 把这个门槛直接拉低到了几秒钟的级别。它本身是 Google 宣称的「最新、最快、最高效」的原生多模态模型，在优化上明显下了很大功夫。我在实际测试时，输入一句提示，大概三四秒就能生成结果，而且分辨率和细节都相当清晰。

这种体验很像我们日常用美图秀秀处理照片：点一下「美颜」按钮，几乎是即时见效。区别在于，美图秀秀是用算法套现成滤镜，而 Gemini 2.5 Flash Image 是在从零构建一张图，或者把一张照片按你的需求进行大幅改造。这种「指哪打哪」的爽感，是以往繁琐的 P 图流程完全不可想象的。

类似这种「删除路人背景」的需求，只需要一个 Prompt 就能解决｜图片来源：极客公园

如果说速度解决的是传统 P 图用户的体验感，那么「原生多模态」解决的就是 AI图片能力边界。

Gemini 2.5 Flash Image 不仅能生成图片，还能同时理解文字和图像输入。这意味着我可以把一张照片和一段文字提示同时给它，它会结合两者的信息去理解我到底想要什么。

举个例子，我上传了一张在街头拍的照片，然后告诉它「把背景改成东京新宿的夜景」。结果它不仅识别出了我上传照片里的主体，而且准确地把人抠出来，背景替换成了霓虹灯闪烁的新宿街头。更难得的是，它还保持了人物光影的统一，完全没有人手抠图经常无法避免的那种「硬抠贴」的效果。

这种理解力让我想起近几年手机厂商在系统自带相册中经常被提到的一个功能——「一键换背景」。但区别在于，当年的换背景常常边缘发虚、光影不对，效果很假。而现在，Gemini 2.5 Flash Image 能用世界知识和视觉理解来补足这些细节，结果自然得多，获得了远比传统文生图/图生图模型工具更准确的画面细节保留。

原图 & Gemini 2.5 Flash Image 生成效果｜图片来源：极客公园

这也是为什么我觉得它会重新定义修图体验：不再是依赖大量手工调整，而是靠模型的自然语义理解来「大力飞砖」式的完成任务，例如在人像 P 图这种对画面细节要求极高的场景。

对于这种人像图片处理需求，Gemini 2.5 Flash Image 的角色一致性真的提供了一种前所未有的「Vibe Photoshoping」体验。

一秒帮程序员「挽尊」｜图片来源：极客公园

这种体验打破了很多人对 AI 图像生成以往印象 —— 「玄学」：无论你提示词写得好，出图效果惊艳；提示词写得一般，生成的东西可能完全跑偏。

但在 Gemini 2.5 Flash Image 里，我发现这种「玄学感」被削弱了很多。它对提示词的理解更精准，也更贴近用户的直觉—— 这就是为什么不少人会突然觉得它会好用很多的原因。

比如我对它说「模糊背景，突出前景人物」，几秒钟后生成的图正是我想要的效果；我让它「把照片里的人换成微笑的表情」，结果不仅嘴角微微上扬，连眼神都做了调整，细节非常到位；我甚至试过「给黑白照上色」，结果输出的彩色图并不是乱涂一气，而是尽可能贴近历史照片中该有的色彩氛围。

这种「说到做到」的能力，让我想到过去用美图秀秀时，明明只是想磨皮，结果整张脸变成了「开了十级美颜」的假人脸。而现在，Gemini 2.5 Flash Image 的操作是精准的、克制的，它真的理解你要什么，然后尽量还原。

02 能力加强，旦用难回

为了更直观，我特意拿它和我日常常用的移动端修图工具做了对比。

在 Snapseed 上，我如果要模糊背景，通常需要花一两分钟手动圈选前景区域，再调整模糊程度。即使操作熟练，也免不了反复修改。

在美图秀秀上，虽然有一键背景模糊功能，但经常会把人物的边缘模糊掉，效果不够自然。

而在 Gemini 2.5 Flash Image 上，我只需要一句话，它自动识别出人物和背景的边界，模糊效果自然，完全不需要二次修饰。

在更改画面中细节的同时，仍然对其他背景部分避免了此前 AI 工具经常出现的「乱涂乱画」｜图片来源：Twitter

这种对比其实说明了一点：Gemini 2.5 Flash Image 把用户从复杂操作中解放了出来，把更多的工作交给了模型。对于普通人来说，它降低了修图的门槛；对于专业人士来说，它节省了大量时间。

体验下来，我最大的感受是，Gemini 2.5 Flash Image 已经不再只是一个修图工具，而是更接近「智能助手」。

过去，我们用美图秀秀，是在使用一个预设好的功能合集，滤镜、美颜、马赛克，每一个按钮对应一个功能。你要做的就是一点点选择、一步步调整，直到满意。

而现在，Gemini 2.5 Flash Image 的逻辑完全不同。它不再要求你学习工具的逻辑，而是直接理解你的需求。你只要说出来，它就替你完成。

这种转变看似细微，但实质上完全改变了 P 图这个流程的关系。以前是我们去适应工具，现在是工具来适应我们。这种交互方式，本身就是下一代应用形态的雏形。

站在现在来看，Gemini 2.5 Flash Image 还处在早期阶段，功能上可能还有边界。但它展现出来的速度、理解力和还原度，足以让人对未来充满想象。

如果把它和美图秀秀结合起来，会是什么样子？可能是你打开应用，对着手机说一句「帮我修一下这张照片，让皮肤自然一些」，几秒钟后结果就生成了；可能是旅行拍照时，你告诉它「把天气改成晴天」，照片立刻变成阳光明媚的样子；甚至可能是视频编辑里，你用一句话就能改变整个片段的氛围。

这种方式未来可能会迅速成为手机操作系统中的主流图片编辑功能｜图片来源：Twitter

这就是为什么我觉得它会迅速革命 P 图工具领域现有的操作流程，定义下一代「美图秀秀」：不仅仅是修图，而是重新塑造图像处理的交互方式，让 AI 成为你的摄影后期伙伴。

但目前 Gemini 2.5 Flash Image 还并不能一步到位，充当开箱即用的大众 P 图 App：不仅是因为它的主要目的仍然是图像生成而非在现有的基础上微调，而且所有通过 Gemini 2.5 Flash Image 创建或编辑的图像都会包含一个SynthID 数字水印，用于社交内容平台识别 AI 生成内容。

03 爆款的爆发点

回头想想，美图秀秀曾经之所以能成为全民应用，靠的是它用最简单的方式解决了所有人都想解决的问题——让照片更好看。

而 Gemini 2.5 Flash Image，正是在这个基础上进一步，把复杂的 AI 能力打磨成人人都能用的「秒出图」体验。

当我第一次对它说出「帮我模糊一下背景」，几秒后画面就被自然处理好的那一瞬间，我心里很清楚：这是爆款应用的爆发原点。它不仅仅是一个模型，而是未来无数新产品的底层能力。

前几年在手机用户之间爆火的 AI 一键换天功能｜图片来源：vivo 社区

也许几年后，我们会忘记 Banana 这个代号，但会看到越来越多这种让你「想要什么就说出来，立刻就能实现」的新体验的图片处理工具，也许会像当年的美图秀秀一样，成为一代用户的共同记忆。

只不过这一次，AI 会把想象力推得更远。

你可能也喜欢

早报 | Coinbase 与渣打银行合作扩展多币种法币通道；Sharplink 与 Forward 将纳入罗素指数；摩根大通将来或许会发行稳定币

**加密货币市场重要资讯摘要：** 过去24小时内，加密货币领域动态频发，监管、合规与市场发展并重。 **机构与合作进展：** * Coinbase宣布与渣打银行合作，将为其Prime平台机构客户扩展澳元、新加坡元、加元等多币种法币通道，以提升全球资本效率。 * 摩根大通首席执行官杰米·戴蒙表示，摩根大通未来或许会发行稳定币。 * Falcon Finance与Anchorage Digital Bank合作推出面向机构的合规稳定币fUSD，该产品符合相关法案框架，由美国国债等资产支持。 **市场动态与观点：** * 采用加密资产储备策略的公司Sharplink与Forward Industries将被纳入罗素2000和3000指数，为传统指数投资者提供间接的ETH和SOL敞口。 * 彭博社分析师指出，香港市场上一只2倍杠杆的SK海力士ETF年内资产规模暴增约10倍，已成为当地第三大ETF，成交活跃。 * Fundstrat联合创始人Tom Lee表示，坚信加密市场超级周期即将到来，以太坊将受益于华尔街资产代币化和AI Agent两大趋势。 * 知名交易员Killa指出，从历史经验看，当前市场亏损期的持续时间可能尚不足以确认熊市底部，市场或需更长时间筑底。 * 韩国虚拟资产市场交易额相对疲软，已降至韩国综合股价指数(KOSPI)交易额约8%的水平，比特币“韩国溢价”指标持续为负。 **监管与合规动向：** * 香港金融管理局针对内地投资者在港开立投资账户推出三项新监管措施，包括核查自2023年1月以来使用可疑或伪造文件开设的账户、清理长期无活动的“僵尸账户”，以及要求新开户者声明资金来源为境外合法所得。 * 去中心化预测市场平台Polymarket正计划推动用户进行身份验证(KYC)，以应对日益增长的监管与制裁合规压力。 * 投资银行TD Cowen分析指出，由于美国政治环境变化，关键的加密市场结构法案(CLARITY Act)在今年通过的可能性正在降低。 * 中国最高人民法院表示，将研究虚拟货币、跨境金融等新型案件的裁判规则，并计划制定涉内幕交易、操纵市场民事赔偿的司法解释。 * 最高法还提及，将研究制定涉人工智能案件和数据产权司法保护的规范性文件。 **行业观察与创新：** * 福布斯报道指出，去中心化衍生品平台Hyperliquid上线SpaceX永续合约，引发了关于私人公司估值在缺乏监管框架下被链上市场“定价”的争议。 * a16z crypto发表观点称，目前许多所谓的“代币化”实践实际上更接近“数字化”，并未充分解锁链上可组合性的价值，大部分代币化资产并未活跃用于DeFi。 * 以太坊联合创始人Vitalik Buterin表示，将不再撰写常规博文，转而尝试创作关于去中心化治理主题的科幻小说。 **热门Meme币榜单（截至5月28日09:00）：** * **ETH链前五：** HEX、SHIB、LINK、PEPE、mUSD * **Solana链前五：** TROLL、SAOS、neet、WORLDCUP、Buttcoin * **Base链前五：** toby、ELSA、cbETH、CYPR、ALB **值得阅读的文章：** * 《Bankless创始人：为什么我卖掉了所有的ETH》：作者阐述其作为以太坊长期支持者，决定清仓ETH的深层原因。 * 《谁能在Agents时代赚到钱？》：探讨当区块链的主要用户从人类转向AI智能体(Agents)时，价值捕获模式可能发生的变化。

链捕手5分钟前

早报 | Coinbase 与渣打银行合作扩展多币种法币通道；Sharplink 与 Forward 将纳入罗素指数；摩根大通将来或许会发行稳定币

链捕手5分钟前

坐拥万亿市场，房地产代币化为何火不起来？

房地产代币化虽被视作革新房地产投资的突破口，理论上能降低门槛、提升流动性，但在现实中进展缓慢，在全球房地产市场中占比不足0.1%。其核心问题并非技术，而是缺乏完善的法律、运营与合规体系，导致代币未能成为具备公信力的金融产品。早期发展过于聚焦技术而忽略了投资者对资产信任的需求，导致产品所有权模糊、流动性仅停留在理论层面。基础设施存在明显短板，如缺乏具备法律效力的所有权框架、合规的流转机制以及与现有金融体系的互通，这些都需要大量时间、专业资源和监管配合。机构投资者因此持观望态度，主要由于规则模糊、权益不明，且现有传统投资渠道已相对成熟。理想的成熟模式应具备低起投门槛、透明收益分配和真实二级市场流动性，但目前此类案例寥寥。近期出现积极苗头，如阿联酋等地区监管逐步明晰，部分企业开始推出合规产品，行业讨论重心也转向解决资产所有权等核心问题。但房地产代币化的价值在于优化投资效率，而非创造新收益，它必须证明具备真实经济优势才能吸引主流资本。未来行业将比拼实际运营成果而非发行数量，需依靠规模化合规平台和可审计的记录来赢得机构信任。技术已非瓶颈，基础设施与合规体系才是关键，其完善程度将决定这一愿景能否实现。

marsbit10分钟前

marsbit10分钟前

大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

大模型在各种考试中表现优异，却被一篇新论文指出离真正的通用人工智能（AGI）更远了。目前业界对AGI缺乏公认定义，导致目标模糊。学者Michael Timothy Bennett提出新观点，认为真正的AGI不应以模仿人类为标准，而应是在有限计算、记忆和能量资源下，能像“人工科学家”一样广泛、高效、科学地适应新环境和发现新知识的系统。他指出当前大模型本质是“规模最大化近似”，依赖海量数据记忆答案，缺乏真正的因果理解和主动探索能力。例如，模型可能因文本概率而错误比较“9.11和9.9”。真正的AGI需具备三大关键能力：从被动响应变为主动实验者；从学习相关性到理解因果关系；在资源限制下动态平衡“探索新知”与“利用已知”。论文将构建智能的元方法分为三类：主流的规模最大化、追求简洁的简单性最大化，以及弱化约束让系统自寻最优解的约束弱化最大化。Bennett认为，单靠堆参数的路线无法实现AGI，未来需要多种方法融合。若“人工科学家”标准被接受，AI发展将迎来范式转移：评估重点将从刷榜考试分数，转向测试其在未知环境中的适应与发现能力；技术路线也将从单纯追求规模，转向融合因果推理、主动学习等多维能力的发展。这提示AGI的实现并非现有技术的线性延伸，而是一次根本性的路线重置。

marsbit1小时前

marsbit1小时前

教皇发布首份AI通谕：4万字10个观点，AI焦虑被说透了

2026年5月，教皇良十四世发布了天主教会首份关于人工智能的通谕《Magnifica Humanitas》。这份四万余字的文件并非技术指南，而是一份道德框架，旨在探讨AI时代下的人类价值与挑战。通谕的核心观点认为，技术并非中立，其发展与应用深刻反映了构建者的价值观与利益。AI已悄然融入日常决策系统（如内容推荐、招聘匹配），但其内部运作机制甚至开发者也难以完全解释。关键问题在于技术权力的集中：少数大型私营机构掌控着算力、数据和平台，可能加剧数字鸿沟。通谕指出了AI带来的具体焦虑：在就业、医疗、司法等领域，自动化决策需要透明与人工监督；AI生成内容的能力可能大规模制造虚假信息；AI伴侣虽满足情感需求，却无法承担真实关系中的责任。此外，通谕强调，AI教育不应只停留在工具使用，更需培养批判性思维；AI重塑劳动时，工作不应仅被视为效率问题，更是人发展能力、参与社会的途径。对于致命或不可逆的决定，人类必须保留最终判断与责任。最终，通谕将AI的挑战定义为“人类学挑战”。当AI能够模拟创造、判断甚至关系时，人类必须重新审视自身不可替代的价值——即承担真实责任、拥有自由意志与面对脆弱的能力。这份通谕并非提供解决方案，而是将一套道德话语引入全球关于技术未来的讨论之中。

marsbit1小时前

marsbit1小时前

比特币主力抛售超十亿，散户狂热依旧

比特币市场近期出现显著分化。以贝莱德为首的机构大户正进行大规模抛售，而散户情绪依然高涨。数据显示，贝莱德旗下iShares比特币信托上周通过关联钱包持续卖出，总金额约10.1亿美元，且赎回潮已延续至本周，导致该信托资产管理规模在不到三周内从峰值下降约80亿美元。与此同时，一个比特币创世时期的矿工钱包将价值约2.03亿美元的2650枚BTC转移至两个大型场外交易平台，显示出长期持有者也在活动。尽管机构持续抛售造成压力，比特币价格仍顽强坚守在7.6万美元关口上方。市场分析指出，这反映出抛售压力已被强劲的买方需求所吸收。社交媒体上散户“逢低买入”的呼声很高，形成了与机构流出相反的购买力量。当前市场的核心矛盾在于：大量供给正在释放，但价格并未崩溃，究竟是谁在承接这些抛盘，成为市场关注的焦点。

bitcoinist4小时前