谷歌用 AI“杀死”谷歌,这场发布会看得人缺氧

marsbit发布于2026-05-19更新于2026-05-19

文章摘要

在2026年Google I/O大会上,谷歌发布了一系列重磅AI更新,核心是推动AI从工具向智能体(Agent)和基础设施演进。主要内容包括: 1. **Gemini Omni模型**:一个新的多模态“世界模型”,重点提升视频生成与编辑能力,能理解物理规律并将抽象概念转化为视频,未来目标是从任意输入生成任意内容。 2. **Gemini 3.5 Flash模型**:主打极速响应与低成本,代码能力大幅提升,输出速度可达其他前沿模型的4-12倍。其驱动的开发平台Antigravity 2.0可让AI智能体协同完成复杂任务(如从零构建操作系统)。 3. **AI搜索全面升级**:搜索整合Gemini 3.5,体验更连贯,并引入“信息智能体”功能,可长期跟踪特定主题信息。搜索还将能生成交互式界面来解答复杂问题。 4. **个人AI智能体Gemini Spark**:一个可24小时在云端后台运行的个人助手,能处理多步骤复杂任务(如活动策划、信息汇总),即使设备关机也能工作。 5. **Gemini App大改版**:采用新设计语言,回答内容呈现更动态交互。新增“每日简报”功能,整合邮箱、日历等信息提供个性化晨间摘要。 6. **创意与生产力工具更新**:发布了图片编辑工具Google Pics、升级了网站设计工具Stitch和视频创作工具Google Flow,全面增强AI生成与编辑能力。 7. **押注AI硬件入口**:与三星等合作,推出基于Android XR平台的智能眼镜(显示眼镜和音频眼镜),将Gemini深度集成到可穿戴设备中。 8. **商业模式转变**:文章指出,随着AI功能日益深入和复杂,其高昂的算力成本正推动谷歌从传统的免费互联网模式,转向依靠订阅服务和企业级合同盈利的“AI订阅基础设施公司”。 整场发布会信息量巨大,展现了谷歌将AI深度融入其全生态产品的决心,其商业模式的演进也成为关注焦点。

Gemini App 月活超 9 亿,月 Token 处理量每月 3200 万亿,Nano Banana 生成超过 500 亿张图片......

在今天凌晨刚刚结束的 Google I/O 大会上,Google CEO Sundar Pichai 上来就抛出了这些数字。

过去一年,AI 成了所有行业的主旋律,Gemini 在 Google 的定位,也开始从一个独一的 App,成了所有 Google 产品里的最重要的 AI 底层能力。

这次发布会也先从模型开始,进一步带到 Coding 和 Agent 产品。

Gemini Omni 把 Google 的视频生成推向「世界模型」方向,Gemini 3.5 Flash 则是和 AI 编程工具一起推向 Agent 开发平台。

这两个能力随后进入 Google 的完整生态,搜索、Gemini App、Flow、Spark、Chrome、XR 眼镜和电商场景。

Gemini Omni 登场,视频界的「Nano Banana」时刻来了

发布会最先被重点展开的是 Gemini Omni。我们做了一组和 Seedance 2.0 的对比视频,看看两者的差别。

Google 则是将 Gemini Omni 描述为一个能够「从任何输入创造任何内容」的新模型。

它把 Gemini 的推理能力与 Google 既有的生成式媒体模型结合起来,目标是提升模型对世界的理解、多模态生成能力和编辑能力。

Google 强调,Veo、Nano Banana、Genie 等模型已经能生成视频、图片和交互式模拟,但 Gemini Omni 更进一步,开始处理动能、重力等更接近物理世界的问题。

发布会现场展示的案例包括蛋白质折叠解释视频。用户只需要输入类似「生成一个关于蛋白质折叠的黏土动画解释」的提示,Omni 就能把抽象科学概念转化成视频内容。

它还支持更自然的视频编辑。用户可以上传自己的视频,再用对话方式修改风格、加入元素、调整细节,甚至把一个普通圆形转成黑洞,把夜晚散步场景变成更具戏剧感的画面。

Google 的说法是,Gemini Omni 先从视频开始,之后会逐步走向「任意输入到任意输出」。这也是 Google 一直把 Gemini 设计成多模态模型的原因。

首个 Omni 家族模型 Gemini Omni Flash 已在上线到 Google 产品中,Omni Pro 会在之后公布更多信息。Gemini App 中的 Omni 功能也面向 Google AI Plus、Pro 和 Ultra 订阅用户开放。

这意味着,Gemini Omni 不只是一个视频生成模型。Google 想把它放进「世界模型」的叙事里:模型不仅生成画面,还要理解画面中的物理关系、运动关系和场景逻辑。

在进入 Gemini App、Google Flow 和 YouTube Shorts 这些应用之后, Omni 也会让 Google 的生成式创作工具从图片编辑扩展到视频编辑。

Gemini 3.5 Flash 上线,AI 写代码进入极速模式

如果 Gemini Omni 对应的是生成和编辑,Gemini 3.5 Flash 对应的就是速度、成本和执行能力。

Google 在发布会上推出 Gemini 3.5 Flash,称它是 Gemini 3.5 系列第一批模型之一,重点面向 agentic coding、长周期任务和真实工作流。

相比 3.1 Pro,3.5 Flash 在几乎所有基准测试中提升明显,尤其是代码能力,以及 GDPVal 这类更接近真实经济任务的评测。

除了基准测试表现不错,3.5 Flash 在输出 tokens 速度上比其他前沿模型快 4 倍,在 Antigravity 中经过专门优化后,速度可达到 12 倍。

值得一提的是,今年 3 月,Google 内部开发相关任务每天处理约 5000 亿 tokens,之后每隔几周翻倍,目前已经超过每天 3 万亿 tokens。Google 把这称为一个反馈循环,用大规模真实使用继续改进 3.5 Flash。

与模型同步推出的是 Antigravity 2.0。

它从原来的 agent powered IDE,升级为一个独立桌面应用,重点转向 agent first。用户不再只是让 AI 在编辑器里辅助写代码,而是通过 Agent 对话、Agent 产物和多 Agent 协同来完成开发任务。

Antigravity 2.0 加入完整 CLI、Antigravity SDK、Gemini 音频模型原生语音支持,并集成 Android、Firebase、Google AI Studio 等服务。Antigravity 2.0 作为独立桌面应用,也已经面向全球用户开放。

Google 在现场用一个高强度演示解释 Antigravity 2.0 的方向:让 Agent 从零构建一个可运行操作系统。这个任务由 93 个子 Agent 并行执行,持续 12 小时,发起超过 1.5 万次模型请求,处理 26 亿 tokens,从空项目生成调度器、内存管理、文件系统等核心模块。

Google 称,这件事在 Gemini 3.1 Pro 上无法完成,而使用 Gemini 3.5 Flash 消耗不到 1000 美元 API credits。

现场还演示了这个系统运行 SL 小火车程序和 Doom。由于系统最初缺少视频和键盘驱动,Antigravity 又继续生成相关代码并修复,让 Doom 能够运行。Google 还称,类似方式已经测试过照片编辑套件、实时消息应用、多用户协作平台等项目,原本需要多天的工程工作被压缩到数小时甚至更短。

Gemini 3.5 Flash 已面向所有用户开放,覆盖 Google 产品和 API。Gemini 3.5 Pro 仍在内部使用和改进中,预计下个月开放。

从搜索框到信息 Agent,Google 重做 AI 搜索

模型和开发工具之后,Google 把重点转向搜索。Google 搜索也就是 AI 搜索。

Google 表示,AI Mode 已经超过 10 亿月活,查询量自推出以来每季度翻倍。

今天起,AI Mode 升级到 Gemini 3.5。新的智能搜索框也从当天开始推送。它支持文本、图片、文件和视频输入,并在用户输入问题时给出 AI 建议。

AI Overviews 和 AI Mode 也被合并成更连续的 AI 搜索体验。用户可以先在主搜索结果页看到 AI 回答,再进入 AI Mode 继续追问,上下文会被保留。这个新搜索体验已在发布会当天面向全球桌面端和移动端上线。

更大的变化是搜索 Agent。用户今年夏天将可以在 Search 中创建信息 Agent,让它持续跟踪某类信息。

例如,用户可以让它监控市盈率低于 15、现金流为正、负债较低的大型生物科技股票;也可以让它长期跟踪租房信息、球鞋联名和商品上新。当条件变化时,Agent 会给用户发送综合更新。

Google 还把 Antigravity 的 agentic coding 能力带入搜索。

之后搜索不只返回网页、摘要或卡片,也能为具体问题生成交互界面。比如用户问「黑洞如何影响时空」,Search 可以生成一个交互式视觉组件;继续追问「双黑洞如何产生引力波」,Search 会重新生成一个可调参数的动态界面。Generative UI with Antigravity 将在今年夏天面向所有用户免费推出。

更复杂的自定义体验也在路上。

Google 现场展示了一个周末计划器,Search 会结合天气、地图、用户偏好、Gmail、Calendar 等信息,生成一个可以继续修改、分享和同步日历的小型工具。这类自定义体验将在未来几个月先面向订阅用户开放。

关机也能跑,Gemini Spark 把 Agent 能力搬进个人生活

消费端最重要的新产品是 Gemini Spark。

Gemini Spark 是一个个人 AI Agent,运行在 Google Cloud 的专用虚拟机上,可以全天候执行任务。它由 Gemini 3.5 和 Antigravity harness 驱动,支持长时间后台任务。

用户关掉电脑后,Spark 仍能继续工作。它先接入 Google 自家工具,未来几周会通过 MCP 接入第三方工具。

发布会展示了 Spark 的几个典型场景。

用户可以让它汇总过去一周 Gemini Live 的发布和进展,从 Docs、Gmail 和聊天记录里提取信息,再用个人写作风格生成团队邮件。

也可以让它管理街区派对,维护 Google Sheets RSVP 表格,跟踪谁带了什么东西,给没报名的邻居生成提醒邮件草稿,并自动生成 Google Slides 宣传页。

Spark 还支持手机端语音输入。

用户可以一次说出多项任务,比如把所有与 Sundar 的会标成亮粉色,给新邻居写邀请信,创建孩子学年结束前待办文档。Spark 会把这些内容分成多个独立任务,并在后台执行,结果可以在手机和电脑之间同步。

Gemini Spark 本周面向部分测试者开放,下周以 beta 形式面向美国 Google AI Ultra 订阅用户推出。

Google 同时推出每月 100 美元的新 Ultra 计划,并把最高档 Ultra 计划从每月 250 美元降至 200 美元。

今年夏天晚些时候,Spark 将进入 Chrome,成为能在网页中执行任务的智能体浏览器。

Gemini App 大改版,还有 Google 版「AI 晨报」

Gemini App 本身也迎来了一次脱胎换骨的大改版。

Google 引入了全新的设计语言 Neural Expressive,加入流体动画、鲜艳色彩、新字体和触觉反馈。

新版 Gemini App 不再把回答呈现为大段文字,而是会根据内容实时生成更适合阅读和操作的布局,包括交互图片、时间线、嵌入式视频等。Neural Expressive 现在已经在 Android、iOS 和网页端全球推送。

Gemini Live 也被重做,打开后可以直接进入实时对话。区域口音选择将在未来几周推出。

Gemini App 还加入 Daily Brief。这是一个面向早晨使用的个性化摘要 Agent,会综合 Gmail、Calendar、Tasks 等信息,整理用户当天需要关注的事项,并给出下一步行动入口。

Daily Brief 今天起面向美国 Google AI Plus、Pro 和 Ultra 订阅用户推出。

在更大的 Gemini 叙事之外,Google 也更新了几个日常产品。

Google Maps 最近完成十年来最大升级,并加入 Ask Maps。它允许用户提出更长、更复杂的问题。例如,发布会举了一个场景:孩子掉进鸭塘,婚礼 30 分钟后开始,用户想知道哪里可以步行买到新裙子。

Docs 也获得新的语音创建能力。用户不需要输入精确提示词,可以直接用语音把想法说出来,让 Gemini 从 Drive 调取简历,从 Gmail 找到活动信息,再生成 Google Docs 草稿。这个能力将在今年夏天面向 Pro 和 Ultra 订阅用户推出,同类语音能力也会进入 Gmail。

生成能力升级后,内容来源识别也变得愈发重要。

Google 称,SynthID 推出三年来,已为超过 1000 亿张图片和视频,以及相当于 6 万年时长的音频加上不可见水印。接下来,SynthID 和内容凭证验证会扩展到 Search 和 Chrome。

用户可以通过圈选搜索,或者在 Chrome 中右键询问内容是否由 AI 生成,系统会显示内容来自 AI、相机,还是曾被生成式 AI 工具编辑。

Google 还宣布,OpenAI、Kakao 和 ElevenLabs 将采用 SynthID 2。此前英伟达已经加入 SynthID 体系。对 Google 来说,SynthID 不只是安全功能,也是争取 AI 内容透明标准的一部分。

Google 创作全家桶,开始围攻图片、设计和视频

在创意工具领域,Google 密集发布了多款重磅产品。

Google Pics 是 Google Workspace 中的新图片创建和编辑产品,面向派对海报、信息图、宣传图等场景。用户可以从一张基础图开始,删除元素、调整对象大小、编辑文字和翻译文字。Pics 生成内容会带有 SynthID 水印。Google Pics 将在今年夏天推出。

设计产品 Stitch 也迎来更新。用户可以通过一句 prompt 生成网站或应用界面,再通过文字或语音继续修改,比如放大标题、调整菜单、突出更多披萨选项。Stitch 支持把设计导出为代码,或直接发布网站,相关更新现已发布。

Google Flow 的更新尤为关注。Gemini Omni 进入 Flow 后,用户可以基于原始视频改变环境、添加视觉效果、加入新角色,同时尽量保留原有表演。

Flow 还加入新 Agent,支持一次执行多个动作。比如从单张图片生成 16 个不同机位的视频,或把一组清晨场景批量改成深夜场景。

Flow Tools 则允许用户在 Flow 中创建自己的创意工具,比如视频特效、手绘动画和文字分层工具,并支持分享和 remix。

Google Flow Music 可以把一段钢琴 riff 扩展成带风格方向的音乐 demo。Google Flow 和 Google Flow Music 的这些新功能已上线。

押注智能眼镜,Google 再闯下一代入口

硬件部分,Google 也把 Android XR 这个操作系统级平台,从头显、XR 设备,进一步扩展到智能眼镜形态。

Android XR 是 Google 与三星合作,并针对 Qualcomm Snapdragon 优化的平台。

Google 表示,AI 眼镜会分成两类:一类是带小型镜片的显示眼镜,另一类是音频眼镜。显示眼镜去年已在 I/O 展示,今年首批开发者已经开始创建显示体验,可信测试者计划将在今年晚些时候扩大。

更早上市的是音频眼镜。

首批音频眼镜将在今年秋季推出,由三星参与硬件和体验构建,Warby Parker 与 Gentle Monster 负责眼镜设计。这些眼镜连接手机,支持 Android 和 iOS。Gemini 的回答通过耳机私密播放,而不是显示在镜片上。

发布会上,演示者可以通过眼镜让 Gemini 导航到上周和朋友见面的地方,中途加入咖啡店;也可以让 Gemini 打开 DoorDash 自动下单咖啡,等待用户确认;

还可以让它总结静音消息,并把家庭晚餐写入日历。眼镜还可以与手表配合,让用户拍摄现场照片,并用 Nano Banana 生成卡通图像,再在手表上预览。

发布会最后,Gemini 的使用场景也延伸到了网络安全场景。

Google 介绍了 CodeMender。它是一个代码安全 Agent,能够自动寻找和修复关键软件漏洞。Google 将邀请一批专家测试 CodeMender API,之后会更广泛推出。

整场发布会看下来,信息量大到让人有些缺氧。只是当这些 AI 功能真正开放给几千万、几亿人使用时,一个最现实的算账问题就直接摆在了面前:这笔庞大的算力开销,Google 要怎么挣回来?

过去二十多年,Google 代表的是一种典型的免费互联网模式。用户用注意力和数据换服务,Google 用广告和分发赚钱。这套模式让 Google 成为互联网时代最强的基础设施公司。

但大模型推理的成本,和查询一次搜索结果完全不在一个量级。

长上下文记忆、多模态生成、跨应用 Agent、企业级自动化,这些能力背后都是持续运行的算力消耗。AI 越深入,Google 越难继续用「免费功能升级」的方式来消化成本。

这就是为什么整场发布会下来, Google I/O 看似讲的是体验升级,背后指向的却是订阅、企业合同、算力账单和长期服务费。

免费入口当然不会消失,因为那仍然是 Google 获取用户、数据和生态位置的基础。但在这些入口之上,Google 正在叠加一个新的智能服务层:更强的模型、更长的记忆、更深的系统权限、更复杂的任务执行,以及更稳定的企业级服务。

换言之,Google 正在从免费互联网服务公司,进一步变成 AI 订阅基础设施公司。

只是,问题也随之而来,用户愿意为搜索付费吗?通常情况下,不会。

可是,如果这是一个能替你全天候处理邮件、统筹任务、分析报表、接管智能家居,甚至还能帮你写代码开发 App 的「超级全能助理」呢?你愿意为它每月掏出几十上百美元吗?

这,正是今年 Google I/O 迫切想要验证的核心商业命题。而环顾如今狂热的市场,答案似乎早已不言而喻。

本文来自微信公众号“APPSO”,作者:发现明日产品的

相关问答

Q在谷歌I/O大会上,Gemini Omni模型被描述为何种方向的新型模型?

AGemini Omni被描述为能够“从任何输入创造任何内容”的新模型,它将Gemini的推理能力与谷歌既有的生成式媒体模型结合,旨在提升模型对世界的理解、多模态生成和编辑能力。谷歌将其定位为朝向“世界模型”方向发展的模型,不仅生成画面,还要理解物理关系、运动关系和场景逻辑。

Q与Gemini 3.5 Flash模型一同推出的主要开发工具是什么,它的核心升级方向是什么?

A与Gemini 3.5 Flash一同推出的主要开发工具是Antigravity 2.0。它的核心升级方向是从原来的AI辅助集成开发环境(IDE),转变为一个独立的桌面应用,并重点转向“agent first”。这意味着开发任务更多通过Agent对话、Agent产物和多Agent协同来完成,而不仅仅是AI在编辑器里辅助写代码。

Q谷歌推出的个人AI代理Gemini Spark有什么主要特点?

AGemini Spark是一个运行在Google Cloud专用虚拟机上的个人AI代理,其特点是能够全天候执行任务,即使用户关闭电脑,它仍能在后台继续工作。它由Gemini 3.5和Antigravity harness驱动,支持长时间后台任务和复杂的多步骤操作,并能通过MCP接入第三方工具。

Q文章提到,新版Gemini App在设计上进行了怎样的重大改变?

A新版Gemini App引入了名为“Neural Expressive”的全新设计语言,包含流体动画、鲜艳色彩、新字体和触觉反馈。它不再仅仅以大段文字呈现回答,而是会根据内容类型实时生成更适合阅读和操作的布局,例如交互图片、时间线、嵌入式视频等。

Q作者在文章结尾提出了关于谷歌AI发展核心的什么商业挑战?

A作者在文章结尾指出,强大的AI功能带来了庞大的算力开销,谷歌传统的“免费互联网服务”模式难以消化这些成本。因此,谷歌正试图转型为“AI订阅基础设施公司”,在免费入口之上叠加需要付费的智能服务层(如更强的模型、更复杂的任务执行)。文章提出的核心商业挑战是:用户是否愿意为了一个功能强大的“超级全能助理”而每月支付数十上百美元的订阅费。

你可能也喜欢

沃什上任第一天,市场给个“下马威”:预期今年加息

美联储新任主席沃什于5月22日正式就职,上任首日即面临市场严峻考验。由于伊朗冲突推高能源与运输成本加剧通胀压力,加上美联储理事沃勒同日发表强硬鹰派言论,称未来加息与降息可能性“五五开”,市场加息预期急剧升温。美债遭抛售,2年期收益率升至2月以来新高,期货市场已完全定价美联储今年将加息25个基点。 沃勒在讲话中明确表示通胀已成为政策核心“驱动力”,并支持删除政策声明中的“宽松偏向”措辞。他承认近期数据已改变其长期宽松立场,虽称油价冲击可能消退且近期未必立即加息,但也无法排除未来因通胀持续而加息的可能性。 沃什即将于6月中旬首次主持FOMC会议,压力巨大。数据显示通胀指标已升至三年来高位。分析指出,若沃什在6月会议上选择不加息,即便经济未过热,市场也可能将此解读为变相宽松,因为在不加息的情况下应对广泛通胀风险等同于政策放松。 市场预期从年初的多次降息大幅转向为目前预期加息,形成鲜明反差。尽管长端美债估值略显便宜,但分析师指出,在宏观风险未变的情况下,其收益率仍面临结构性上行压力。 沃什是在白宫宣誓就职的格林斯潘以来首位美联储主席,其独立性备受关注。特朗普曾希望其更顺从降息要求,但当前市场明确传递信号:通胀是最紧迫议题,新主席几乎没有缓冲时间。

marsbit2小时前

沃什上任第一天,市场给个“下马威”:预期今年加息

marsbit2小时前

为什么外汇稳定币始终未能起飞?

文章探讨了外汇稳定币(如欧元、日元等非美元稳定币)未能像USDT、USDC等美元稳定币一样成功发展的原因。核心观点是,直接发行锚定其他法币的现货稳定币面临巨大挑战,主要因为难以复制美元稳定币已建立的庞大网络效应、流动性、分发渠道和合规基础设施。目前所有外汇稳定币总规模仅约6亿美元,与美元稳定币的4000亿美元相比差距悬殊,导致其存在流动性脆弱、接受度低、锚定易失效等问题。 作者指出,更好的解决方案是采用“合成外汇”模式,即借鉴传统金融中广泛使用的无本金交割远期外汇交易(NDF)。用户可继续持有USDT/USDC作为底层资产,同时通过链上NDF合约获得外币敞口,使账户余额以当地货币计价。这种方法能利用现有美元稳定币的深度流动性、收益机会和全球通道,同时规避了发行多币种现货稳定币的合规与运营难题。 文章认为,合成外汇将首先在稳定币数字银行、钱包和支付平台中落地,为用户提供多币种账户体验,并支持企业进行全球支付和外汇风险管理。此外,它还能开启链上外汇套息交易等新用例,其市场规模和稳定性可能超越现有的加密基差交易产品。总之,链上外汇的未来在于合成模式而非现货发行,这将为DeFi和稳定币的大规模零售及企业采用铺平道路。

链捕手3小时前

为什么外汇稳定币始终未能起飞?

链捕手3小时前

交易

现货
合约

热门文章

如何购买PEOPLE

欢迎来到HTX.com!我们已经让购买ConstitutionDAO(PEOPLE)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买ConstitutionDAO(PEOPLE)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的ConstitutionDAO(PEOPLE)购买完您的ConstitutionDAO(PEOPLE)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易ConstitutionDAO(PEOPLE)在HTX的现货市场轻松交易ConstitutionDAO(PEOPLE)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

1.2k人学过发布于 2024.03.29更新于 2025.03.21

如何购买PEOPLE

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对PEOPLE(PEOPLE)币价的意见。

活动图片