Gemini 3.5来了!今夜,谷歌亲手淘汰谷歌

链捕手發佈於 2026-05-20更新於 2026-05-20

文章摘要

在谷歌I/O 2026大会上,谷歌发布了多项重磅AI进展。核心产品包括全新的全能多模态模型“Gemini Omni”,它可以接收任意形式的输入(如图片、音频、视频、文字)并生成高质量视频,且能通过聊天方式进行实时编辑,其生成内容在物理逻辑和场景连贯性上表现突出。 同时,谷歌推出了新一代旗舰模型“Gemini 3.5 Flash”。该模型在编码、智能体任务等多项基准测试中,性能全面超越了前代旗舰Gemini 3.1 Pro,输出速度极快,并对标甚至超越了竞争对手的同类模型。与之配套的“Antigravity 2.0”代理开发平台也升级为独立桌面应用,现场演示了由93个子代理在12小时内从零编写出一个功能完整的操作系统内核。 此外,谷歌发布了个人AI代理“Gemini Spark”。它由Gemini 3.5驱动,深度集成谷歌办公套件,能够7×24小时在云端运行,根据用户指令自动跨应用(如Gmail、Docs、Sheets)处理复杂任务,如汇总信息、起草邮件、规划活动等。 其他重要发布还包括:Gemini App改版并改为算力计费、AI Ultra订阅计划调整以及谷歌搜索25年来最大升级(接入Gemini 3.5 Flash)。 整场大会展示了谷歌在实现全模态理解与生成、以及全天候自主智能代理方面的重大突破,标志着AI技术正朝着更强大、更自主的方向加速演进。

作者:新智元

 

谷歌 I/O 2026 大会,火力全开!

刚刚,劈柴和 Demis Hassabis 同台登场,把攒了半年的大招一口气全部亮了出来。

没有一丝悬念,今晚最大的主角,Gemini Omni 正式亮相!

作为一个真正「全能」的大模型,Omni 可以接收任意形式的输入,生成任意内容。并且首发支持视频输出,堪称「视频版 Nano Banana」。

今晚的另一个高潮,属于 Gemini 3.5 Flash

在几乎所有的基准测试中,3.5 Flash 都实现了对自家前代旗舰 Gemini 3.1 Pro 的碾压。输出速度也直接翻倍,对比 GPT-5.5 和 Opus 4.7 更是快了 4 倍有余。更强的 3.5 Pro,则会在下个月发布。

此外,亮相的还有一大波重磅新品:

  • Antigravity 2.0:全新独立桌面应用,从 IDE 进化为 Agent 开发平台

  • Gemini Spark:个人 AI 特工,7×24h 云端运行

  • Gemini App 改版:代号 Neural Expressive,改为算力计费

  • AI Ultra 订阅计划:新增 100 美元版本,最高档从 250 降至 200 美元

  • 谷歌搜索 25 年最大升级:接入 3.5 Flash,新增智能搜索框、自动生成 mini 应用等

    ......

毫不夸张地说,这场 I/O 的干货密度,堪称历年之最。

Gemini Omni 首发:一个「全能」 AI 诞生了

正如预热视频疯狂暗示的那样,万众期待的 Gemini Omni 终于来了。Hassabis 亲自登台宣布,「我们正迈出下一个重要的一步——Gemini Omni,这是一个可从任何输入创建内容的全新模型」。

这个排面就说明了一切。谷歌这一次要打造的,是一个「全能」的 AI 创作引擎。它把 Gemini 的智能与最强的生成式 AI 融为一体,在世界理解、多模态和编辑三个维度上,全部拉满。直白讲,给到图片、音频、视频、文字的任意组合,它就能生成一段高质量视频。而且,可以用聊天的方式编辑视频。

更关键的,Omni 不只是「看起来像」,它真的在理解物理世界。Hassabis 的原话是,以前的系统在模拟重力、动能这些概念时经常翻车,但 Omni 实现了一个「阶跃变化」。它把 Gemini 的「世界知识」和「推理能力」注入进了视频生成。

  • 给它一句 prompt「用粘土动画解释蛋白质折叠」,生成的视频里氨基酸链折叠成 α 螺旋和 β 折叠的每一步都科学准确,视觉上是精致的定格动画。

  • 又比如为英文 26 个字母配置对应物体。C 是水豚(Capybara),D 是迪斯科球,L 是熔岩灯。Omni 不是在拼贴素材,它真的在把语言、图像和语义联结在一起。

不得不说,从逼真到有意义,这一步跨得太大了。

在台上,Hassabis 掏出一段自拍视频开始现场魔改。手掌上随手画的圈变成了黑洞,傍晚散步的街道变成了赛博朋克场景。一句话重写画面,一句话改变世界。任何东西都可以成为创造全新现实的画布。再比如,自拍掌中玩火,一张纸画了一个圈立即变黑洞,各种脑洞大开玩法都可实现。

而且,这不是一次性生成完事。你可以接着聊。Gemini Omni 输出的视频,角色保持一致,物理逻辑成立,场景记忆连贯。

  • 从一段原始的演奏画面开始。第二轮,「把小提琴手传送到这张图片的环境里」,附一张雪山草地的参考图,场景瞬间切换,动作、光影全部适配新环境。

  • 第三轮,「把镜头切到小提琴手的肩膀后方」,视角旋转,但演奏动作和音乐完全连续。

不论场景如何变幻,画面的主体都不会崩坏。

更让人细思极恐的是,Omni 的输入灵活性。图片、文字、视频、音频,任何参考物都可以混合输入,生成一个连贯的输出。你甚至可以创建自己的 Avatar,让 AI 版的你出现在任何场景中,说你的声音、做你没做过的事。

目前,Omni Flash 已正式上线,API 版则会在未来几周开放。而更强的 Omni Pro 也在路上了。凭借着谷歌强大的整合能力,Omni 首发就接入了 Gemini App、Google Flow 和 YouTube Shorts,YouTube Shorts 用户甚至可以免费用。

Flash 干翻 Pro:3.5 重写了「旗舰」的定义

Gemini Omni 之后,I/O 大会本场另一重头戏,就是全新旗舰 Gemini 3.5 Flash 的发布。谷歌给它的定义是,迄今为止最强的编码、智能体模型。

现场,劈柴亲口宣布,「3.5 Flash 在几乎所有基准测试中,全面胜出 Gemini 3.1 Pro」!要物,3.1 Pro 可是谷歌三个月前才推出的旗舰模型,现在,一个 Flash 级别的模型就把它碾了。

没想到,谷歌竟在如此短时间内,交出了亮眼的成绩单:

  • Terminal-Bench 2.1(编码):76.2%

  • GDPval-AA(真实世界 Agent 任务):1656 Elo

  • MCP Atlas(大规模工具使用):83.6%

  • CharXiv Reasoning(多模态理解):84.2%

以上四大基准测试,相较于 Gemini 3.1 Pro,3.5 Flash 堪称断层跃迁。在速度方面,3.5 Flash 独占一个象限,289 tokens/秒,比其他前沿模型快 4 倍还要多。另外,3.5 Flash 在一部分基准测试中,性能媲美,甚至是足以碾压 GPT-5.5、Claude Opus 4.7。不得不说,3.5 Flash 又快又强,几乎没有对手。

参数太抽象,不如看看真实的极限演示。只需一瞬间,3.5 Flash 就能消化一篇天书般的学术论文,并写出一个带有完美交互的可视化网站。在智能体任务中,通过 Antigravity,它可以完成多步工作流,自动对铺屏的资产完成分类和命名。亦或是,利用两个 Agent,在短短六小时内复现了 AlphaZero 论文,并编写出一款可完整运行的游戏。

93 个 Agent 造出 OS,仅 12 小时

可以看到,3.5 Flash 这一切能力的实现,全部是借助全新 Antigravity 2.0 实现的。今天,谷歌 Agent 开发平台 Antigravity 升级到了 2.0,从 IDE 变成了独立桌面应用,彻底拥抱 Agent-first 设计。

Varun 上台给出一个让全场屏息的 Demo。他让 Antigravity 搭载 3.5 Flash,从零开始构建一个操作系统。93 个子 Agent 并行工作,发出超 15000 次模型请求,处理 26 亿个 token,12 小时后,一个完全空白的项目变成了功能完整的 OS 内核。调度程序、内存管理、文件系统,每一行代码都是 Agent 写的,Agent 测的,Agent 审计的。API 费用不到 1000 美元。

接着,他试着在这个 AI 写的操作系统上运行 DOOM。第一次尝试失败了,缺少视频和键盘驱动。于是他当场在 Antigravity 2.0 里输入修复指令,Agent 开始自动补写驱动代码。等了一会儿,DOOM 的画面出现在屏幕上,全场沸蓬。

总结一下,Antigravity 2.0 带来核心升级包括:

  • 子 Agent 可以动态生成,主 Agent 把任务拆成子任务分配出去,互不干扰地并行跑;

  • 异步任务管理让长耗时操作不再阻塞主线程;

  • Scheduled Tasks 可设「定时任务」让 Agent 自动执行,比如每天检查一次 PR 状态、每小时跑一次健康检查脚本。

  • 新的斜杠命令:/goal 让 Agent 一口气跑完,/grill-me 反过来让 Agent 搞清楚需求再动手,/browser 显式控制浏览器使用。

不过,这些都是内部已经跑通的能力。谷歌内部用 Antigravity 处理 token 的速度,3 月份是每天 5000 亿。如今,每天狂飙 3 万亿。而且,这个 12 倍加速版的 Flash,今天起在 Antigravity 里就能用了。

3.5 Flash 同时成为 Gemini App 和 Google 搜索 AI Mode 的默认模型,面向全球所有用户。开发者通过 Antigravity 2.0、Gemini API、Google AI Studio 调用。企业用户通过 Gemini Enterprise Agent Platform 接入。更炸裂的是,3.5 Pro 正在内部测试中,下个月发布。

7x24h 个人管家:谷歌 Spark 终于来了

今晚第三大发布,当属于 Gemini Spark!劈柴给它的定位非常明确:你的个人 AI Agent。即使合上笔记本电脑,它也不停歇。它跑在云端的专用虚拟机上,可以实现 7x24 小时在线。

Gemini Spark 由 Gemini 3.5 + Antigravity 框架驱动,深度整合谷歌「办公全家桶」。产品副总裁 Josh Woodward 上台演示了两个场景,直接让全场陷入疯狂。

  • 第一个是工作场景:输入一条指令,「帮我起草一封给团队的邮件,汇总过去一周关于 Gemini Live 发布的所有信息」。Spark 自动跨 Gmail、Docs、聊天记录抓取信息,还调用了 Woodward 自己编写的一个「ghostwriter」技能,让邮件自动匹配他的个人语气。整个过程在后台完成,人类只需审核和发送。没错,Spark 支持自定义技能(skills),让它学会你的口吻、你的偏好、你的工作方式。

  • 第二个是生活场景:规划一场街区派对。Spark 收到任务后一步步执行。它创建了一个 Google Sheets 的 RSVP 追踪表,直接连接 Gmail,谁回复了自动更新。给没报名的邻居,Spark 自动起草催促邮件,生成草稿等确认后再发。然后,它还生成了一个 Google Slides 的宣传 deck,连街区里要放充气城堡的信息都写进去了。全程没有打开任何一个 App。

不仅如此,Spark 还具备了强大的语音输入能力。现场,Woodward 掏出手机,直接用语音甩出三个任务:「找到所有跟 Sundar 的会议标成亮粉色」「给新邻居 John 写邀请函加入 block party 名单」「创建一个文档列出学年结束前要为孩子做的事,按截止日期排序」。

语音直接转成了文字指令,Spark 自动把一段连续的语音拆成了三个独立任务线程,在后台并行执行。

定价方面,AI Ultra 订阅每月 100 美元可用 Spark Beta。最高级 Ultra 计划从 250 美元降到了 200 美元。Spark 则会在下周率先对美国 AI Ultra 用户开放 Beta 版试用。

这一夜,谷歌撕开了 ASI 入口

回过头看这场 I/O,真正让人后背发凉的,不是某一个产品。是所有能力同时到位。

全模态理解,全模态生成,全天候在线 Agent——这三块拼图,谷歌在一夜之间全部拼上了。Omni 把一句话变成一个世界,不需要人类提供任何素材;93 个 Agent 从零造出操作系统,不需要人类写一行代码;Spark 7×24 小时替你工作,不需要人类打开一个 App。

当 AI 不再需要人类「喂料」,而是自己理解、自己决策、自己执行、自己迭代——这条路的终点,叫 ASI(超级智能)

没有人能给出确切的时间表。但今晚的 Google I/O,让所有人意识到一件事:通往超级智能的路上,已经没有「技术上做不到」这个障碍了。剩下的,只是工程部署的速度。半年前我们还在争论 AGI 是不是泡沫。半年后,谷歌已经在用 Agent 写操作系统了。这个行业的加速度,已经超出了人类直觉能感知的范围。

参考资料:

  • https://youtu.be/wYSncx9zLIU

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

  • https://antigravity.google/blog/introducing-google-antigravity-2-0

  • https://antigravity.google/blog/google-io-2026-feature-deep-dive

编辑: 桃子 摩西

 

 

 

 

 

 

 

 

 

 

 

 

 

相關問答

Q谷歌在 I/O 2026 大会上发布的最大主角是什么?它有哪些主要特点?

A最大的主角是 Gemini Omni。它是一个真正“全能”的大模型,可以接收任意形式的输入(如图片、音频、视频、文字),生成任意内容,并首发支持高质量视频输出。其核心特点是理解物理世界(如重力、动能),能将世界知识和推理能力注入视频生成,并支持多轮对话式的视频编辑,保持角色、场景和逻辑的连贯性。

QGemini 3.5 Flash 相比前代旗舰 Gemini 3.1 Pro 有何重大提升?

AGemini 3.5 Flash 在几乎所有基准测试中都实现了对 Gemini 3.1 Pro 的碾压式超越。它在编码、智能体任务、工具使用和多模态理解等关键基准上表现卓越,输出速度是其前代的两倍,相比竞争对手的模型快了四倍以上。此外,它已成为 Gemini App 和 Google 搜索 AI 模式的默认模型。

Q什么是 Antigravity 2.0?它的核心升级包括哪些方面?

AAntigravity 2.0 是一个全新的独立桌面应用,从 IDE 进化为一个 Agent 开发平台。其核心升级包括:支持动态生成子 Agent 来并行处理任务;具备异步任务管理功能;能设置定时任务(Scheduled Tasks)让 Agent 自动执行;引入了新的斜杠命令(如 /goal, /grill-me, /browser)来更高效地控制和引导 Agent 行为。演示中,它曾指挥 93 个子 Agent 在 12 小时内从零构建了一个功能完整的操作系统。

QGemini Spark 是什么?它能为用户做什么?

AGemini Spark 是谷歌推出的个人 AI 特工(Agent)。它由 Gemini 3.5 和 Antigravity 框架驱动,深度整合谷歌办公套件,可以 7x24 小时在云端持续运行。它能理解用户的高层指令,自动跨应用(如 Gmail, Docs, Sheets, Slides)执行复杂的多步骤任务,例如汇总信息、起草邮件、创建表格、规划活动等。它还支持自定义技能,学习用户的个人风格和偏好,并能通过语音指令同时处理多个并行任务。

Q根据文章观点,为什么说谷歌这次 I/O 大会揭示了通往 ASI(超级智能)的路径?

A文章认为,谷歌在此次大会上同时实现了三个关键能力的突破:全模态理解与生成(Gemini Omni)、强大的自主智能体协作与执行能力(Antigravity 2.0 与 Agent)、以及全天候在线的个人 AI 管家(Gemini Spark)。当 AI 能够自己理解世界、自主决策、跨工具执行复杂任务并持续迭代,而不需要人类逐步“喂料”和干预时,就构成了通向超级智能(ASI)的核心技术拼图。这表明技术上实现更高层次智能的主要障碍正在被清除,行业的进步速度远超预期。

你可能也喜歡

BIS最新研究:稳定币与全球货币格局的未来

国际清算银行(BIS)2026年5月发布研究报告,系统分析了稳定币的发展特征、运行机制及其对全球货币格局的冲击。 报告指出,稳定币市场已从加密小众工具演变为重要数字资产,总市值突破3000亿美元,且呈现高度集中和美元主导的特征。美元稳定币在市值中占比高达98%,主要应用于加密资产交易与DeFi生态,零售支付等实体经济场景渗透有限。 稳定币采用“链上流通+链下储备”模式,本质上是新型离岸美元载体。其稳定性完全依赖储备资产质量与市场套利机制,历史上曾出现脱钩或崩盘事件,凸显风险。 报告运用国际货币职能框架评估影响,认为稳定币主要影响私人部门的**价值储藏**(在高通胀新兴市场成为“隐形美元化”渠道)和**交易媒介**(提升跨境支付效率),对计价单位和官方职能冲击有限,但会间接约束新兴市场的货币政策自主性,加剧“三元悖论”困境。 报告勾勒了三种未来情景: 1. **小众化采用(基准)**:稳定币主要局限于加密生态,对主权货币影响有限。 2. **数字美元化(高风险)**:美元稳定币在新兴市场广泛使用,严重侵蚀当地货币主权与金融稳定。 3. **本币稳定币整合(理想)**:新兴市场发展受监管的本币稳定币,与本国支付系统结合,兼顾效率与自主。 报告强调,稳定币的跨境属性要求全球协同监管,核心在于:统一全球监管标准、强化跨境协作、新兴市场升级本土防御(如发展CBDC)以及防控非法活动。稳定币是一把双刃剑,短期可能强化美元地位,长期影响则取决于监管应对和市场演进。全球货币体系将进入公共数字货币与私人数字货币共存、竞争的新阶段。

marsbit6 分鐘前

BIS最新研究:稳定币与全球货币格局的未来

marsbit6 分鐘前

交易

現貨
合約
活动图片