Gemini 3.5来了!今夜,谷歌亲手淘汰谷歌

链捕手发布于2026-05-20更新于2026-05-20

文章摘要

在谷歌I/O 2026大会上,谷歌发布了多项重磅AI进展。核心产品包括全新的全能多模态模型“Gemini Omni”,它可以接收任意形式的输入(如图片、音频、视频、文字)并生成高质量视频,且能通过聊天方式进行实时编辑,其生成内容在物理逻辑和场景连贯性上表现突出。 同时,谷歌推出了新一代旗舰模型“Gemini 3.5 Flash”。该模型在编码、智能体任务等多项基准测试中,性能全面超越了前代旗舰Gemini 3.1 Pro,输出速度极快,并对标甚至超越了竞争对手的同类模型。与之配套的“Antigravity 2.0”代理开发平台也升级为独立桌面应用,现场演示了由93个子代理在12小时内从零编写出一个功能完整的操作系统内核。 此外,谷歌发布了个人AI代理“Gemini Spark”。它由Gemini 3.5驱动,深度集成谷歌办公套件,能够7×24小时在云端运行,根据用户指令自动跨应用(如Gmail、Docs、Sheets)处理复杂任务,如汇总信息、起草邮件、规划活动等。 其他重要发布还包括:Gemini App改版并改为算力计费、AI Ultra订阅计划调整以及谷歌搜索25年来最大升级(接入Gemini 3.5 Flash)。 整场大会展示了谷歌在实现全模态理解与生成、以及全天候自主智能代理方面的重大突破,标志着AI技术正朝着更强大、更自主的方向加速演进。

作者:新智元

 

谷歌 I/O 2026 大会,火力全开!

刚刚,劈柴和 Demis Hassabis 同台登场,把攒了半年的大招一口气全部亮了出来。

没有一丝悬念,今晚最大的主角,Gemini Omni 正式亮相!

作为一个真正「全能」的大模型,Omni 可以接收任意形式的输入,生成任意内容。并且首发支持视频输出,堪称「视频版 Nano Banana」。

今晚的另一个高潮,属于 Gemini 3.5 Flash

在几乎所有的基准测试中,3.5 Flash 都实现了对自家前代旗舰 Gemini 3.1 Pro 的碾压。输出速度也直接翻倍,对比 GPT-5.5 和 Opus 4.7 更是快了 4 倍有余。更强的 3.5 Pro,则会在下个月发布。

此外,亮相的还有一大波重磅新品:

  • Antigravity 2.0:全新独立桌面应用,从 IDE 进化为 Agent 开发平台

  • Gemini Spark:个人 AI 特工,7×24h 云端运行

  • Gemini App 改版:代号 Neural Expressive,改为算力计费

  • AI Ultra 订阅计划:新增 100 美元版本,最高档从 250 降至 200 美元

  • 谷歌搜索 25 年最大升级:接入 3.5 Flash,新增智能搜索框、自动生成 mini 应用等

    ......

毫不夸张地说,这场 I/O 的干货密度,堪称历年之最。

Gemini Omni 首发:一个「全能」 AI 诞生了

正如预热视频疯狂暗示的那样,万众期待的 Gemini Omni 终于来了。Hassabis 亲自登台宣布,「我们正迈出下一个重要的一步——Gemini Omni,这是一个可从任何输入创建内容的全新模型」。

这个排面就说明了一切。谷歌这一次要打造的,是一个「全能」的 AI 创作引擎。它把 Gemini 的智能与最强的生成式 AI 融为一体,在世界理解、多模态和编辑三个维度上,全部拉满。直白讲,给到图片、音频、视频、文字的任意组合,它就能生成一段高质量视频。而且,可以用聊天的方式编辑视频。

更关键的,Omni 不只是「看起来像」,它真的在理解物理世界。Hassabis 的原话是,以前的系统在模拟重力、动能这些概念时经常翻车,但 Omni 实现了一个「阶跃变化」。它把 Gemini 的「世界知识」和「推理能力」注入进了视频生成。

  • 给它一句 prompt「用粘土动画解释蛋白质折叠」,生成的视频里氨基酸链折叠成 α 螺旋和 β 折叠的每一步都科学准确,视觉上是精致的定格动画。

  • 又比如为英文 26 个字母配置对应物体。C 是水豚(Capybara),D 是迪斯科球,L 是熔岩灯。Omni 不是在拼贴素材,它真的在把语言、图像和语义联结在一起。

不得不说,从逼真到有意义,这一步跨得太大了。

在台上,Hassabis 掏出一段自拍视频开始现场魔改。手掌上随手画的圈变成了黑洞,傍晚散步的街道变成了赛博朋克场景。一句话重写画面,一句话改变世界。任何东西都可以成为创造全新现实的画布。再比如,自拍掌中玩火,一张纸画了一个圈立即变黑洞,各种脑洞大开玩法都可实现。

而且,这不是一次性生成完事。你可以接着聊。Gemini Omni 输出的视频,角色保持一致,物理逻辑成立,场景记忆连贯。

  • 从一段原始的演奏画面开始。第二轮,「把小提琴手传送到这张图片的环境里」,附一张雪山草地的参考图,场景瞬间切换,动作、光影全部适配新环境。

  • 第三轮,「把镜头切到小提琴手的肩膀后方」,视角旋转,但演奏动作和音乐完全连续。

不论场景如何变幻,画面的主体都不会崩坏。

更让人细思极恐的是,Omni 的输入灵活性。图片、文字、视频、音频,任何参考物都可以混合输入,生成一个连贯的输出。你甚至可以创建自己的 Avatar,让 AI 版的你出现在任何场景中,说你的声音、做你没做过的事。

目前,Omni Flash 已正式上线,API 版则会在未来几周开放。而更强的 Omni Pro 也在路上了。凭借着谷歌强大的整合能力,Omni 首发就接入了 Gemini App、Google Flow 和 YouTube Shorts,YouTube Shorts 用户甚至可以免费用。

Flash 干翻 Pro:3.5 重写了「旗舰」的定义

Gemini Omni 之后,I/O 大会本场另一重头戏,就是全新旗舰 Gemini 3.5 Flash 的发布。谷歌给它的定义是,迄今为止最强的编码、智能体模型。

现场,劈柴亲口宣布,「3.5 Flash 在几乎所有基准测试中,全面胜出 Gemini 3.1 Pro」!要物,3.1 Pro 可是谷歌三个月前才推出的旗舰模型,现在,一个 Flash 级别的模型就把它碾了。

没想到,谷歌竟在如此短时间内,交出了亮眼的成绩单:

  • Terminal-Bench 2.1(编码):76.2%

  • GDPval-AA(真实世界 Agent 任务):1656 Elo

  • MCP Atlas(大规模工具使用):83.6%

  • CharXiv Reasoning(多模态理解):84.2%

以上四大基准测试,相较于 Gemini 3.1 Pro,3.5 Flash 堪称断层跃迁。在速度方面,3.5 Flash 独占一个象限,289 tokens/秒,比其他前沿模型快 4 倍还要多。另外,3.5 Flash 在一部分基准测试中,性能媲美,甚至是足以碾压 GPT-5.5、Claude Opus 4.7。不得不说,3.5 Flash 又快又强,几乎没有对手。

参数太抽象,不如看看真实的极限演示。只需一瞬间,3.5 Flash 就能消化一篇天书般的学术论文,并写出一个带有完美交互的可视化网站。在智能体任务中,通过 Antigravity,它可以完成多步工作流,自动对铺屏的资产完成分类和命名。亦或是,利用两个 Agent,在短短六小时内复现了 AlphaZero 论文,并编写出一款可完整运行的游戏。

93 个 Agent 造出 OS,仅 12 小时

可以看到,3.5 Flash 这一切能力的实现,全部是借助全新 Antigravity 2.0 实现的。今天,谷歌 Agent 开发平台 Antigravity 升级到了 2.0,从 IDE 变成了独立桌面应用,彻底拥抱 Agent-first 设计。

Varun 上台给出一个让全场屏息的 Demo。他让 Antigravity 搭载 3.5 Flash,从零开始构建一个操作系统。93 个子 Agent 并行工作,发出超 15000 次模型请求,处理 26 亿个 token,12 小时后,一个完全空白的项目变成了功能完整的 OS 内核。调度程序、内存管理、文件系统,每一行代码都是 Agent 写的,Agent 测的,Agent 审计的。API 费用不到 1000 美元。

接着,他试着在这个 AI 写的操作系统上运行 DOOM。第一次尝试失败了,缺少视频和键盘驱动。于是他当场在 Antigravity 2.0 里输入修复指令,Agent 开始自动补写驱动代码。等了一会儿,DOOM 的画面出现在屏幕上,全场沸蓬。

总结一下,Antigravity 2.0 带来核心升级包括:

  • 子 Agent 可以动态生成,主 Agent 把任务拆成子任务分配出去,互不干扰地并行跑;

  • 异步任务管理让长耗时操作不再阻塞主线程;

  • Scheduled Tasks 可设「定时任务」让 Agent 自动执行,比如每天检查一次 PR 状态、每小时跑一次健康检查脚本。

  • 新的斜杠命令:/goal 让 Agent 一口气跑完,/grill-me 反过来让 Agent 搞清楚需求再动手,/browser 显式控制浏览器使用。

不过,这些都是内部已经跑通的能力。谷歌内部用 Antigravity 处理 token 的速度,3 月份是每天 5000 亿。如今,每天狂飙 3 万亿。而且,这个 12 倍加速版的 Flash,今天起在 Antigravity 里就能用了。

3.5 Flash 同时成为 Gemini App 和 Google 搜索 AI Mode 的默认模型,面向全球所有用户。开发者通过 Antigravity 2.0、Gemini API、Google AI Studio 调用。企业用户通过 Gemini Enterprise Agent Platform 接入。更炸裂的是,3.5 Pro 正在内部测试中,下个月发布。

7x24h 个人管家:谷歌 Spark 终于来了

今晚第三大发布,当属于 Gemini Spark!劈柴给它的定位非常明确:你的个人 AI Agent。即使合上笔记本电脑,它也不停歇。它跑在云端的专用虚拟机上,可以实现 7x24 小时在线。

Gemini Spark 由 Gemini 3.5 + Antigravity 框架驱动,深度整合谷歌「办公全家桶」。产品副总裁 Josh Woodward 上台演示了两个场景,直接让全场陷入疯狂。

  • 第一个是工作场景:输入一条指令,「帮我起草一封给团队的邮件,汇总过去一周关于 Gemini Live 发布的所有信息」。Spark 自动跨 Gmail、Docs、聊天记录抓取信息,还调用了 Woodward 自己编写的一个「ghostwriter」技能,让邮件自动匹配他的个人语气。整个过程在后台完成,人类只需审核和发送。没错,Spark 支持自定义技能(skills),让它学会你的口吻、你的偏好、你的工作方式。

  • 第二个是生活场景:规划一场街区派对。Spark 收到任务后一步步执行。它创建了一个 Google Sheets 的 RSVP 追踪表,直接连接 Gmail,谁回复了自动更新。给没报名的邻居,Spark 自动起草催促邮件,生成草稿等确认后再发。然后,它还生成了一个 Google Slides 的宣传 deck,连街区里要放充气城堡的信息都写进去了。全程没有打开任何一个 App。

不仅如此,Spark 还具备了强大的语音输入能力。现场,Woodward 掏出手机,直接用语音甩出三个任务:「找到所有跟 Sundar 的会议标成亮粉色」「给新邻居 John 写邀请函加入 block party 名单」「创建一个文档列出学年结束前要为孩子做的事,按截止日期排序」。

语音直接转成了文字指令,Spark 自动把一段连续的语音拆成了三个独立任务线程,在后台并行执行。

定价方面,AI Ultra 订阅每月 100 美元可用 Spark Beta。最高级 Ultra 计划从 250 美元降到了 200 美元。Spark 则会在下周率先对美国 AI Ultra 用户开放 Beta 版试用。

这一夜,谷歌撕开了 ASI 入口

回过头看这场 I/O,真正让人后背发凉的,不是某一个产品。是所有能力同时到位。

全模态理解,全模态生成,全天候在线 Agent——这三块拼图,谷歌在一夜之间全部拼上了。Omni 把一句话变成一个世界,不需要人类提供任何素材;93 个 Agent 从零造出操作系统,不需要人类写一行代码;Spark 7×24 小时替你工作,不需要人类打开一个 App。

当 AI 不再需要人类「喂料」,而是自己理解、自己决策、自己执行、自己迭代——这条路的终点,叫 ASI(超级智能)

没有人能给出确切的时间表。但今晚的 Google I/O,让所有人意识到一件事:通往超级智能的路上,已经没有「技术上做不到」这个障碍了。剩下的,只是工程部署的速度。半年前我们还在争论 AGI 是不是泡沫。半年后,谷歌已经在用 Agent 写操作系统了。这个行业的加速度,已经超出了人类直觉能感知的范围。

参考资料:

  • https://youtu.be/wYSncx9zLIU

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

  • https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

  • https://antigravity.google/blog/introducing-google-antigravity-2-0

  • https://antigravity.google/blog/google-io-2026-feature-deep-dive

编辑: 桃子 摩西

 

 

 

 

 

 

 

 

 

 

 

 

 

相关问答

Q谷歌在 I/O 2026 大会上发布的最大主角是什么?它有哪些主要特点?

A最大的主角是 Gemini Omni。它是一个真正“全能”的大模型,可以接收任意形式的输入(如图片、音频、视频、文字),生成任意内容,并首发支持高质量视频输出。其核心特点是理解物理世界(如重力、动能),能将世界知识和推理能力注入视频生成,并支持多轮对话式的视频编辑,保持角色、场景和逻辑的连贯性。

QGemini 3.5 Flash 相比前代旗舰 Gemini 3.1 Pro 有何重大提升?

AGemini 3.5 Flash 在几乎所有基准测试中都实现了对 Gemini 3.1 Pro 的碾压式超越。它在编码、智能体任务、工具使用和多模态理解等关键基准上表现卓越,输出速度是其前代的两倍,相比竞争对手的模型快了四倍以上。此外,它已成为 Gemini App 和 Google 搜索 AI 模式的默认模型。

Q什么是 Antigravity 2.0?它的核心升级包括哪些方面?

AAntigravity 2.0 是一个全新的独立桌面应用,从 IDE 进化为一个 Agent 开发平台。其核心升级包括:支持动态生成子 Agent 来并行处理任务;具备异步任务管理功能;能设置定时任务(Scheduled Tasks)让 Agent 自动执行;引入了新的斜杠命令(如 /goal, /grill-me, /browser)来更高效地控制和引导 Agent 行为。演示中,它曾指挥 93 个子 Agent 在 12 小时内从零构建了一个功能完整的操作系统。

QGemini Spark 是什么?它能为用户做什么?

AGemini Spark 是谷歌推出的个人 AI 特工(Agent)。它由 Gemini 3.5 和 Antigravity 框架驱动,深度整合谷歌办公套件,可以 7x24 小时在云端持续运行。它能理解用户的高层指令,自动跨应用(如 Gmail, Docs, Sheets, Slides)执行复杂的多步骤任务,例如汇总信息、起草邮件、创建表格、规划活动等。它还支持自定义技能,学习用户的个人风格和偏好,并能通过语音指令同时处理多个并行任务。

Q根据文章观点,为什么说谷歌这次 I/O 大会揭示了通往 ASI(超级智能)的路径?

A文章认为,谷歌在此次大会上同时实现了三个关键能力的突破:全模态理解与生成(Gemini Omni)、强大的自主智能体协作与执行能力(Antigravity 2.0 与 Agent)、以及全天候在线的个人 AI 管家(Gemini Spark)。当 AI 能够自己理解世界、自主决策、跨工具执行复杂任务并持续迭代,而不需要人类逐步“喂料”和干预时,就构成了通向超级智能(ASI)的核心技术拼图。这表明技术上实现更高层次智能的主要障碍正在被清除,行业的进步速度远超预期。

你可能也喜欢

阿里“上货”,字节“练功”

5月最后一周,阿里和字节的两项动作展现了中国大厂在AI领域的两种不同战略路径。 阿里正将AI快速“上货”落地。5月11日,千问App与淘宝全面打通,接入40亿商品库和20年购物场景数据。随后在阿里云峰会上,吴泳铭宣布升级全栈能力,并计划未来五年资本开支远超过去三年。阿里的核心策略是将AI深度融入现有商业场景,如蚂蚁的AI支付用户数破亿、淘宝的AI比价等,并推动“智能体商业信任协议”作为信任基础设施。其商业模式依赖AI服务变现,阿里云外部收入增长40%,服务器“几乎没有一张卡是空的”。然而,这种路径可能以基础模型能力的长期领先性为代价。 字节则选择在Seed部门潜心“练功”,聚焦探索AI智能上限。其视频生成模型Seedance 2.0在权威评测中登顶,获业界高度评价。部门内部目标纯粹,如设定“国际榜单进前三”的KPI,并投入8个月撰写纯学术论文。字节计划大幅增加资本开支,最高或达4700亿元,资金来源于其巨额利润,且因其未上市,无需承受短期业绩压力,得以专注于长期技术突破。但商业化压力已初现,豆包开始测试付费和广告。 文章指出,两种路径差异的根本原因在于公司是否上市。阿里作为上市公司,必须关注季度财报和股价,战略倾向于快速变现;字节作为非上市公司,则拥有更大的自由去进行长期、前沿的技术投资。这决定了当前中国AI领域“卖AI”与“做AI”的格局分野。未来若字节启动IPO,其长期研发投入或将面临资本市场的考验。

marsbit58分钟前

阿里“上货”,字节“练功”

marsbit58分钟前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

稳定币发行商Circle已将一个与隐私协议Zama相关的智能合约列入黑名单,冻结了约1260万美元的用户资金。此次冻结首先由链上调查员ZachXBT发现,涉及Zama在以太坊上部署的保密USDC(cUSDC)合约。该合约地址在Zama的公开文档中可查,其冻结过程可被实时追踪和验证。 进一步分析显示,此次冻结可能与资产管理和收益协议Overnight Finance近期的争议及法律问题间接相关。数据显示,一个疑似与Overnight Finance相关的钱包于2026年5月11日向Zama合约存入约1240万美元USDC。Overnight Finance近期正面临治理纠纷和可能被团队“拉地毯”的指控,并因此进行了国库资产分配投票。此外,该公司还卷入一起民事诉讼,原告之一是DeFi领域以激进治理策略闻名的Patagon Management。尽管Circle的行动与这些事件之间尚无直接因果证据,但法律程序、资金流动与冻结事件的重叠,引发了人们对DeFi协议间风险传导的担忧。 Circle此次单方面行动再次引发对中心化发行商透明度的批评。据ZachXBT称,Zama团队在合约被列入黑名单前似乎未获任何通知。这加剧了人们对中心化实体在无预警情况下影响去中心化应用及其用户的担忧。此前在2026年3月,Circle曾冻结多个实体相关的热钱包而未公开说明理由。本次行动则更进一步,直接冻结了协议级别的资金池合约,而非独立钱包,这引发了人们对所谓去中心化系统中托管风险的质疑。截至目前,Circle尚未就冻结Zama合约的原因发布官方解释。

bitcoinist1小时前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

bitcoinist1小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit9小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit9小时前

交易

现货
合约
活动图片