谷歌Deep Think八语奥赛屠榜，自主攻克4大未解难题，科研壁垒崩塌

marsbit發佈於 2026-04-08更新於 2026-04-08

文章摘要

谷歌DeepMind推出AI系统Deep Think，在八种语言（日语、中文、法语、韩语、印地语、越南语、俄语、葡萄牙语）的数学和信息学奥林匹克区域赛中均取得高分甚至满分成绩，展现跨语言推理能力。其中日语数学奥赛满分，中文数学奥赛获86.3%高分，但信息学竞赛表现略弱，显示其在纯推理与工程实现间的能力差异。 Deep Think此前已在IMO、ICPC等国际顶级竞赛中达到金牌水平，并逐步扩展至物理、化学等多学科。其升级版还能驱动科研智能体Aletheia，自主解决未解数学问题，参与论文撰写，并在计算机科学、物理学、经济学等领域突破长期难题。尽管成绩单目前仅由Google内部发布，未经第三方独立验证，但其多语言能力有望降低非英语科学家的科研门槛，推动AI作为“人类智力倍增器”的公平应用。

「Deep Think」在所有竞赛中都击败/媲美竞争对手」!

刚刚,Google DeepMind高级研究员Conglong Li在X平台连发12条帖子,甩出了一张前所未见的成绩单。

一个AI,同一个大脑,八张不同语言的试卷,全部高分交卷。

在任何一个模型身上,这样的成绩实属罕见。

从IMO金牌到区域赛全覆盖

这次Deep Think拿下多个榜单高分,并非突然的单点爆发,而是一条已经持续了近一年的能力演进曲线。

首先登顶最硬核的推理赛场。

2025年7月,Gemini Deep Think首次在国际数学奥林匹克(IMO)达到金牌标准,42分拿下35分。同期在ICPC世界决赛也取得类似高水平表现。

这两个成绩,DeepMind官方博客已经正式公布。

Google DeepMind随后把这两项成绩都写进了官方博客,作为Deep Think迈过数学与编程「世界级竞赛门槛」的标志。

接着,Deep Think开始从「世界冠军级单项突破」,走向「跨语言、跨学科、跨场景的系统验证」。

2026年2月,Google连发三篇博客。

一篇介绍Gemini 3.1 Pro模型本体,一篇介绍Deep Think专用推理模式的重大升级,一篇来自DeepMind科学发现团队,直接把Deep Think定位成「人类智力倍增器」。

升级后的Deep Think交出了一串硬指标:

Humanity's Last Exam拿下48.4%(无工具辅助),ARC-AGI-2达到84.6%(ARC Prize基金会官方验证),Codeforces竞赛编程Elo评分3455,2025国际物理奥赛和化学奥赛笔试部分达到金牌水平。

这条路线非常清楚:先用IMO、ICPC这样的世界级竞赛,证明它的强大推理能力,然后再用多语种、区域赛和跨学科奥赛成绩,证明它的跨语言、跨领域稳定迁移的通用深度推理能力。

Gemini Deep Think从IMO金牌到PhD级科研加速的能力演进

8语言成绩单逐项细看

现在,把这张成绩单真正摊开来看。

日语最亮眼。

2025年第35回日本数学奥赛本选(JMO Finals),满分。

ICPC亚洲日本初赛,满分。

其中,JMO本选这项成绩甚至超过了当届最高得分对应的80%水平,达到官方所说的「金奖相当」标准。

法语同样满分,100%。

中文就有意思了。

第41届中国数学奥林匹克(CMO),Deep Think拿到86.3%,相当出色。但中国信息学奥赛(NOI)只有63.3%。

86.3%和63.3%之间的落差,画出了AI推理能力的真实边界。

在数学竞赛里,模型面对的是抽象推导、证明构造和多步演绎,这恰好是Deep Think最擅长的能力带。

但到了信息学竞赛,问题就不只是「想明白」,还包括把逻辑翻译成可执行代码、控制边界条件、兼顾复杂度约束,并且在实现层面避免失误。

前者更接近纯推理,后者则要求「推理+算法设计+工程化实现」同时过关。

其它语种,韩语、印地语、越南语、俄语、葡萄牙语对应的竞赛结果里,Deep Think 也都实现了击败对手或至少持平。

如果把日语、法语、中文再合起来看,这次最不寻常的一点其实不是某一门单科刷到满分,而是同一个模型、同一种Deep Think推理系统,在多种语言的竞赛试卷上,都交出了第一梯队的成绩。

这份成绩单可靠吗?

但这里有一个关键的缺失:

Conglong Li并没有列出竞品的具体对比数据:所有成绩,全部来自Google内部评测。没有第三方独立复现,没有竞赛官方认证,评测方法完全没有公开。

每道题是做一次还是做很多次取最优?推理时用了多少算力?有没有人工提示工程介入?

这些直接影响成绩含金量的细节,也都没提。

还有一点容易被忽略:这些考试全部是各国区域选拔赛,不是国际决赛。

区域赛的题目难度和国际决赛之间,隔着一个量级。

研究员明确说了,这些成绩「将被纳入模型卡」,截至发稿,模型卡尚未正式更新。

所以,目前这仍然好像是一张由考生自己打分、自己公布、尚未交给教务处盖章的成绩单。

多语言科研公平性,被忽视的真正战场

为什么Google要专门花精力做8种语言的区域赛评测?

当前AI推理能力的评测,几乎全部基于英语。

MATH、GSM8K、HumanEval、ARC-AGI......这些都是英语。

全世界的数学家、物理学家、工程师,只要母语不是英语,在使用AI科研工具时都要先过一道语言关。

Google选的这8种语言不是随机的。

日语、韩语、中文覆盖东亚科研重镇,印地语、越南语覆盖新兴市场,法语、俄语、葡萄牙语覆盖欧洲和南美。

加在一起,这是全球科研产出的大半壁江山。

DeepMind在官方博客里把Deep Think定位为「人类智力倍增器」,说它能「处理知识检索和严格验证,让科学家专注于概念深度和创造性方向」。

结合这次的多语言成绩,这句话的潜台词不难理解:这个倍增器,不仅限英语的科学家用。

更值得注意的是Deep Think在科研落地上已经走了多远。

DeepMind公布了一个叫Aletheia的数学研究智能体,基于Deep Think驱动,能自主生成、验证、修订研究级数学问题的解法。

Aletheia由Deep Think驱动,能够对研究级数学问题进行迭代式生成、验证与修正

Aletheia已经参与产出了多篇研究论文,其中一篇完全由AI自主完成,计算了算术几何中的特定结构常数。

另外,在700个开放数学问题的半自主评估中,它还独立解决了4个此前未解的问题。

Gemini Deep Think模式在计算机科学、物理学、经济学等领域也展现出巨大潜力。

在计算机科学领域,Deep Think帮助推翻了一个悬而未决十年的猜想,在物理学领域找到了宇宙弦引力辐射的新型解析解,在经济学领域扩展了一个拍卖理论定理。

AI推理流程的示意图,展示了在网络层进行的大规模解空间探索如何被汇聚为结构化推理,并通过自动化与人工验证加以确认。

通过与专家合作解决18个研究难题,Gemini Deep Think的高级版本帮助突破了算法、机器学习与组合优化、信息论以及经济学领域长期存在的瓶颈。

这已经远远超出了「做竞赛题」的范畴。

当竞品还在卷英文benchmark排行榜的时候,Google已经在「AI科研加速器」领域找到了新战场。

这件事请最重要的东西其实不是分数,它背后真正的信号是:AI科研工具的语言壁垒正在被当作一个工程问题来解决。

如果这条路走通了,全世界用日语、韩语、中文、印地语做研究的科学家,将第一次和英语母语者站在同一条起跑线上。

这一次,Google已经把牌摊在了桌上。

至于竞争对手谁会跟牌,相信我们很快也将看到。

参考资料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

本文来自微信公众号“新智元”,作者:新智元

你可能也喜歡

Base 的压力时刻

北京时间7月21日，Base联创Jesse Pollak承认，在代币化股票领域进展落后于新推出的Robinhood Chain，后者采用了衍生品模式，而Base正与Coinbase合作开发由股票1:1支持的代币化股票。这是Jesse近期第二次公开反思，此前他已承认押注社交和创作者代币是战略失误，相关尝试未带来可持续采用。 Base凭借Coinbase的支持，在L2竞争中表现强劲，尤其在meme币领域优势明显，但其中心化问题一直备受诟病。近期两次出块中断事件凸显了单一排序器风险，L2BEAT甚至考虑将其去中心化评级从Stage 1降回Stage 0。虽然该评级不完全代表安全性，但在Robinhood Chain快速崛起、其DEX交易量迅速冲进前五的对比下，Base在去中心化上的滞后显得尤为突出。此外，Coinbase创始人Brian Armstrong因更换头像引发相关meme币BRAIN剧烈波动后，社区反应负面，中文社区账号改名以示嘲讽，反映了用户信任度的下滑。尽管Base仍拥有约120亿美元的TVL，并在机器支付领域掌握标准制定权，其长期目标是成为金融基础设施。但面对Robinhood Chain等新晋竞争者的压力，Base迫切需要解决长期存在的技术中心化与社区信任问题，以巩固其在代币化等关键领域的地位。

Foresight News11 分鐘前

Foresight News11 分鐘前

白宫让步扫清伦理障碍，Clarity Act赶上休会前最后的时间窗口？

北京时间7月21日，据多位消息人士透露，特朗普政府已在《数字资产市场结构法案》（Clarity Act）中同意加入伦理条款，并已将文本提交给部分参议院共和党议员。此举被视为扫清了该法案推进的最后主要障碍之一。同时，白宫数字资产顾问委员会执行主任Patrick Witt确认留任，将继续推动法案完成最后冲刺。 Clarity Act旨在为美国数字资产市场建立统一的联邦监管框架，核心目标是明确数字资产的法律属性，并划分美国证券交易委员会（SEC）与商品期货交易委员会（CFTC）的监管职责。法案将数字资产分类监管，以期结束SEC与CFTC长期的监管权争夺，为行业提供明确的合规路径。过去一年，法案的谈判分歧主要集中在稳定币收益规则、DeFi监管边界以及政府官员与加密行业的利益冲突（即伦理问题）三方面。目前前两大分歧已基本解决，伦理条款成为最后的关键争议点。白宫的让步为法案在参议院获得两党支持并最终表决创造了可能。然而，法案面临紧迫的时间窗口。美国国会预计在8月中旬进入夏季休会期，留给参议院审议的时间仅剩十几个工作日。行业游说组织美国区块链协会CEO表示，未来几周是关键时刻，若伦理争议得以解决，法案有望在休会前取得突破；否则可能需等待新的政治时机。如果Clarity Act能成功通过，它将成为美国乃至全球加密货币监管的一个重要转折点，为数字资产市场提供更清晰、稳定的制度框架，降低监管不确定性，并为传统资本进入该领域奠定基础。

Odaily星球日报16 分鐘前

Odaily星球日报16 分鐘前

Midnight遭5.15亿NIGHT黑客攻击导致代币暴跌32%——0.015美元能守住吗？

2026年加密货币市场黑客事件频发，7月单月损失超5900万美元，年内累计已达10亿美元。Midnight网络近日成为跨链桥攻击的最新受害者，其Wanchain Cardano至BNB跨链桥上一个存有5.15亿枚NIGHT代币的旧合约遭黑客攻击，资金被转移并在Cardano去中心化交易所抛售。事件导致NIGHT代币价格暴跌32%，创下0.015美元的历史新低，随后小幅反弹至0.019美元。其市值缩水27%至3.24亿美元，而交易量激增829%，显示抛压巨大。现货与期货市场均出现大量卖盘，期货资金净流出达510万美元。技术指标显示，NIGHT的相对强弱指数（RSI）已跌至17的超卖区间，市场情绪极度悲观。若看跌情绪持续，代币价格可能继续承压，在0.02美元以下波动，并将0.015美元视为关键支撑位。Midnight基金会强调，此次事件仅限于跨链桥操作，其主网本身仍保持安全。

ambcrypto22 分鐘前

Midnight遭5.15亿NIGHT黑客攻击导致代币暴跌32%——0.015美元能守住吗？

ambcrypto22 分鐘前

AI时代、产业革命与未来文明访谈——张丁文：未来不属于追赶者

本文是对90后科技企业家张丁文的专访。他强调，决定企业命运的并非短期风口，而是时代演进的方向。真正的创业者应关注人与数字世界连接方式的根本变化，而非追逐热点。回顾创业历程，张丁文认为早期摄影社区项目的经历教会他重要一课：用户价值不等同于商业价值，可持续的商业模式至关重要。他将创业视为不断刷新自我认知的过程，企业的边界取决于创始人的认知格局。面对未来，张丁文将重心从单一产品转向寻找下一代生态“入口”。他深度布局智能穿戴领域，认为智能硬件如手表的价值远超越硬件本身，在于其作为连接健康、支付、社交等服务的平台潜力，是建立长期用户关系、承载复合属性的生态容器。企业的竞争最终是成为用户不可或缺的信任入口。张丁文进一步将思考提升至产业与文明层面。他认为，企业的发展会经历产品竞争、平台竞争，最终是“文明竞争”，即定义未来运行规则的能力。真正伟大的企业致力于解决时代问题，推动社会效率与公平，其最深的护城河是价值观与长期积累的信任。他表示，财富只是价值的计量单位，而非目标。下一代企业家不仅需要经营能力，更需要广阔的世界观，在复杂变化中坚持长期主义，保持学习和进化。企业的终极意义在于创造持久的社会价值，成为时代进步的推动者。

marsbit27 分鐘前