谷歌Deep Think八语奥赛屠榜，自主攻克4大未解难题，科研壁垒崩塌

marsbit发布于2026-04-08更新于2026-04-08

文章摘要

谷歌DeepMind推出AI系统Deep Think，在八种语言（日语、中文、法语、韩语、印地语、越南语、俄语、葡萄牙语）的数学和信息学奥林匹克区域赛中均取得高分甚至满分成绩，展现跨语言推理能力。其中日语数学奥赛满分，中文数学奥赛获86.3%高分，但信息学竞赛表现略弱，显示其在纯推理与工程实现间的能力差异。 Deep Think此前已在IMO、ICPC等国际顶级竞赛中达到金牌水平，并逐步扩展至物理、化学等多学科。其升级版还能驱动科研智能体Aletheia，自主解决未解数学问题，参与论文撰写，并在计算机科学、物理学、经济学等领域突破长期难题。尽管成绩单目前仅由Google内部发布，未经第三方独立验证，但其多语言能力有望降低非英语科学家的科研门槛，推动AI作为“人类智力倍增器”的公平应用。

「Deep Think」在所有竞赛中都击败/媲美竞争对手」!

刚刚,Google DeepMind高级研究员Conglong Li在X平台连发12条帖子,甩出了一张前所未见的成绩单。

一个AI,同一个大脑,八张不同语言的试卷,全部高分交卷。

在任何一个模型身上,这样的成绩实属罕见。

从IMO金牌到区域赛全覆盖

这次Deep Think拿下多个榜单高分,并非突然的单点爆发,而是一条已经持续了近一年的能力演进曲线。

首先登顶最硬核的推理赛场。

2025年7月,Gemini Deep Think首次在国际数学奥林匹克(IMO)达到金牌标准,42分拿下35分。同期在ICPC世界决赛也取得类似高水平表现。

这两个成绩,DeepMind官方博客已经正式公布。

Google DeepMind随后把这两项成绩都写进了官方博客,作为Deep Think迈过数学与编程「世界级竞赛门槛」的标志。

接着,Deep Think开始从「世界冠军级单项突破」,走向「跨语言、跨学科、跨场景的系统验证」。

2026年2月,Google连发三篇博客。

一篇介绍Gemini 3.1 Pro模型本体,一篇介绍Deep Think专用推理模式的重大升级,一篇来自DeepMind科学发现团队,直接把Deep Think定位成「人类智力倍增器」。

升级后的Deep Think交出了一串硬指标:

Humanity's Last Exam拿下48.4%(无工具辅助),ARC-AGI-2达到84.6%(ARC Prize基金会官方验证),Codeforces竞赛编程Elo评分3455,2025国际物理奥赛和化学奥赛笔试部分达到金牌水平。

这条路线非常清楚:先用IMO、ICPC这样的世界级竞赛,证明它的强大推理能力,然后再用多语种、区域赛和跨学科奥赛成绩,证明它的跨语言、跨领域稳定迁移的通用深度推理能力。

Gemini Deep Think从IMO金牌到PhD级科研加速的能力演进

8语言成绩单逐项细看

现在,把这张成绩单真正摊开来看。

日语最亮眼。

2025年第35回日本数学奥赛本选(JMO Finals),满分。

ICPC亚洲日本初赛,满分。

其中,JMO本选这项成绩甚至超过了当届最高得分对应的80%水平,达到官方所说的「金奖相当」标准。

法语同样满分,100%。

中文就有意思了。

第41届中国数学奥林匹克(CMO),Deep Think拿到86.3%,相当出色。但中国信息学奥赛(NOI)只有63.3%。

86.3%和63.3%之间的落差,画出了AI推理能力的真实边界。

在数学竞赛里,模型面对的是抽象推导、证明构造和多步演绎,这恰好是Deep Think最擅长的能力带。

但到了信息学竞赛,问题就不只是「想明白」,还包括把逻辑翻译成可执行代码、控制边界条件、兼顾复杂度约束,并且在实现层面避免失误。

前者更接近纯推理,后者则要求「推理+算法设计+工程化实现」同时过关。

其它语种,韩语、印地语、越南语、俄语、葡萄牙语对应的竞赛结果里,Deep Think 也都实现了击败对手或至少持平。

如果把日语、法语、中文再合起来看,这次最不寻常的一点其实不是某一门单科刷到满分,而是同一个模型、同一种Deep Think推理系统,在多种语言的竞赛试卷上,都交出了第一梯队的成绩。

这份成绩单可靠吗?

但这里有一个关键的缺失:

Conglong Li并没有列出竞品的具体对比数据:所有成绩,全部来自Google内部评测。没有第三方独立复现,没有竞赛官方认证,评测方法完全没有公开。

每道题是做一次还是做很多次取最优?推理时用了多少算力?有没有人工提示工程介入?

这些直接影响成绩含金量的细节,也都没提。

还有一点容易被忽略:这些考试全部是各国区域选拔赛,不是国际决赛。

区域赛的题目难度和国际决赛之间,隔着一个量级。

研究员明确说了,这些成绩「将被纳入模型卡」,截至发稿,模型卡尚未正式更新。

所以,目前这仍然好像是一张由考生自己打分、自己公布、尚未交给教务处盖章的成绩单。

多语言科研公平性,被忽视的真正战场

为什么Google要专门花精力做8种语言的区域赛评测?

当前AI推理能力的评测,几乎全部基于英语。

MATH、GSM8K、HumanEval、ARC-AGI......这些都是英语。

全世界的数学家、物理学家、工程师,只要母语不是英语,在使用AI科研工具时都要先过一道语言关。

Google选的这8种语言不是随机的。

日语、韩语、中文覆盖东亚科研重镇,印地语、越南语覆盖新兴市场,法语、俄语、葡萄牙语覆盖欧洲和南美。

加在一起,这是全球科研产出的大半壁江山。

DeepMind在官方博客里把Deep Think定位为「人类智力倍增器」,说它能「处理知识检索和严格验证,让科学家专注于概念深度和创造性方向」。

结合这次的多语言成绩,这句话的潜台词不难理解:这个倍增器,不仅限英语的科学家用。

更值得注意的是Deep Think在科研落地上已经走了多远。

DeepMind公布了一个叫Aletheia的数学研究智能体,基于Deep Think驱动,能自主生成、验证、修订研究级数学问题的解法。

Aletheia由Deep Think驱动,能够对研究级数学问题进行迭代式生成、验证与修正

Aletheia已经参与产出了多篇研究论文,其中一篇完全由AI自主完成,计算了算术几何中的特定结构常数。

另外,在700个开放数学问题的半自主评估中,它还独立解决了4个此前未解的问题。

Gemini Deep Think模式在计算机科学、物理学、经济学等领域也展现出巨大潜力。

在计算机科学领域,Deep Think帮助推翻了一个悬而未决十年的猜想,在物理学领域找到了宇宙弦引力辐射的新型解析解,在经济学领域扩展了一个拍卖理论定理。

AI推理流程的示意图,展示了在网络层进行的大规模解空间探索如何被汇聚为结构化推理,并通过自动化与人工验证加以确认。

通过与专家合作解决18个研究难题,Gemini Deep Think的高级版本帮助突破了算法、机器学习与组合优化、信息论以及经济学领域长期存在的瓶颈。

这已经远远超出了「做竞赛题」的范畴。

当竞品还在卷英文benchmark排行榜的时候,Google已经在「AI科研加速器」领域找到了新战场。

这件事请最重要的东西其实不是分数,它背后真正的信号是:AI科研工具的语言壁垒正在被当作一个工程问题来解决。

如果这条路走通了,全世界用日语、韩语、中文、印地语做研究的科学家,将第一次和英语母语者站在同一条起跑线上。

这一次,Google已经把牌摊在了桌上。

至于竞争对手谁会跟牌,相信我们很快也将看到。

参考资料:

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

本文来自微信公众号“新智元”,作者:新智元

你可能也喜欢

注意：本周将有10种山寨币迎来大规模代币解锁！以下是按天和小时的列表

加密货币市场上周因黑客事件和地缘政治影响而下跌。本周将迎来多个山寨币的大规模代币解锁，具体时间表如下（均为UTC+3时区）： - **Lagrange (LAG)**：8月4日3:00，解锁138万美元，占市值15.04% - **Proof (PROOF)**：8月5日3:00，解锁3911万美元，占市值119.59% - **Power Protocol (POWER)**：8月5日3:00，解锁162万美元，占市值8.93% - **Verona (VERONA)**：8月5日3:00，解锁137万美元，占市值12.61% - **Ethena (ENA)**：8月5日11:00，解锁1528万美元，占市值1.80% - **Goldfinger (GF)**：8月6日3:00，解锁1152万美元，占市值5.05% - **Infinity (INF)**：8月7日3:00，解锁231万美元，占市值20.30% - **Stable (STBL)**：8月8日3:00，解锁2875万美元，占市值3.55% - **Name (NAME)**：8月9日3:00，解锁4847万美元，占市值74.54% - **Move (MOVE)**：8月9日3:00，解锁122万美元，占市值3.90% 其中Proof代币解锁规模显著超过其当前市值，Name解锁比例也较高。本文不构成投资建议。

cryptonews.ru1小时前

cryptonews.ru1小时前

发布了过去几小时查询最热门的替代币名单！

加密货币数据平台CoinGecko公布了最近三小时内用户查询量最高的加密货币趋势榜单。榜首是Pudgy Penguins（$PENGU），Catecoin（CATE）和Bless（$BLESS）分列第二、三位。价格方面，过去24小时内$PENGU上涨3.9%，排名第二的CATE大幅上涨126.2%，$BLESS上涨86.1%。What IF（IF）同期也上涨41.9%。榜单同时还列出了各加密货币的总市值，其中Hyperliquid（HYPE）市值最高，达114.3亿美元，比特币（BTC）市值为1.27万亿美元，以太坊（ETH）市值为2241.7亿美元。平台强调，此榜单不构成投资建议。

cryptonews.ru3小时前

cryptonews.ru3小时前

每月10万美元：Truth Social向投资公司出售特朗普帖文访问权

特朗普媒体与技术集团于2026年8月1日正式推出付费数据服务Truth API。该服务以每月高达10万美元的费用，向机构投资者和高频交易公司提供实时访问Truth Social上最具影响力账户（包括特朗普总统拥有约1300万粉丝的账号）帖文的权限，延迟仅毫秒级。公司称此举是将其核心资产货币化、创造稳定高利润收入来源的战略一部分。此项服务引发了政治争议。民主党参议员沃伦和希夫要求美国证券交易委员会调查其是否违法。共和党参议员卡西迪批评这是以金钱售卖获取总统言论的特权通道。TMTG回应称批评是协调一致的抹黑行动，旨在损害这家上市公司。分析指出，此类高速数据流可能重现类似2013年美联社账号被黑导致市场闪崩的风险，因为交易算法会快于人工验证而做出反应。这引发了对于帖子真实性验证机制缺失及潜在市场操纵或黑客攻击风险的担忧。特朗普目前仍持有TMTG约41%的股份。

cryptonews.ru3小时前

cryptonews.ru3小时前

STRC优先股价格仍低于面值，策略集团股息维持在12%

Strategy公司的优先股STRC在7月份价格持续低于其100美元的面值，但公司宣布8月股息将维持12%不变，不会上调。董事长Michael Saylor通过社交媒体确认了这一消息，并继续将STRC宣传为增加收入的工具。8月将是股息改为半月支付后的第二个月。 STRC股价在7月有所回升，月底收于89.46美元，全月上涨5.42%，但交易量低于日均水平。公司CEO重申，管理层的目标是让STRC股价最终达到99-100美元区间，但未给出具体时间表。尽管公司第二季度因比特币持仓未实现亏损而录得巨额净亏损，但已建立37.5亿美元的现金储备，以支持其BTC货币化计划下的优先股派息。该储备足以支付超过两年的优先股股息和利息义务。公司近期已折价回购了部分STRC优先股，并计划在股价低于面值时继续回购。

cointelegraph5小时前

cointelegraph5小时前

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

硬件钱包Coldcard遭黑客攻击，导致大量资金从易受攻击设备中被持续转出。据Galaxy Research数据，截至2026年8月2日，已有4585个地址被盗，损失总额达1367.05 BTC（约合8860万美元），远超7月30日最初报告的594.5 BTC。大部分被盗资金仍停留在攻击者地址。问题根源并非固件，而是设备生成的种子短语存在漏洞。2021年3月起，因程序员错误集成libNgU库，设备从使用STM32硬件随机数生成器转为使用软件生成器Yasmarang，该生成器由公开可获取的芯片序列号和计时器状态初始化，导致生成的种子短语可在离线状态下被暴力破解。即使固件后续已更新，只要用户未将资金转移至基于新种子短语生成的新地址，旧钱包就始终处于风险中。受影响的设备包括特定固件版本的Mk2/Mk3、Mk4/Mk5及Q系列。仅当种子短语是通过至少50次独立掷骰子或强唯一性BIP-39密码短语创建时方可幸免。官方建议受影响用户立即在已修复的固件上生成新种子短语并转移资产。报道提及一位39岁投资者的案例，他因该漏洞损失了2 BTC（约13万美元）。他多年来通过体力劳动积攒比特币，将其视为在制裁和高通胀国家中的财务保障与提前退休的途径。此次事件使他的长期持有策略和“冷存储”信心遭受重击，他因此决定彻底退出加密货币领域。从历史数据看，随机数生成器缺陷并非首例，类似问题曾导致巨额损失。此次事件警示，即使离线存储也未必绝对安全，其安全性高度依赖于底层硬件和算法的可靠性。

cryptonews.ru5小时前

cryptonews.ru5小时前

交易

现货

谷歌Deep Think八语奥赛屠榜，自主攻克4大未解难题，科研壁垒崩塌

文章摘要

从IMO金牌到区域赛全覆盖

8语言成绩单逐项细看

这份成绩单可靠吗?

多语言科研公平性,被忽视的真正战场

相关问答

你可能也喜欢

注意：本周将有10种山寨币迎来大规模代币解锁！以下是按天和小时的列表

发布了过去几小时查询最热门的替代币名单！

每月10万美元：Truth Social向投资公司出售特朗普帖文访问权

STRC优先股价格仍低于面值，策略集团股息维持在12%

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

交易

热门分类

热门标签