AlphaGo之父把AI扔进23年的人造社会:智能体3块最硬骨头全在这

marsbit发布于2026-05-25更新于2026-05-25

文章摘要

DeepMind与运营23年的太空网游《EVE Online》背后的公司Fenris Creations(原CCP Games)合作,计划利用这款游戏的复杂持久世界作为AI研究的新“训练场”。此次合作目标明确,旨在攻克当前AI智能体研究中公认最难的三大挑战:长程规划、记忆和持续学习。 与以往围棋、星际争霸等有明确终局的游戏不同,《EVE Online》是一个由玩家驱动、持续演化的“单一共享宇宙”,拥有真实的经济体系、政治联盟和跨越数月的战争。玩家的日常操作——如管理跨越数年的社交关系、从大规模战役中学习并迭代战术、进行以月为单位的战略筹备——恰好对应了AI智能体需要突破的三个核心难题。 DeepMind将在一个离线版本的《EVE》环境中进行研究,这意味着AI不会干扰真实玩家的游戏世界,但可以在这个经过23年“压力测试”的复杂规则系统中进行安全测试。从Atari游戏到《星际争霸》,再到如今的《EVE》,DeepMind的研究环境正变得越来越开放、持久和贴近真实世界的复杂性。这次合作的核心问题是:一个能在《EVE》这样长期运行、动态演化的“人造社会”中生存和学习的AI,距离在真实世界中自主运作还有多远?

DeepMind CEO、AlphaGo之父Demis Hassabis用游戏做AI研究已走过十余年。

这一次,他把AI扔进了跑了23年的「活宇宙」:一款连新手引导都能劝退玩家的太空网游EVE Online。

棋局有终局,EVE没有。

5月初,DeepMind官宣了与EVE Online建立研究合作,原因很简单:EVE复杂且有玩家驱动的宇宙,是测试AI记忆、持续学习和长期规划的完美安全沙盒。

DeepMind联手EVE,不是为了追求有趣的游戏体验,或者赋能游戏玩法,而是要啃下当前AI智能体研究里公认最难啃的三块骨头,Hassabis把答案押在了一款运营23年的老游戏上。

Fenris Creations(原CCP Games)宣布与DeepMind合作

EVE Online背后的公司,5月6日同一天宣布了四件事:

  • 从母公司Pearl Abyss体系中重新独立;
  • 更名为Fenris Creations;
  • 完成1.2亿美元交易;
  • Google作为本次独立的一部分,持有Fenris Creations少数股权,并同步启动与Google DeepMind的研究合作。

Fenris Creations CEO Hilmar Veigar Pétursson在公告中声称:

这次转型不涉及裁员或重组,团队、产品、开发计划保持不变。EVE继续。

从运营数字看,这家公司是带着「真实弹药」来谈合作的,而不是卖资产求生。

EVE Online 2025年营收超过7000万美元,11月创下历史最高收入纪录,Q4成为该游戏20年历史上营收第二高的季度。

Fenris Creations独立出来,意味着EVE现在有了一个能自主决定研究合作的母公司,不再被一家更大的游戏发行公司的战略目标绑架。

1997年Fenris出版的桌游产品盒。「Fenris」这个名字比EVE Online还早了6年,更名为Fenris Creations是一次回溯,不是另起炉灶

DeepMind为何会选中EVE?

23年「人造社会」

AI基准测试难以复制

很多人听到「游戏+AI研究」,第一反应是回想AlphaGo或AlphaStar,EVE和它们都不同。

围棋和星际争霸有一个共同特点:一局比赛有开始,有结束,有明确的胜负规则。

AlphaGo的目标是打赢棋局,AlphaStar的目标是打赢一场星际对战,都是「单局智能」的研究范式,但EVE没有终局。

EVE Online以「单一共享宇宙」(single-shard / single shared universe)著称,大量玩家长期在同一个持久世界中竞争、贸易、结盟和战争。

玩家在这里建立起了真实的经济体系、政治联盟、军事集团、贸易路线、历史恩怨和跨年度的战争计划。

有些战役从筹备到落幕要花掉整整一年。有些联盟的崛起和覆灭,被后来的玩家当作真实历史研究。

Hilmar在公告中说:「EVE是少数几个能在已经像真实世界运转的环境中探索智能问题的地方。」

Hassabis更是谈到,自己从小玩游戏,职业生涯起点是设计AI模拟游戏,AlphaGo、AlphaStar和SIMA的研究都和游戏深度绑定,而EVE是下一阶段的选择:

我很高兴能与Fenris Creations合作,在这个由玩家打造、复杂程度无与伦比的宇宙里,安全地探索全新的游戏体验并推进AI研究。

大多数AI基准测试像是体检,EVE更像是把AI扔进一个已经持续了23年的「人造社会」。

智能体3块最硬骨头

刚好是EVE玩家日常

这次官方明确列出了三个研究方向:长程规划(long-horizon planning)、记忆(memory)、持续学习(continual learning)。

这三个方向,是当前AI智能体研究领域公认的3块最难啃的骨头。

如果你身边有人玩过十年以上的EVE Online,让他打开账号给你看一眼好友列表,你很可能会看到几十个分组、上百个名字,备注栏里写着「2018年Delve战役欠的债」「鹅群联盟(Goonswarm)内部叛徒,别合作」「这哥们儿是间谍,组织里都知道」。

这不是上下文窗口,而是十年起步的跨会话长程记忆。

记忆这一关,EVE玩家天天都在过,持续学习这一关也一样。

2014年1月,B-R5RB一战持续约21小时,参战角色超过7500个,75艘Titan被毁,损失折合真实货币约30万美元。整场战役的导火索,是一笔主权账单未能自动支付。

这一仗打完,整个游戏的舰队战术全部改写。各联盟之后几年的舰队配置、战术体系,全部围绕复盘在迭代。每月都在改,每场失败都被拆成可执行的策略更新。

至于长程规划,EVE联盟战争的标准时间单位不是小时,是月。一场跨星域战争从筹备到打响,造船、运输、外交、潜伏、反间,几百号玩家在没有任何任务调度的情况下自发协作,跨月推进一个共同目标。

这套协作体系是23年里玩家自己长出来的。

当前AI智能体评估里被认为最硬的3块骨头,恰好是EVE玩家的日常。

EVE中23年的玩家驱动演化,产生了一个始终在变、始终复杂、没有捷径的环境,实验室里人工合成不了这种复杂度。

DeepMind在2025年11月发布的SIMA 2,已经从「执行指令」进化到「理解目标、推理过程、边玩边学」。

从研究问题上看,EVE项目与SIMA 2同属「游戏作为智能体训练场」这条路线,不同的是这次场地换成了一个持续运转23年的真实宇宙。

EVE Online游戏内战役画面,这种由玩家自发组织、动辄持续数小时的大规模会战,是DeepMind选中EVE作为长程规划与持续学习研究场景的核心原因

DeepMind进的是离线沙盒

不是玩家宇宙

DeepMind这次和Fenris的合作方式,比想象中保守,DeepMind拿到的不是直接接入现役玩家正式服的权限。

DeepMind官方在公告中声明:初始研究将在离线版本的EVE Online上进行,使用本地服务器,在受控环境里测试和评估模型,不连接EVE Online正式运营服务器。

一方面,离线版意味着DeepMind不会去消费现役玩家的对战数据,也不会扰动真正的服务器经济,这避免了任何隐私和合规上的复杂度。

另一方面,离线版EVE仍可保留复杂的规则系统、舰船与经济机制、星域结构等核心设计。

DeepMind拿到的是一个「被23年玩家压力测试过」的复杂世界,作为智能体要去活下去的考场。

从Atari到EVE

这条路走向哪里

从DeepMind这十几年的训练场选择往回看,有一条很清晰的进化线。

2013到2015年,Atari是起点。DQN把智能体放进《打砖块》《太空入侵者》这种关卡明确、规则封闭的游戏。考的是反应和价值估计。

2016到2017年,AlphaGo和AlphaZero。围棋规则规整、动作空间巨大但封闭。考的是搜索和长链推理。

2019年,AlphaStar进了《星际争霸2》。第一次进入实时、不完美信息、多线博弈的环境。考的是部分可观察下的实时决策。

2024年,SIMA想做跨多个游戏的通用智能体。考的是迁移泛化。

2025年,SIMA 2升级:不只执行指令,还能和用户对话、推理目标、在游戏过程中自我改进。

DeepMind 2025年发布的SIMA 2,已从「执行指令」进化到「理解目标、推理过程、边玩边学」

每一代环境,都比上一代多了一些「真实世界的样子」:从规则封闭到规则开放,从完美信息到不完美信息,从单局对抗到跨局迁移。

但此前这些环境大多仍是相对封闭、可切分、可重复评测的任务场,比如Atari是固定规则的街机游戏,AlphaStar面对的是一局一局结束的星际对战,SIMA则在多个3D虚拟环境中测试跨游戏泛化。

EVE的不同之处在于,它是一个长期运行、玩家驱动、经济和政治结构持续演化的持久世界。

它是在23年间,经由一群真实玩家在开放规则的世界里自发演化出来的:完整的玩家驱动经济(ISK价格波动堪比真实金融市场),跨联盟的政治结构(外交、间谍、停战协议),从小规模冲突到21小时大战的整套战争生态。

圈内对智能体评估的共识越来越清楚,单点任务跑分早就玩不出什么新花样了,但长程记忆、跨周规划、从失败中学习,一直没有像样的评估场。

所以,DeepMind这次的选择是:与其再造一个合成环境,不如走进一个已经被人类玩家用23年压力测试过的「人造社会」。

但更大的问题也随之浮现:

一个能在EVE里持续存在、持续学习、持续规划的AI智能体,它和在真实世界里自主运作的智能体之间,还差什么?

参考资料:

https://x.com/GoogleDeepMind/status/2052011542707630461

https://www.ccpgames.com/news/2026/studio-behind-eve-online-goes-independent-rebrands-as-fenris-creations-enters-research-partnership-with-google-deepmind

https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

本文来自微信公众号“新智元”,作者:ASI启示录,编辑:元宇

相关问答

QDeepMind为何选择与EVE Online背后的公司Fenris Creations进行合作研究?

ADeepMind选择与EVE Online合作,主要是因为它提供了一个复杂、玩家驱动且持续运行了23年的“人造社会”作为安全沙盒。这个环境没有终局,包含真实的经济、政治、军事体系,是测试AI智能体在长程规划、记忆和持续学习这三个公认难点上的完美实验场。

Q文章中提到AI智能体研究中“最难啃的三块骨头”具体是什么?

A这三块骨头分别是:长程规划(long-horizon planning)、记忆(memory)和持续学习(continual learning)。它们被认为是当前AI智能体研究领域最具挑战性的方向。

QEVE Online玩家在日常游戏中如何天然地处理了“记忆”和“持续学习”这两大难题?

AEVE玩家的好友列表、备注信息(如历史恩怨、债务、间谍身份等)构成了跨越十年以上的“长程记忆”。同时,玩家社群会系统性地复盘大型战役,不断迭代舰队配置与战术体系,这体现了在失败中学习并持续更新的“持续学习”能力。

QDeepMind与Fenris Creations的合作研究将以何种方式进行?AI智能体是否会进入EVE正式服?

A合作研究将以保守的方式进行。DeepMind明确表示,初始研究将在离线版本的EVE Online上进行,使用本地服务器,在受控环境中测试模型。AI智能体不会连接或干扰EVE Online的正式运营服务器,因此不会影响现役玩家的游戏体验或服务器经济。

Q从Atari到EVE,DeepMind选择的AI训练场呈现怎样的演变趋势?EVE与前代环境的关键区别是什么?

A演变趋势是从规则封闭、任务明确的简单环境(如Atari的固定关卡),逐步走向规则开放、信息不完全、对抗性强的环境(如星际争霸),再发展到追求跨游戏泛化(如SIMA)。EVE与之前所有环境的关键区别在于,它是一个长期持续、由玩家驱动并不断演化的“持久世界”,其中的经济、政治和战争生态是在23年间由真实玩家自发构建出来的,提供了一个前所未有的复杂、动态且没有终局的评估场。

你可能也喜欢

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

稳定币发行商Circle已将一个与隐私协议Zama相关的智能合约列入黑名单,冻结了约1260万美元的用户资金。此次冻结首先由链上调查员ZachXBT发现,涉及Zama在以太坊上部署的保密USDC(cUSDC)合约。该合约地址在Zama的公开文档中可查,其冻结过程可被实时追踪和验证。 进一步分析显示,此次冻结可能与资产管理和收益协议Overnight Finance近期的争议及法律问题间接相关。数据显示,一个疑似与Overnight Finance相关的钱包于2026年5月11日向Zama合约存入约1240万美元USDC。Overnight Finance近期正面临治理纠纷和可能被团队“拉地毯”的指控,并因此进行了国库资产分配投票。此外,该公司还卷入一起民事诉讼,原告之一是DeFi领域以激进治理策略闻名的Patagon Management。尽管Circle的行动与这些事件之间尚无直接因果证据,但法律程序、资金流动与冻结事件的重叠,引发了人们对DeFi协议间风险传导的担忧。 Circle此次单方面行动再次引发对中心化发行商透明度的批评。据ZachXBT称,Zama团队在合约被列入黑名单前似乎未获任何通知。这加剧了人们对中心化实体在无预警情况下影响去中心化应用及其用户的担忧。此前在2026年3月,Circle曾冻结多个实体相关的热钱包而未公开说明理由。本次行动则更进一步,直接冻结了协议级别的资金池合约,而非独立钱包,这引发了人们对所谓去中心化系统中托管风险的质疑。截至目前,Circle尚未就冻结Zama合约的原因发布官方解释。

bitcoinist21分钟前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

bitcoinist21分钟前

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit7小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit7小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

2023年3月,在GPT-4发布前,作者王健硕对ChatGPT的未来做出了二十项预测。三年后的2026年,他使用AI agent对这些判断进行回顾验证,评估其准确性。 **主要看对的方面:** 1. **RAG成为主流**:预测通过外部检索而非修改模型来解决知识更新和幻觉问题,这已成为行业标准架构。 2. **LUI(自然语言界面)兴起**:预测自然语言交互将催生巨大新产业,Agent、MCP协议等发展印证了这一点,但LUI是与GUI共存而非取代。 3. **机器人网络与新寻址系统**:预测Agent将自动协作并需要新寻址方式,MCP、A2A等协议正朝此方向发展。 4. **中国能做出可用大模型**:预测中美模型差距会迅速缩小,事实如此,但真正领先的国内厂商与其当初点名不同。 5. **AI无意识与图灵测试本质**:核心判断“AI无意识,图灵测试仅测表象”基本成立,但“绝无意识”的绝对论断被后续研究置于灰区。 **看错或看偏的方面:** 1. **GPT-4参数数量**:所传“100T参数”严重错误,实际约为1.8T。 2. **LLM的数学能力**:诊断“数学差需外挂工具”正确,但“不可能自行学会”的结论被后续“推理模型”在IMO夺金证伪。 3. **价值捕获**:预测价值在应用层,但现实中算力层(如英伟达)捕获了最大利润,模型层反而亏损。 4. **版权问题**:判断“生成物可能无法登记版权”正确,但认为能“规避侵权”则错误,已出现巨额侵权赔偿案例。 5. **信息茧房与世界大同**:机制上AI会将观点向众数平均,但AI正快速走向“千人千面”的个性化,可能制造新茧房而非消解极化。 6. **大模型成本**:预测“局部战争”和玩家涌入正确,但“5-10亿美元封顶”的成本估算与前沿训练实际花费严重不符。 **总结规律:** 1. 判断**方向和机制**比具体数字、程度更可靠。 2. 倾向于**高估短期变化速度,低估长期能力上限**。 3. 容易忽略**问题内部的分布差异**(如总量正确但部分群体受损)。 4. **留有餘地、分层表述**的判断更经得起时间检验。 5. 一些根本性争论,**三年时间不足以给出最终答案**。 这次回顾表明,在快速变化的领域,把握大方向比追求精确预测更重要,同时需警惕绝对化表述并承认认知的局限性。

链捕手10小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

链捕手10小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

536人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片