Топовые ИИ-модели не осилили видеоигры девяностых

cryptonews.ru发布于2025-03-21更新于2025-04-21

Даже самые продвинутые ИИ-модели не способны эффективно играть в классический шутер от первого лица Doom. К такому выводу пришли эксперты после проверки нейросетей в новом бенчмарке VideoGameBench.

Claude can play Pokemon, but can it play DOOM?

With a simple agent, we let VLMs play it, and found Sonnet 3.7 to get the furthest, finding the blue room!

Our VideoGameBench (twenty games from the 90s) and agent are open source so you can try it yourself now —> 🧵 pic.twitter.com/vl9NNZPBHY
— Alex Zhang (@a1zhang) April 17, 2025

Тест призван проверить способность современных нейросетей играть и побеждать в 20 популярных видеоиграх. Использовать они могут только информацию с экрана.

«Современные модели VLM с трудом справляются с видеоиграми из-за высокой задержки вывода. Когда агент делает снимок экрана и запрашивает VLM о том, какое действие ему следует предпринять, к моменту получения ответа состояние игры значительно меняется, и действие уже неактуально», — отметили исследователи.

Для теста использовались классические игры из 1990 годов из-за простых визуальных эффектов и различных стилей ввода вроде мыши, клавиатуры и игрового контроллера. Такой подход позволяет проверить у модели пространственное мышление и «зрение».

VideoGameBench разработан ученым и ИИ-исследователем Алексом Чжаном. В бенчмарк входят Warcraft II, Age of Empires, Prince of Persia и другие игры.

Список игр из бенчмарка VideoGameBench. Данные: сайт vgbench.

Sonnet 3.7 справилась с Doom лучше остальных — нейросеть нашла синюю комнату.

Исследователи подчеркнули, что задержка реакции — главная проблема в шутерах от первого лица. В быстро меняющейся обстановке враг может переместиться или даже добраться до игрока раньше его реакции на происходящее.

Помимо проблем с пониманием игрового окружения, модели также не могли выполнить основные действия.

«Мы часто наблюдали случаи, когда агент не мог понять, как его действия вроде движения вправо будут отображаться на экране. Самой распространенной ошибкой среди всех протестированных нами пограничных моделей оказалась неспособность надежно управлять мышью в таких играх, как Civilization и Warcraft II, где очень важны точные и частые движения», — отметили эксперты.

Также модели не всегда понимают игровые механики, когда нет прямой инструкции о необходимых действиях.

Напомним, в феврале ИИ-стартап Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet, которая прошла игру Pokemon.

你可能也喜欢

Base 凌晨停摆两小时：一个无效区块，照出 L2 的单点现实

北京时间6月26日凌晨，由Coinbase构建的以太坊二层网络Base主网因共识问题导致无效区块被排序，使得后续新区块无法生成，停摆约两小时。期间影响了网络的充值、提现、出块等核心功能。 Base采用高可用排序器系统，日常区块生产由一个活跃排序器（leader）负责，其余作为备用。此次事故暴露了其对单一排序器在区块生产环节的依赖。这并非Base首次因排序器问题中断，上一次发生在2025年8月，系高可用切换流程故障。事故发生时间点临近Base的“Beryl”升级窗口（该升级已推迟至27日）。Beryl升级的核心之一是引入B20原生代币标准，该标准旨在为项目方提供更标准化的链上资产发行工具，有别于市场关注的Base自身是否发币。此次事件引发思考：Layer 2网络虽然在安全性和最终性上依赖以太坊，但其日常可用性高度依赖于中心化或半中心化的排序器及运维系统。事故也让关于Base未来若发行自身网络代币的讨论变得更加实际——代币机制应如何对应排序器去中心化、治理约束和事故权责分配等深层次问题。

Foresight News2分钟前

Foresight News2分钟前

STRC不回锚，BTC就没有牛市

Strategy优先股STRC价格持续“脱锚”，跌破80美元，距离目标面值100美元已偏离近25%。STRC是Strategy最高效的融资渠道，其持续脱锚导致该渠道基本失效。同时，STRC每年带来超12亿美元的现金股息支出，而Strategy现金储备仅约14亿美元，面临巨大现金流压力。为应对困境，Strategy近期转向增发普通股融资，但募集资金中仅约一成用于增持比特币，大部分用于补充现金，这导致普通股股东权益被稀释，每股对应比特币数量下降。此前稳定的比特币边际买盘正在减弱。若STRC无法回锚，Strategy可能被迫长期依赖稀释性的普通股融资，甚至考虑出售比特币储备，这将对比特币市场构成潜在抛压。文章认为，STRC能否回锚已成为影响比特币牛市的关键。

Odaily星球日报23分钟前

Odaily星球日报23分钟前

探究STABLE近期上涨5%后，其上升趋势是否可持续

在整体加密货币市场表现疲软的背景下，STABLE 展现出相对强势。6月24日市场大跌时，STABLE 成功守住0.33美元支撑位，并攀升至0.365美元的局部高点。截至发稿，其交易价格约为0.362美元，过去24小时上涨5.5%，周涨幅达7%，交易量也增长25%至2080万美元，显示市场参与度提升。技术分析显示看涨结构增强：STABLE 已站上20日及50日指数移动平均线，随机动量指数虽处看跌区域但呈上升轨迹，表明买盘动能改善。现货资金流向连续七日为负，且近期流出远大于流入，进一步证实了持续的现货需求。然而，网络基本面存在隐忧。价格与活跃地址数背离指标连续七日为负，表明用户参与度并未跟上价格上涨，网络使用情况疲弱。这种结构性弱点历来会增加价格回调风险。综合来看，在需求支撑下，STABLE 有望延续上行势头，挑战0.40美元阻力位。但若无法站稳0.36美元上方，则可能回调至0.34美元下方，并在0.32美元寻找支撑。

ambcrypto33分钟前

ambcrypto33分钟前

Tornado Cash 再遭治理攻击：一份假提案盯上了 2300 万美元社区金库

2026年6月25日，Tornado Cash DAO出现一份编号67的治理提案，标题为“建立0.5%费率标准与90%动态通缩销毁方案”，内容看似旨在优化协议经济模型。但安全研究员发现，该提案合约代码未经验证，其真实目的是通过一个隐蔽函数，将协议的管理员地址替换为攻击者控制的地址（0x5efda50f22d34f272c7077689d6abc42f15e285f），该地址与真实治理地址高度相似。若提案通过，攻击者可盗取治理合约中约2300万美元的TORN代币并瘫痪协议。提案创建者的资金来源于隐私协议Railgun，难以追踪。社区及时发现恶意意图后，投票结果呈压倒性反对（27,163 TORN反对，0票赞成）。由于未达到10万TORN的法定投票数，提案预计将失效。这是Tornado Cash第二次遭遇类似治理攻击，上次发生在2023年5月。此次事件再次暴露DAO治理的常见风险。对普通用户而言，需关注安全预警，对未验证合约的提案保持警惕，并考虑委托投票权以提升安全性。对协议而言，引入时间锁（Timelock）机制是重要的防御措施，能为社区审查提供缓冲期。

Foresight News43分钟前

Tornado Cash 再遭治理攻击：一份假提案盯上了 2300 万美元社区金库

Foresight News43分钟前

拖更三年，北大校友翁荔最新长文刷屏

前OpenAI副总裁翁荔（Lilian Weng）发表了一篇关于AI扩展定律（Scaling Laws）的深度分析文章。文章指出，这条指导了AI行业数百亿美元投入的核心定律，远比人们想象的更为脆弱。文章回顾了Scaling Laws的基本思想，即模型性能随规模扩大而可预测地提升。然而，OpenAI与DeepMind在关键问题上得出了相反结论：给定算力，资源应更多分配给模型还是数据？OpenAI的Kaplan团队认为模型增长应更快，而DeepMind的Chinchilla团队则认为应等比增长。后来研究发现，这一分歧源于参数统计口径的差异和实验规模不足，导致Kaplan的结论仅适用于小规模场景。更关键的是，被行业广泛采纳的Chinchilla最优配比公式本身也存在方法论瑕疵。2024年有团队复现发现，其损失函数因取均值而非求和，导致优化器提前停止，输出并非最优解。此外，用于外推的关键参数精度不足，放大了误差。文章进一步指出，经典Scaling Laws的根本前提——高质量数据无限供应——正在崩塌。数据重复训练不可避免，新研究引入了惩罚项来修正公式，并发现大模型对数据重复更敏感。这解释了行业为何转向强化学习、测试时计算和合成数据等新路径。翁荔的博客以其清晰深入的技术解析著称，这篇文章历时三年完成。她于2025年联合创立了新公司Thinking Machines Lab。文章强调，下一代AI的进步不仅依赖算力规模，更取决于对这些基础定律细节更精确的理解与运用。

marsbit1小时前