Топовые ИИ-модели не осилили видеоигры девяностых

cryptonews.ru发布于2025-03-21更新于2025-04-21

Даже самые продвинутые ИИ-модели не способны эффективно играть в классический шутер от первого лица Doom. К такому выводу пришли эксперты после проверки нейросетей в новом бенчмарке VideoGameBench.

Claude can play Pokemon, but can it play DOOM?

With a simple agent, we let VLMs play it, and found Sonnet 3.7 to get the furthest, finding the blue room!

Our VideoGameBench (twenty games from the 90s) and agent are open source so you can try it yourself now —> 🧵 pic.twitter.com/vl9NNZPBHY

— Alex Zhang (@a1zhang) April 17, 2025

Тест призван проверить способность современных нейросетей играть и побеждать в 20 популярных видеоиграх. Использовать они могут только информацию с экрана.

«Современные модели VLM с трудом справляются с видеоиграми из-за высокой задержки вывода. Когда агент делает снимок экрана и запрашивает VLM о том, какое действие ему следует предпринять, к моменту получения ответа состояние игры значительно меняется, и действие уже неактуально», — отметили исследователи.

Для теста использовались классические игры из 1990 годов из-за простых визуальных эффектов и различных стилей ввода вроде мыши, клавиатуры и игрового контроллера. Такой подход позволяет проверить у модели пространственное мышление и «зрение».

VideoGameBench разработан ученым и ИИ-исследователем Алексом Чжаном. В бенчмарк входят Warcraft II, Age of Empires, Prince of Persia и другие игры.

Список игр из бенчмарка VideoGameBench. Данные: сайт vgbench.

Sonnet 3.7 справилась с Doom лучше остальных — нейросеть нашла синюю комнату.

Исследователи подчеркнули, что задержка реакции — главная проблема в шутерах от первого лица. В быстро меняющейся обстановке враг может переместиться или даже добраться до игрока раньше его реакции на происходящее.

Помимо проблем с пониманием игрового окружения, модели также не могли выполнить основные действия.

«Мы часто наблюдали случаи, когда агент не мог понять, как его действия вроде движения вправо будут отображаться на экране. Самой распространенной ошибкой среди всех протестированных нами пограничных моделей оказалась неспособность надежно управлять мышью в таких играх, как Civilization и Warcraft II, где очень важны точные и частые движения», — отметили эксперты.

Также модели не всегда понимают игровые механики, когда нет прямой инструкции о необходимых действиях.

Напомним, в феврале ИИ-стартап Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet, которая прошла игру Pokemon.

你可能也喜欢

拖更三年,北大校友翁荔最新长文刷屏

前OpenAI副总裁翁荔(Lilian Weng)发表了一篇关于AI扩展定律(Scaling Laws)的深度分析文章。文章指出,这条指导了AI行业数百亿美元投入的核心定律,远比人们想象的更为脆弱。 文章回顾了Scaling Laws的基本思想,即模型性能随规模扩大而可预测地提升。然而,OpenAI与DeepMind在关键问题上得出了相反结论:给定算力,资源应更多分配给模型还是数据?OpenAI的Kaplan团队认为模型增长应更快,而DeepMind的Chinchilla团队则认为应等比增长。后来研究发现,这一分歧源于参数统计口径的差异和实验规模不足,导致Kaplan的结论仅适用于小规模场景。 更关键的是,被行业广泛采纳的Chinchilla最优配比公式本身也存在方法论瑕疵。2024年有团队复现发现,其损失函数因取均值而非求和,导致优化器提前停止,输出并非最优解。此外,用于外推的关键参数精度不足,放大了误差。 文章进一步指出,经典Scaling Laws的根本前提——高质量数据无限供应——正在崩塌。数据重复训练不可避免,新研究引入了惩罚项来修正公式,并发现大模型对数据重复更敏感。这解释了行业为何转向强化学习、测试时计算和合成数据等新路径。 翁荔的博客以其清晰深入的技术解析著称,这篇文章历时三年完成。她于2025年联合创立了新公司Thinking Machines Lab。文章强调,下一代AI的进步不仅依赖算力规模,更取决于对这些基础定律细节更精确的理解与运用。

marsbit1小时前

拖更三年,北大校友翁荔最新长文刷屏

marsbit1小时前

交易

现货
合约
活动图片