Топовые ИИ-модели не осилили видеоигры девяностых

cryptonews.ruDipublikasikan tanggal 2025-03-21Terakhir diperbarui pada 2025-04-21

Даже самые продвинутые ИИ-модели не способны эффективно играть в классический шутер от первого лица Doom. К такому выводу пришли эксперты после проверки нейросетей в новом бенчмарке VideoGameBench.

Claude can play Pokemon, but can it play DOOM?

With a simple agent, we let VLMs play it, and found Sonnet 3.7 to get the furthest, finding the blue room!

Our VideoGameBench (twenty games from the 90s) and agent are open source so you can try it yourself now —> 🧵 pic.twitter.com/vl9NNZPBHY

— Alex Zhang (@a1zhang) April 17, 2025

Тест призван проверить способность современных нейросетей играть и побеждать в 20 популярных видеоиграх. Использовать они могут только информацию с экрана.

«Современные модели VLM с трудом справляются с видеоиграми из-за высокой задержки вывода. Когда агент делает снимок экрана и запрашивает VLM о том, какое действие ему следует предпринять, к моменту получения ответа состояние игры значительно меняется, и действие уже неактуально», — отметили исследователи.

Для теста использовались классические игры из 1990 годов из-за простых визуальных эффектов и различных стилей ввода вроде мыши, клавиатуры и игрового контроллера. Такой подход позволяет проверить у модели пространственное мышление и «зрение».

VideoGameBench разработан ученым и ИИ-исследователем Алексом Чжаном. В бенчмарк входят Warcraft II, Age of Empires, Prince of Persia и другие игры.

Список игр из бенчмарка VideoGameBench. Данные: сайт vgbench.

Sonnet 3.7 справилась с Doom лучше остальных — нейросеть нашла синюю комнату.

Исследователи подчеркнули, что задержка реакции — главная проблема в шутерах от первого лица. В быстро меняющейся обстановке враг может переместиться или даже добраться до игрока раньше его реакции на происходящее.

Помимо проблем с пониманием игрового окружения, модели также не могли выполнить основные действия.

«Мы часто наблюдали случаи, когда агент не мог понять, как его действия вроде движения вправо будут отображаться на экране. Самой распространенной ошибкой среди всех протестированных нами пограничных моделей оказалась неспособность надежно управлять мышью в таких играх, как Civilization и Warcraft II, где очень важны точные и частые движения», — отметили эксперты.

Также модели не всегда понимают игровые механики, когда нет прямой инструкции о необходимых действиях.

Напомним, в феврале ИИ-стартап Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet, которая прошла игру Pokemon.

Bacaan Terkait

Jika STRC Tidak Kembali ke Anchor, Maka Tidak Ada Bull Run untuk BTC

Penulis menganalisis situasi saham preferen STRC MicroStrategy yang terus "terlepas" dari nilai target $100, kini diperdagangkan sekitar $75. Penyusutan nilai ini mengancam saluran pendanaan utama perusahaan. STRC dirancang sebagai alat pendanaan efisien untuk terus membeli Bitcoin (BTC). Namun, pelepasan nilai berarti MicroStrategy kesulitan menerbitkan saham preferen baru dengan harga penuh. Lebih buruk lagi, STRC yang beredar ($10,49 miliar) membebani arus kas dengan dividen tunai tahunan sekitar $1,2 miliar. Dengan cadangan tunai sekitar $14 miliar, perusahaan hanya dapat menutupi pembayaran dividen ini kurang dari setahun. Untuk mengatasi kekurangan uang tunai dan tetap membeli BTC, MicroStrategy kini mengandalkan penerbitan saham biasa (ATM Offering). Namun, dalam penawaran terbaru, hanya 10% dana yang digunakan untuk membeli BTC, sementara 90% untuk menambah cadangan kas. Praktik ini mengakibatkan pengenceran kepemilikan BTC per saham bagi pemegang saham biasa, yang dapat melemahkan proposisi nilai inti perusahaan. Sebagai pembeli marginal terbesar BTC, perubahan strategi MicroStrategy dari pembeli agresif menjadi perusahaan yang berfokus pada pelestarian kas berisiko mengurangi tekanan beli yang stabil di pasar BTC. Jika tekanan keuangan memburuk, kemungkinan penjualan BTC oleh perusahaan dapat menjadi risiko baru bagi pasar, mengubah perannya dari pendorong menjadi ancaman potensial.

marsbit16m yang lalu

Jika STRC Tidak Kembali ke Anchor, Maka Tidak Ada Bull Run untuk BTC

marsbit16m yang lalu

STRC Tidak Kembali ke Anchor, BTC Tidak Akan Ada Bull Market

Strategi Keuangan MicroStrategy (STRC) terus mengalami de-anchoring dari nilai targetnya sebesar $100, dengan harga jatuh hingga mendekati $75. Artikel ini menganalisis implikasi seriusnya bagi MicroStrategy dan pasar Bitcoin (BTC). STRC adalah alat pendanaan utama MicroStrategy, dirancang untuk mendanai pembelian BTC secara berkelanjutan. De-anchoring yang terus-menerus merusak kemampuan pendanaan ini. Lebih berbahaya lagi, STRC kini menjadi beban arus kas karena mewajibkan pembayaran dividen tunai tahunan lebih dari $1,2 miliar. Dengan cadangan tunai sekitar $1,4 miliar, MicroStrategy hanya dapat menutupi pembayaran dividen ini kurang dari setahun. Untuk mengatasi tekanan likuiditas, MicroStrategy telah beralih ke penjualan saham biasa (ATM Offering). Namun, dana yang terkumpul kini lebih banyak digunakan untuk menambah cadangan kas daripada membeli BTC, yang menyebabkan dilusi nilai BTC per saham bagi pemegang saham biasa. Jika tren ini berlanjut, model bisnis inti perusahaan—terus menambah kepemilikan BTC per saham—akan terancam. Sebagai pembeli marjinal terbesar BTC, perubahan ini memiliki dampak signifikan. Aliran pembelian baru MicroStrategy ke pasar BTC melemah. Lebih mengkhawatirkan, tekanan arus kas dapat memaksa perusahaan untuk menjual sebagian dari kepemilikannya yang besar, mengubahnya dari pendorong utama harga menjadi risiko potensial di atas pasar. Artikel menyimpulkan bahwa selama masalah STRC tidak terselesaikan, tekanan pada model bisnis MicroStrategy akan terus membayangi prospek pemulihan harga Bitcoin.

Odaily星球日报17m yang lalu

STRC Tidak Kembali ke Anchor, BTC Tidak Akan Ada Bull Market

Odaily星球日报17m yang lalu

Tornado Cash Kembali Terkena Serangan Governance: Proposal Palsu Menargetkan Treasury Komunitas Senilai $23 Juta

**Tornado Cash Kembali Menghadapi Serangan Governance: Proposal Palsu Targetkan Perbendaharaan Komunitas Senilai $23 Juta** Pada 25 Juni 2026 pukul 06.18, Proposal #67 muncul di halaman voting DAO Tornado Cash. Proposal yang tampak resmi dan rinci ini mengusulkan pembaruan model ekonomi, tetapi kode kontraknya tidak diverifikasi, sehingga logika eksekusi sebenarnya tidak dapat ditinjau. Peneliti keamanan menemukan bahwa tujuan sebenarnya dari proposal ini adalah mengganti alamat administrator protokol secara diam-diam. Fungsi dalam kode akan mengembalikan alamat milik penyerang yang sangat mirip dengan alamat governance yang sah, sehingga sulit dibedakan. Jika disetujui, penyerang dapat mengambil alih kendali, menguras sekitar 2300 USD jutaan token TORN dari perbendaharaan komunitas, dan mengosongkan saldo relayer. Alamat pembuat proposal didanai melalui Railgun, protokol privasi pesaing, sehingga menyembunyikan identitas asli. Saat ini, proposal telah mendapatkan 100% suara menolak (27.163 TORN), tetapi kuorum 100.000 TORN belum tercapai. Voting akan ditutup pada 30 Juni. Ini adalah serangan governance kedua yang dihadapi Tornado Cash, setelah insiden serupa pada Mei 2023 yang merugikan $2,17 juta. Serangan ini menyoroti kerentanan berulang dalam struktur governance-nya, yang tidak dilengkapi dengan timelock untuk memberikan jeda pemeriksaan keamanan. Artikel ini juga memberikan saran untuk pengguna: ikuti peringatan peneliti keamanan, tolak proposal dengan kontrak tidak terverifikasi, dan delegasikan hak suara jika tidak aktif. Bagi pengembang, implementasi timelock adalah pertahanan penting.

Foresight News38m yang lalu

Tornado Cash Kembali Terkena Serangan Governance: Proposal Palsu Menargetkan Treasury Komunitas Senilai $23 Juta

Foresight News38m yang lalu

Trading

Spot
Futures
活动图片