Команда NVIDIA создала агента-программиста, который берет на себя эксперименты с реальными роботами, достигая успеха в 99% случаев

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

Проект ENPIRE от NVIDIA GEAR Labs впервые реализовал полностью автоматизированные исследования на реальном роботизированном оборудовании. Система, состоящая из восьми автономных кодирующих агентов Codex, управляет флотом роботов для решения сложных задач ловкости, таких как завязывание стяжек, сортировка булавок и установка GPU, с успешностью до 99%. Агенты работают автономно в замкнутом цикле: сброс среды, поиск в литературе, реализация идей, обучение стратегий, развертывание, валидация и итеративное улучшение кода, практически без вмешательства человека. Ключевые инсайты: создание автоматизированной среды сброса часто проще, чем сама задача. Система демонстрирует «физический закон масштабирования» — увеличение числа параллельных роботов (например, до 8) значительно ускоряет решение. Введены новые метрики: MRU (средняя загрузка роботов) и MTU (эффективность использования токенов агентами). Текущая загрузка роботов ниже 50%, что указывает на потенциал роста через оптимизацию скорости работы агентов. Цель — достичь полностью автономной работы лаборатории. Проект будет открыт, что позволит разработчикам создавать подобные системы.

Автоматизированные исследования на этот раз действительно вышли из песочницы кода в реальный физический мир.

Недавно Джим Фан, руководитель лаборатории NVIDIA GEAR, представил новый проект под названием ENPIRE. Это их первая реализация автоматизированных исследований на роботизированном оборудовании.

Они поместили 8 агентов Codex во флотилию роботов, выделили им вычислительные мощности GPU и достаточный бюджет токенов, поставив простую цель: как можно быстрее решать задачи, поддерживать роботов в занятом, но безопасном состоянии и не тратить вычислительные ресурсы впустую.

Далее человеческое вмешательство практически прекратилось. Агенты автономно управляли всем замкнутым циклом: автоматически сбрасывали сцены, искали литературу, реализовывали идеи и строили инфраструктуру, обучали и развертывали стратегии, проводили самопроверку, анализировали логи и улучшали код, постоянно итерационно повторяя этот процесс, пока в реальном оборудовании не удавалось надежно выполнить задачи, требующие высокой точности и ловкости, такие как завязывание кабельных стяжек, упорядочивание игл в коробке или установка GPU.

Они также наблюдали «закон масштабирования в физическом мире»: увеличение количества параллельно работающих роботов (например, с нескольких до 8) значительно ускоряло решение задач.

В настоящее время часть систем лаборатории уже реализует самоитерацию в течение всей ночи без вмешательства человека, и исследователям достаточно лишь просматривать отчеты по утрам.

Джим Фан заявил, что цель на будущее — позволить членам команды спокойно уходить в отпуск, и даже генеральный директор NVIDIA Дженсен Хуанг не будет замечать, что лаборатория продолжает работать автономно.

Проект ENPIRE планируется полностью открыть, и тогда обычные разработчики смогут построить у себя дома аналогичную систему автономных роботизированных исследований.

Адрес проекта: https://research.nvidia.com/labs/gear/enpire/

Архитектура системы ENPIRE: четыре модуля образуют замкнутый цикл

ENPIRE — это каркасная система, разработанная для агентов-кодеров, которая с помощью четырех ключевых модулей создает воспроизводимый цикл физической обратной связи: модуль среды (EN) отвечает за автоматический сброс и проверку, модуль улучшения стратегии (PI) запускает оптимизацию стратегии, модуль прогона (R) поддерживает оценку стратегии на одном или нескольких роботах параллельно, а модуль эволюции (E) позволяет агенту-кодеру анализировать логи, изучать литературу, улучшать инфраструктуру обучения и код алгоритмов для устранения режимов сбоев.

Эта замкнутая система превращает обучение роботов в реальном мире в контролируемый, управляемый агентом процесс оптимизации, что сводит к минимуму ручной труд и одновременно позволяет проводить честные сравнительные эксперименты между различными рецептами обучения и вариантами агентов.

Благодаря поддержке ENPIRE передовые агенты-программисты смогли автономно разрабатывать стратегии и достигать 99% успеха в выполнении сложных задач по ловкому манипулированию в реальном мире, таких как PushT, укладывание штифтов в коробку, обрезание кабельных стяжек ножом.

Ключевое наблюдение: сброс среды часто проще, чем выполнение самой задачи

Одним из ключевых наблюдений стало: для многих роботизированных задач сброс среды зачастую проще, чем выполнение самой задачи.

Поэтому подход ENPIRE заключается в том, чтобы сначала позволить агенту построить среду автоматического сброса с помощью Code-as-Policy. Во многих случаях такой сброс — это просто задача pick-and-place, которую может решить Cap-X.

Затем интеллектуальный агент пишет эвристическую функцию вознаграждения. Исследовательская команда помещает эту среду в песочницу и запускает агента для проведения автоматизированных исследований вокруг полученных баллов.

Это также перекликается с определением автоматизированных исследований по Карпати: здесь речь идет не о простой настройке гиперпараметра или изменении небольшого фрагмента кода. Агент будет исследовать различные парадигмы в интернете и переписывать все, что может повысить производительность, включая алгоритмы, цели обучения и даже загрузчики данных.

В задаче с укладкой штифтов один агент даже самостоятельно написал контроллер безопасности по силе контакта, превзойдя по эффективности простую настройку нескольких параметров обучения с подкреплением.

Новые метрики: MRU и MTU

Масштабируемость ENPIRE зависит от размера команды агентов и вычислительных ресурсов, но здесь по-настоящему дефицитным ресурсом являются не GPU, а время работы роботов.

Когда исследовательская группа предоставила агентам 8 роботов вместо 1, время, необходимое для достижения почти идеального результата в задаче с укладкой штифтов, сократилось с более чем 1,5 часов до примерно 40 минут. Эти агенты координировались через Git: делились кодом, отказывались от неперспективных идей и автономно выбирали лучшие результаты выполнения друг у друга.

Это указывает на более масштабное изменение: робототехнические исследования превращаются в работу по проектированию среды — созданию окружения, в котором агенты-программисты могут проводить автоматизированные исследования; алгоритмическая работа смещается на более высокий уровень, превращаясь в построение замкнутого цикла обратной связи, который агенты могут замыкать самостоятельно.

И этот цикл будет наращиваться по сложным процентам: навык, освоенный агентом сегодня, завтра станет строительным блоком для создания и сброса среды для более сложных задач. Способности будут самовоспроизводиться, порождая новые способности.

В этой парадигме реальным жестким ограничением является бюджет на взаимодействие с реальным миром.

Поэтому исследовательская группа предложила две метрики:

  • Средняя утилизация роботов (Mean Robot Utilization, MRU): доля времени, которое роботы фактически тратят на проведение экспериментов, от общего реального затраченного времени.
  • Средняя утилизация токенов (Mean Token Utilization, MTU): измеряет эффективность преобразования агентом токенов в исследовательский прогресс.

В их экспериментах MRU всегда была ниже 50%. То есть роботы половину времени простаивали, ожидая, пока агент подумает. Поэтому улучшение обвязки (harness) и более быстрые модели напрямую превращаются в практическую выгоду.

PushT — давно используемый бенчмарк для манипуляций роботов. Обычно для выполнения этой задачи требуется большое количество демонстрационных данных от человека и несколько часов обучения методом поведенческого клонирования.

Но они увидели, что Codex, Claude Code и Kimi Code с помощью одного эвристического метода на основе правил «решили» эту задачу менее чем за 2 часа: без использования нейронных сетей, без обучения и без каких-либо человеческих данных.

Чтобы больше людей смогли попробовать автоматизированные исследования в физическом мире у себя дома, они на основе набора SO-101 от @LeRobotHF + NVIDIA Jetson Thor разработали полноценную стековую систему. Эта система может выполнять задачу PushT.

Ссылки для справки:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Статья из официального аккаунта WeChat «Машины и разум» (ID: almosthuman2014), автор: Ян Вэнь

Связанные с этим вопросы

QЧто такое проект ENPIRE и в чём его основное достижение?

AENPIRE — это проект NVIDIA GEAR Lab, впервые реализующий автоматизированные исследования на роботизированном оборудовании. Его основное достижение — успешное создание замкнутой системы, в которой агенты на основе кода (Codex Agent) автономно проводят исследования, включая поиск литературы, реализацию идей, обучение и развёртывание стратегий в реальном мире, достигая 99% успеха в выполнении сложных задач, таких как завязывание стяжек и сортировка булавок.

QКакие четыре ключевых модуля составляют архитектуру системы ENPIRE?

AАрхитектура системы ENPIRE состоит из четырёх ключевых модулей, образующих замкнутый цикл: модуль среды (EN, Environment), который отвечает за автоматический сброс и верификацию; модуль улучшения стратегии (PI, Policy Improvement), запускающий оптимизацию стратегий; модуль оценки (R, Rollout) для оценки стратегий на одном или нескольких роботах; и эволюционный модуль (E, Evolution), где кодирующие агенты анализируют логи, исследуют литературу и улучшают код для устранения ошибок.

QЧто означают новые метрики MRU и MTU, предложенные исследователями в проекте ENPIRE?

AMRU (Средняя утилизация робота) — это процент времени, в течение которого робот фактически выполняет эксперимент от общего затраченного времени, показывая, насколько эффективно используется аппаратное обеспечение. MTU (Средняя утилизация токенов) измеряет эффективность преобразования вычислительных ресурсов (токенов) в реальный прогресс исследования. Низкий MRU, например менее 50%, указывает на то, что роботы простаивают, ожидая вычислений агентов.

QКакое ключевое наблюдение было сделано относительно задач для роботов в проекте ENPIRE?

AКлючевое наблюдение заключается в том, что для многих задач роботов сброс среды (например, возврат предметов в исходное положение) зачастую оказывается проще, чем само выполнение задачи. Поэтому система ENPIRE сначала поручает агенту создать автоматизированный сброс среды (часто через простое действие «возьми и положи»), а затем уже фокусируется на решении основной задачи через автоматизированное исследование.

QКак увеличение количества параллельных роботов повлияло на скорость решения задач в эксперименте?

AИсследователи обнаружили «физический закон масштабирования»: увеличение количества параллельно работающих роботов (например, с одного до восьми) значительно ускоряет решение задач. В задаче сортировки булавок время достижения почти идеального результата сократилось с более чем 1,5 часов до примерно 40 минут благодаря параллельной работе нескольких агентов, которые координировались через Git, обмениваясь кодом и выбирая лучшие результаты.

Похожее

Внезапно, сокрушительный удар для Google: ведущий сопредседатель Gemini переходит в OpenAI

Внезапная новость: Ноам Шейзер, один из соавторов знаменитой статьи «Attention Is All You Need», в которой был представлен архитектурный подход Transformer, и сопредседатель проекта Gemini в Google DeepMind, перешел в OpenAI. Он займет должность руководителя исследований в области архитектуры (Lead for Architecture Research), где будет заниматься изучением архитектур следующего поколения для ИИ-моделей и развитием Transformer. Шейзер проработал в Google почти 18 лет и сыграл ключевую роль в создании многих фундаментальных технологий, включая смешанных экспертов (MoE). В 2021 году он покинул Google и стал соучредителем Character.AI. В 2024 году Google вернул его и часть команды в DeepMind в рамках сделки на сумму около 27 миллиардов долларов, где он стал одним из руководителей Gemini. Его переход в OpenAI рассматривается как серьезный удар для Google и значительное усиление для OpenAI, особенно на фоне жесткой конкуренции с Anthropic. Шейзеру предстоит исследовать возможные преемники архитектуры Transformer, которая почти десять лет лежит в основе современных больших языковых моделей. Это событие подчеркивает остроту битвы за ведущие таланты в сфере искусственного интеллекта.

marsbit15 мин. назад

Внезапно, сокрушительный удар для Google: ведущий сопредседатель Gemini переходит в OpenAI

marsbit15 мин. назад

10 лет спустя, Олтман наконец получил человека, которого хотел

Нойм Шазер, один из ключевых авторов революционной архитектуры Transformer и бывший ведущий инженер Google, объявил о переходе в OpenAI. Это решение он подтвердил в своём аккаунте в X, отметив сложность ухода из Google и выразив гордость за работу с командой. Сэм Олтман, CEO OpenAI, заявил, что Шазер был одним из людей, с которыми он больше всего хотел сотрудничать с момента основания компании, и что «ожидание в 10 лет того стоило». Шазер займёт в OpenAI должность руководителя архитектурных исследований. Нойм Шазер — легендарная фигура в области ИИ. Помимо соавторства в основополагающей работе «Attention Is All You Need», его исследования в области смешанных экспертных моделей (MoE) и эффективного декодирования заложили фундамент для современных больших языковых моделей. В 2021 году он покинул Google из-за разочарования в бюрократии и стал сооснователем Character.AI, но в 2024 году вернулся в Google DeepMind в рамках сделки на 2,7 млрд долларов, чтобы возглавить техническое направление Gemini. Его новый уход менее чем через два года считается значительной потерей для проекта Gemini. В сообществе это событие восприняли неоднозначно: некоторые видят в этом серьёзный удар по конкурентоспособности Gemini, другие же иронично отмечают, что OpenAI получила экспертизу Шазера практически бесплатно. Этот переход считается важной победой OpenAI в войне за таланты в сфере ИИ.

marsbit19 мин. назад

10 лет спустя, Олтман наконец получил человека, которого хотел

marsbit19 мин. назад

«Выживание по побочному заработку» компании DAT: после остановки маховика накопления монет они начали спасаться

Компании, накапливавшие криптовалюты (DAT), столкнувшись с остановкой механизма роста курсов и падением премий к стоимости активов, ищут пути выживания. Крупнейшие игроки, такие как Metaplanet и Strategy, меняют стратегии, отказываясь от размытия акций и пробуя залоговое финансирование. Многие другие компании, подобные ETHZilla, вообще отказываются от модели DAT, возвращаясь к основному бизнесу. Наметились два основных направления трансформации. Первое — превращение в институциональные платформы управления активами и фонды дохода, как SharpLink Gaming и GameSquare, которые стремятся получать сверхдоходы через стейкинг и DeFi. Второе — переход к роли операторов блокчейн-инфраструктуры, особенно в экосистеме Solana (DeFi Development, SOL Strategies), где компании зарабатывают на услугах стейкинга и интеграции в DeFi-протоколы. Этот сдвиг отражает взросление индустрии: простая игра на повышение курса уступает место созданию реальной ценности, операционным преимуществам и участию в развитии экосистем. Однако новые стратегии несут риски (сбои в DeFi, зависимость от конкретных блокчейнов). В итоге, фаза перехода от капиталистической лихорадки к более устойчивым бизнес-моделям может стать признаком зрелости отрасли, где выживут те, кто строит реальную ценность, а не просто спекулирует активами.

marsbit23 мин. назад

«Выживание по побочному заработку» компании DAT: после остановки маховика накопления монет они начали спасаться

marsbit23 мин. назад

Доход 13 миллиардов, Microsoft получает 17,2 миллиарда: реальность сжигания денег в ИИ из утечки бухгалтерских книг OpenAI

Утечка финансового документа OpenAI за 2025 год показала, что, несмотря на рост выручки до $13,07 млрд (рост на 253%), операционные убытки компании составили $20,92 млрд. Чистый убыток, скорректированный с учётом разовых неденежных расходов, составил примерно $8 млрд. Ключевой причиной является высокий уровень затрат: на каждый заработанный доллар OpenAI тратит $1,6. Основные статьи расходов — это исследования и разработки ($19,18 млрд, включая платежи Microsoft) и вычислительные ресурсы для инференса ($7,5 млрд). Особое бремя представляет собой зависимость от Microsoft: общие выплаты ей в 2025 году достигли $17,2 млрд (50,5% от общих затрат OpenAI), что превышает всю выручку компании. Аналогичная ситуация с высокими затратами наблюдается у конкурентов. xAI в 2025 году имела операционные убытки в $6,4 млрд при выручке $3,2 млрд, а у Anthropic, несмотря на быстрый рост выручки, валовая прибыль оказалась ниже ожиданий из-за высоких затрат на инференс. При этом монетизация пользовательской базы OpenAI остается сложной задачей: из 900 млн еженедельных активных пользователей ChatGPT только около 50 млн (5,6%) являются платными. Текущая модель развития отрасли ИИ, основанная на масштабировании и высоких инвестициях в НИОКР и вычисления, ведет к огромным убыткам. Будущее устойчивости компаний зависит от способности радикально снизить предельные издержки, особенно на инференс. Пока же основным источником финансирования этого роста остается доверие и капитал инвесторов.

marsbit35 мин. назад

Доход 13 миллиардов, Microsoft получает 17,2 миллиарда: реальность сжигания денег в ИИ из утечки бухгалтерских книг OpenAI

marsbit35 мин. назад

Основатель zkSync «собственноручно уволил» ключевую команду: бывшая звезда масштабирования Ethereum полностью переходит на обслуживание банков

Автор: Клод, Deep Tide TechFlow **Введение:** Основатель Matter Labs Алекс Глуховский 17 июня объявил о новом раунде сокращений. Компания полностью сосредотачивается на «разрешенной» приватной цепи Prividium, предназначенной для обслуживания регулируемых финансовых институтов. Это второе сокращение за два года. Основатель, называющий себя «максималистом свободы», в итоге привел проект к регулированию, разрешениям и банкам. Реакция сообщества неоднозначна, самый острый вопрос: куда делись 458 миллионов долларов привлеченных средств? Токен $ZK торгуется около $0.019, потеряв около 93% от исторического максимума. История zkSync движется в направлении, противоположном первоначальным обещаниям. Были уволены опытные инженеры, дизайнеры и операционные сотрудники. Главное — смена стратегии: от публичной цепи «для всех» к приватной «разрешенной» цепи Prividium для банков, таких как Deutsche Bank и UBS. Это противоречит прошлым заявлениям о технологии как общественном благе. Сообщество раскритиковало решение, требуя отчета о расходах привлеченных средств. Ранее, в сентябре 2024 года, также были увольнения. Токен $ZK сильно просел, а его экономическая модель слабо связана с новой B2B-стратегией компании. Этот поворот отражает высокую конкуренцию на рынке L2-решений Ethereum (Arbitrum, Optimism, Base). После аирдропа в июне 2024 года активность в сети zkSync резко упала. Переход к нишевому обслуживанию банков — понятное коммерческое решение в условиях «красного океана», но оно отталкивает ранних сторонников идеи «безразрешительного» будущего. Matter Labs выбирает более реалистичный и прибыльный путь, жертвуя своими первоначальными идеалами.

marsbit1 ч. назад

Основатель zkSync «собственноручно уволил» ключевую команду: бывшая звезда масштабирования Ethereum полностью переходит на обслуживание банков

marsbit1 ч. назад

Торговля

Спот
Фьючерсы
活动图片