Команда NVIDIA создала агента-программиста, который берет на себя эксперименты с реальными роботами, достигая успеха в 99% случаев

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

Проект ENPIRE от NVIDIA GEAR Labs впервые реализовал полностью автоматизированные исследования на реальном роботизированном оборудовании. Система, состоящая из восьми автономных кодирующих агентов Codex, управляет флотом роботов для решения сложных задач ловкости, таких как завязывание стяжек, сортировка булавок и установка GPU, с успешностью до 99%. Агенты работают автономно в замкнутом цикле: сброс среды, поиск в литературе, реализация идей, обучение стратегий, развертывание, валидация и итеративное улучшение кода, практически без вмешательства человека. Ключевые инсайты: создание автоматизированной среды сброса часто проще, чем сама задача. Система демонстрирует «физический закон масштабирования» — увеличение числа параллельных роботов (например, до 8) значительно ускоряет решение. Введены новые метрики: MRU (средняя загрузка роботов) и MTU (эффективность использования токенов агентами). Текущая загрузка роботов ниже 50%, что указывает на потенциал роста через оптимизацию скорости работы агентов. Цель — достичь полностью автономной работы лаборатории. Проект будет открыт, что позволит разработчикам создавать подобные системы.

Автоматизированные исследования на этот раз действительно вышли из песочницы кода в реальный физический мир.

Недавно Джим Фан, руководитель лаборатории NVIDIA GEAR, представил новый проект под названием ENPIRE. Это их первая реализация автоматизированных исследований на роботизированном оборудовании.

Они поместили 8 агентов Codex во флотилию роботов, выделили им вычислительные мощности GPU и достаточный бюджет токенов, поставив простую цель: как можно быстрее решать задачи, поддерживать роботов в занятом, но безопасном состоянии и не тратить вычислительные ресурсы впустую.

Далее человеческое вмешательство практически прекратилось. Агенты автономно управляли всем замкнутым циклом: автоматически сбрасывали сцены, искали литературу, реализовывали идеи и строили инфраструктуру, обучали и развертывали стратегии, проводили самопроверку, анализировали логи и улучшали код, постоянно итерационно повторяя этот процесс, пока в реальном оборудовании не удавалось надежно выполнить задачи, требующие высокой точности и ловкости, такие как завязывание кабельных стяжек, упорядочивание игл в коробке или установка GPU.

Они также наблюдали «закон масштабирования в физическом мире»: увеличение количества параллельно работающих роботов (например, с нескольких до 8) значительно ускоряло решение задач.

В настоящее время часть систем лаборатории уже реализует самоитерацию в течение всей ночи без вмешательства человека, и исследователям достаточно лишь просматривать отчеты по утрам.

Джим Фан заявил, что цель на будущее — позволить членам команды спокойно уходить в отпуск, и даже генеральный директор NVIDIA Дженсен Хуанг не будет замечать, что лаборатория продолжает работать автономно.

Проект ENPIRE планируется полностью открыть, и тогда обычные разработчики смогут построить у себя дома аналогичную систему автономных роботизированных исследований.

Адрес проекта: https://research.nvidia.com/labs/gear/enpire/

Архитектура системы ENPIRE: четыре модуля образуют замкнутый цикл

ENPIRE — это каркасная система, разработанная для агентов-кодеров, которая с помощью четырех ключевых модулей создает воспроизводимый цикл физической обратной связи: модуль среды (EN) отвечает за автоматический сброс и проверку, модуль улучшения стратегии (PI) запускает оптимизацию стратегии, модуль прогона (R) поддерживает оценку стратегии на одном или нескольких роботах параллельно, а модуль эволюции (E) позволяет агенту-кодеру анализировать логи, изучать литературу, улучшать инфраструктуру обучения и код алгоритмов для устранения режимов сбоев.

Эта замкнутая система превращает обучение роботов в реальном мире в контролируемый, управляемый агентом процесс оптимизации, что сводит к минимуму ручной труд и одновременно позволяет проводить честные сравнительные эксперименты между различными рецептами обучения и вариантами агентов.

Благодаря поддержке ENPIRE передовые агенты-программисты смогли автономно разрабатывать стратегии и достигать 99% успеха в выполнении сложных задач по ловкому манипулированию в реальном мире, таких как PushT, укладывание штифтов в коробку, обрезание кабельных стяжек ножом.

Ключевое наблюдение: сброс среды часто проще, чем выполнение самой задачи

Одним из ключевых наблюдений стало: для многих роботизированных задач сброс среды зачастую проще, чем выполнение самой задачи.

Поэтому подход ENPIRE заключается в том, чтобы сначала позволить агенту построить среду автоматического сброса с помощью Code-as-Policy. Во многих случаях такой сброс — это просто задача pick-and-place, которую может решить Cap-X.

Затем интеллектуальный агент пишет эвристическую функцию вознаграждения. Исследовательская команда помещает эту среду в песочницу и запускает агента для проведения автоматизированных исследований вокруг полученных баллов.

Это также перекликается с определением автоматизированных исследований по Карпати: здесь речь идет не о простой настройке гиперпараметра или изменении небольшого фрагмента кода. Агент будет исследовать различные парадигмы в интернете и переписывать все, что может повысить производительность, включая алгоритмы, цели обучения и даже загрузчики данных.

В задаче с укладкой штифтов один агент даже самостоятельно написал контроллер безопасности по силе контакта, превзойдя по эффективности простую настройку нескольких параметров обучения с подкреплением.

Новые метрики: MRU и MTU

Масштабируемость ENPIRE зависит от размера команды агентов и вычислительных ресурсов, но здесь по-настоящему дефицитным ресурсом являются не GPU, а время работы роботов.

Когда исследовательская группа предоставила агентам 8 роботов вместо 1, время, необходимое для достижения почти идеального результата в задаче с укладкой штифтов, сократилось с более чем 1,5 часов до примерно 40 минут. Эти агенты координировались через Git: делились кодом, отказывались от неперспективных идей и автономно выбирали лучшие результаты выполнения друг у друга.

Это указывает на более масштабное изменение: робототехнические исследования превращаются в работу по проектированию среды — созданию окружения, в котором агенты-программисты могут проводить автоматизированные исследования; алгоритмическая работа смещается на более высокий уровень, превращаясь в построение замкнутого цикла обратной связи, который агенты могут замыкать самостоятельно.

И этот цикл будет наращиваться по сложным процентам: навык, освоенный агентом сегодня, завтра станет строительным блоком для создания и сброса среды для более сложных задач. Способности будут самовоспроизводиться, порождая новые способности.

В этой парадигме реальным жестким ограничением является бюджет на взаимодействие с реальным миром.

Поэтому исследовательская группа предложила две метрики:

Средняя утилизация роботов (Mean Robot Utilization, MRU): доля времени, которое роботы фактически тратят на проведение экспериментов, от общего реального затраченного времени.
Средняя утилизация токенов (Mean Token Utilization, MTU): измеряет эффективность преобразования агентом токенов в исследовательский прогресс.

В их экспериментах MRU всегда была ниже 50%. То есть роботы половину времени простаивали, ожидая, пока агент подумает. Поэтому улучшение обвязки (harness) и более быстрые модели напрямую превращаются в практическую выгоду.

PushT — давно используемый бенчмарк для манипуляций роботов. Обычно для выполнения этой задачи требуется большое количество демонстрационных данных от человека и несколько часов обучения методом поведенческого клонирования.

Но они увидели, что Codex, Claude Code и Kimi Code с помощью одного эвристического метода на основе правил «решили» эту задачу менее чем за 2 часа: без использования нейронных сетей, без обучения и без каких-либо человеческих данных.

Чтобы больше людей смогли попробовать автоматизированные исследования в физическом мире у себя дома, они на основе набора SO-101 от @LeRobotHF + NVIDIA Jetson Thor разработали полноценную стековую систему. Эта система может выполнять задачу PushT.

Ссылки для справки:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Статья из официального аккаунта WeChat «Машины и разум» (ID: almosthuman2014), автор: Ян Вэнь

Связанные с этим вопросы

QЧто такое проект ENPIRE и в чём его основное достижение?

AENPIRE — это проект NVIDIA GEAR Lab, впервые реализующий автоматизированные исследования на роботизированном оборудовании. Его основное достижение — успешное создание замкнутой системы, в которой агенты на основе кода (Codex Agent) автономно проводят исследования, включая поиск литературы, реализацию идей, обучение и развёртывание стратегий в реальном мире, достигая 99% успеха в выполнении сложных задач, таких как завязывание стяжек и сортировка булавок.

QКакие четыре ключевых модуля составляют архитектуру системы ENPIRE?

AАрхитектура системы ENPIRE состоит из четырёх ключевых модулей, образующих замкнутый цикл: модуль среды (EN, Environment), который отвечает за автоматический сброс и верификацию; модуль улучшения стратегии (PI, Policy Improvement), запускающий оптимизацию стратегий; модуль оценки (R, Rollout) для оценки стратегий на одном или нескольких роботах; и эволюционный модуль (E, Evolution), где кодирующие агенты анализируют логи, исследуют литературу и улучшают код для устранения ошибок.

QЧто означают новые метрики MRU и MTU, предложенные исследователями в проекте ENPIRE?

AMRU (Средняя утилизация робота) — это процент времени, в течение которого робот фактически выполняет эксперимент от общего затраченного времени, показывая, насколько эффективно используется аппаратное обеспечение. MTU (Средняя утилизация токенов) измеряет эффективность преобразования вычислительных ресурсов (токенов) в реальный прогресс исследования. Низкий MRU, например менее 50%, указывает на то, что роботы простаивают, ожидая вычислений агентов.

QКакое ключевое наблюдение было сделано относительно задач для роботов в проекте ENPIRE?

AКлючевое наблюдение заключается в том, что для многих задач роботов сброс среды (например, возврат предметов в исходное положение) зачастую оказывается проще, чем само выполнение задачи. Поэтому система ENPIRE сначала поручает агенту создать автоматизированный сброс среды (часто через простое действие «возьми и положи»), а затем уже фокусируется на решении основной задачи через автоматизированное исследование.

QКак увеличение количества параллельных роботов повлияло на скорость решения задач в эксперименте?

AИсследователи обнаружили «физический закон масштабирования»: увеличение количества параллельно работающих роботов (например, с одного до восьми) значительно ускоряет решение задач. В задаче сортировки булавок время достижения почти идеального результата сократилось с более чем 1,5 часов до примерно 40 минут благодаря параллельной работе нескольких агентов, которые координировались через Git, обмениваясь кодом и выбирая лучшие результаты.

Похожее

Фонд отступает, Ethlabs выходит на первый план: в Ethereum происходит крупнейшая в истории реорганизация

23 июня произошли два ключевых события в экосистеме Ethereum. Бывшие исследователи Ethereum Foundation основали независимую некоммерческую организацию Ethlabs, получившую основное финансирование от крупных держателей ETH, таких как Bitmine и SharpLink. Ethlabs сосредоточится на ключевых потребностях институционального внедрения, включая скорость расчетов, выпуск нативных активов и масштабирование. Почти одновременно Ethereum Foundation объявил о завершении реструктуризации, сократив 20% персонала (54 человека), и перепозиционировал себя как более легкого управляющего протоколом, а не основного разработчика. Эти изменения сигнализируют о важной корректировке управления: Foundation отходит на второй план, позволяя таким организациям, как Ethlabs, взять на себя больше исполнительных функций. Ethlabs, поддержанный крупными держателями, но без прямого одобрения Виталика Бутерина, должен доказать свою эффективность в решении практических задач, таких как институциональное внедрение и улучшение пользовательского опыта. Таким образом, Ethereum пытается перейти от модели, чрезмерно зависящей от Foundation и его основателя, к более распределенной структуре с множеством организаций. Задача Foundation — сохранять «правильность» и нейтралитет протокола, в то время как новые структуры, подобные Ethlabs, должны доказать его «эффективность» и способность привлекать капитал и инновации в условиях растущей конкуренции.

链捕手5 ч. назад

Фонд отступает, Ethlabs выходит на первый план: в Ethereum происходит крупнейшая в истории реорганизация

链捕手5 ч. назад

Bitbase World Trading Clash (BWTC) 2026 стартовал — регистрация открыта до конца июля

Bitbase открыла регистрацию на глобальный торговый конкурс BWTC (Bitbase World Trading Clash) 2026, который пройдет с двумя параллельными треками: командным (Futures Team Pro) и индивидуальным (Trophy Picks). Призовой фонд Promotion Pool может достигнуть 1 000 000 USDT и динамически разблокируется по мере подтвержденного участия трейдеров. Командный трек оценивается как по общему объему торгов, так и по доходности капитала, поощряя эффективное использование средств, а не только высокие обороты. Индивидуальный трек ранжируется по личному объему. Регистрация открыта с 22 июня по 23 июля. Формирование команд необходимо завершить до 9 июля. Параллельно работает реферальная программа Scout Program, поощряющая приглашение новых пользователей. Большинство наград выплачиваются в виде кредита для торговли фьючерсами USDT, который можно использовать вместе с собственными средствами, а полученная прибыль доступна для вывода. По данным на момент публикации, за первые 36 часов зарегистрировались более 2000 трейдеров, и призовой фонд разблокировался до 10 000 USDT. Bitbase подчеркивает прозрачность условий конкурса и свой подход, основанный на доверии, инфраструктуре институционального уровня и четко определенных правилах.

TheNewsCrypto7 ч. назад

Bitbase World Trading Clash (BWTC) 2026 стартовал — регистрация открыта до конца июля

TheNewsCrypto7 ч. назад

Вторая половина политики США в отношении криптовалют: закон CLARITY на пути к 60 голосам, «комиссия одного человека» в CFTC — главная неизвестная

В США продолжается работа над криптополитикой. Основное внимание уделяется продвижению закона CLARITY в Сенате, для принятия которого необходимо собрать 60 голосов. Успех зависит от компромиссов между республиканцами и администрацией Белого дома, а также от привлечения колеблющихся сенаторов. Законодательный календарь переполнен: осталось лишь около 40 рабочих дней, что делает временное окно крайне узким. На повестке дня также находятся налоговые предложения, выделенные из нового законопроекта PARITY, и Блокчейнский закон о регуляторной определенности, направленный на защиту разработчиков. Параллельно идет доработка правил GENUIS. Вызывает озабоченность кадровая ситуация в CFTC (Комиссия по торговле товарными фьючерсами), где не хватает четырех уполномоченных, что замедляет процесс принятия решений. Также остается открытым вопрос о юрисдикции над рынками прогнозирования: будут ли они регулироваться штатами, CFTC, SEC (Комиссия по ценным бумагам и биржам) или Верховным судом. Криптоиндустрия готовится к уходу двух ключевых фигур: уполномоченного SEC Хестер Пирс, которая возглавляла целевую группу по криптовалютам, и сенатора Синтии Ламмис, сыгравшей важную роль в двухпартийных переговорах. Эксперты отмечают, что шансы на принятие CLARITY в текущем созыве Конгресса невелики из-за нехватки времени и выборов, поэтому основная регуляторная нагрузка ляжет на SEC и CFTC. Налоговые инициативы, вероятно, будут продвигаться в составе более крупных законопроектов. Что касается рынков прогнозирования, CFTC работает над созданием для них постоянной регуляторной базы, стремясь избежать их классификации исключительно как азартных игр. В целом, для достижения существенных результатов к 2026 году отрасли необходимы непрерывные двухпартийные усилия и прагматичный подход в условиях сжатых сроков.

marsbit8 ч. назад

Вторая половина политики США в отношении криптовалют: закон CLARITY на пути к 60 голосам, «комиссия одного человека» в CFTC — главная неизвестная

marsbit8 ч. назад

Dan Koe: Как выжить в волне замещения AI и избежать участи наёмного работника

Даниел Коу рассуждает о необходимости избавления от «зарплатного рабства» и построения собственного дела в эпоху ИИ. Он утверждает, что настоящая угроза — не технологии, а зависимость от внешних обстоятельств и нежелание меняться. Коу подчеркивает, что рутинная работа часто ведет к скуке и потере смысла, поскольку не позволяет достигать состояния потока. Выход из этого положения автор видит в развитии пяти ключевых навыков: личной инициативы, вкуса (умения оценивать качество), способности убеждать, настойчивости и итеративного подхода (постоянного улучшения на основе обратной связи). Эти навыки, по его мнению, лучше всего развиваются через создание собственного проекта. Коу предлагает конкретный план действий. Первый шаг — радикально изменить свое окружение и привычки, чтобы начать мыслить как предприниматель. Второй — выбрать «среду» для деятельности, где можно получать честную обратную связь через эксперименты и ошибки. Автор считает, что в современном мире особенно ценными навыками являются создание контента (медиа) и программирование, при этом медиа-навыки — создание уникального, субъективного контента — становятся все более важными. В заключительной части статьи приводится практическое упражнение. Читателю предлагается за 15 минут ответить на вопросы, чтобы обнаружить свои глубочайшие интересы и «непопулярные» убеждения в своей области. Пересечение этих ответов и станет основой для личного проекта. Финальный и самый важный шаг — немедленно опубликовать первую мысль или работу, чтобы начать получать реальную обратную связь от мира и учиться на ней.

marsbit9 ч. назад

Dan Koe: Как выжить в волне замещения AI и избежать участи наёмного работника

marsbit9 ч. назад

Анализ отчета: Morgan Stanley объясняет SanDisk SNDK, правду о ценовой власти в облачных центрах обработки данных и дивидендах AI-инференса

**Обзор отчета Morgan Stanley о компании SANDisk (SNDK)** 22 июня аналитики Morgan Stanley повысили целевую цену акций SANDisk с $1100 до $1750, сохранив рекомендацию «Повышать». Ключевой тезис: спрос на вычисления для ИИ-инференса меняет правила игры на рынке NAND-памяти. **Структурный сдвиг спроса.** Облачный бизнес SANDisk в первом квартале вырос на 233% г/г, чему способствует потребность облачных провайдеров в высокопроизводительной памяти (TLC) для кэшей (KV Cache) и хранения контекста в ИИ-моделях. Эти клиенты, в отличие от потребительского сегмента, заключают долгосрочные контракты и менее чувствительны к цене. **Новая бизнес-модель (NBM) и устойчивая прибыль.** SANDisk уже зафиксировала в контрактах NBM более трети объема поставок на 2027 финансовый год. Соглашения (сроком 3-5 лет) с фиксированной ценой или коридорами обеспечивают маржинальность около 80% даже на нижнем пределе. Это создает «защитный буфер» прибыли. Morgan Stanley ожидает, что доля продаж по NBM может достичь 70-80%, что резко снизит цикличность бизнеса. **Контроль над ценообразованием и рост.** В условиях дефицита поставок NAND, который может продлиться до середины 2027 года, SANDisk обладает преимуществом в ценообразовании. Ожидается, что выручка вырастет с $7.36 млрд в FY25 до $48.83 млрд в FY27, а EPS — с $2.74 до $14.73. Рост будет в основном обеспечиваться высокомаржинальным облачным сегментом. **Потенциал и риски.** Позитивными катализаторами могут стать более быстрое внедрение корпоративных SSD, развитие edge-AI и новые технологии (например, HBM). К рискам относятся замедление роста отрасли, усиление конкуренции (включая китайские компании, такие как YMTC) и возможная потеря доли рынка SANDisk в дата-центрах. **Итог.** Логика повышения оценки основана на трех факторах: структурном росте спроса от ИИ-инференса, защите маржи через контракты NBM и сохраняющейся напряженности на рынке NAND. Целевая цена $1750 соответствует ~28x P/E на прогноз EPS за FY27.

marsbit9 ч. назад

Анализ отчета: Morgan Stanley объясняет SanDisk SNDK, правду о ценовой власти в облачных центрах обработки данных и дивидендах AI-инференса

marsbit9 ч. назад

Торговля

Спот

Фьючерсы