Команда NVIDIA создала агента-программиста, который берет на себя эксперименты с реальными роботами, достигая успеха в 99% случаев

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

Проект ENPIRE от NVIDIA GEAR Labs впервые реализовал полностью автоматизированные исследования на реальном роботизированном оборудовании. Система, состоящая из восьми автономных кодирующих агентов Codex, управляет флотом роботов для решения сложных задач ловкости, таких как завязывание стяжек, сортировка булавок и установка GPU, с успешностью до 99%. Агенты работают автономно в замкнутом цикле: сброс среды, поиск в литературе, реализация идей, обучение стратегий, развертывание, валидация и итеративное улучшение кода, практически без вмешательства человека. Ключевые инсайты: создание автоматизированной среды сброса часто проще, чем сама задача. Система демонстрирует «физический закон масштабирования» — увеличение числа параллельных роботов (например, до 8) значительно ускоряет решение. Введены новые метрики: MRU (средняя загрузка роботов) и MTU (эффективность использования токенов агентами). Текущая загрузка роботов ниже 50%, что указывает на потенциал роста через оптимизацию скорости работы агентов. Цель — достичь полностью автономной работы лаборатории. Проект будет открыт, что позволит разработчикам создавать подобные системы.

Автоматизированные исследования на этот раз действительно вышли из песочницы кода в реальный физический мир.

Недавно Джим Фан, руководитель лаборатории NVIDIA GEAR, представил новый проект под названием ENPIRE. Это их первая реализация автоматизированных исследований на роботизированном оборудовании.

Они поместили 8 агентов Codex во флотилию роботов, выделили им вычислительные мощности GPU и достаточный бюджет токенов, поставив простую цель: как можно быстрее решать задачи, поддерживать роботов в занятом, но безопасном состоянии и не тратить вычислительные ресурсы впустую.

Далее человеческое вмешательство практически прекратилось. Агенты автономно управляли всем замкнутым циклом: автоматически сбрасывали сцены, искали литературу, реализовывали идеи и строили инфраструктуру, обучали и развертывали стратегии, проводили самопроверку, анализировали логи и улучшали код, постоянно итерационно повторяя этот процесс, пока в реальном оборудовании не удавалось надежно выполнить задачи, требующие высокой точности и ловкости, такие как завязывание кабельных стяжек, упорядочивание игл в коробке или установка GPU.

Они также наблюдали «закон масштабирования в физическом мире»: увеличение количества параллельно работающих роботов (например, с нескольких до 8) значительно ускоряло решение задач.

В настоящее время часть систем лаборатории уже реализует самоитерацию в течение всей ночи без вмешательства человека, и исследователям достаточно лишь просматривать отчеты по утрам.

Джим Фан заявил, что цель на будущее — позволить членам команды спокойно уходить в отпуск, и даже генеральный директор NVIDIA Дженсен Хуанг не будет замечать, что лаборатория продолжает работать автономно.

Проект ENPIRE планируется полностью открыть, и тогда обычные разработчики смогут построить у себя дома аналогичную систему автономных роботизированных исследований.

Адрес проекта: https://research.nvidia.com/labs/gear/enpire/

Архитектура системы ENPIRE: четыре модуля образуют замкнутый цикл

ENPIRE — это каркасная система, разработанная для агентов-кодеров, которая с помощью четырех ключевых модулей создает воспроизводимый цикл физической обратной связи: модуль среды (EN) отвечает за автоматический сброс и проверку, модуль улучшения стратегии (PI) запускает оптимизацию стратегии, модуль прогона (R) поддерживает оценку стратегии на одном или нескольких роботах параллельно, а модуль эволюции (E) позволяет агенту-кодеру анализировать логи, изучать литературу, улучшать инфраструктуру обучения и код алгоритмов для устранения режимов сбоев.

Эта замкнутая система превращает обучение роботов в реальном мире в контролируемый, управляемый агентом процесс оптимизации, что сводит к минимуму ручной труд и одновременно позволяет проводить честные сравнительные эксперименты между различными рецептами обучения и вариантами агентов.

Благодаря поддержке ENPIRE передовые агенты-программисты смогли автономно разрабатывать стратегии и достигать 99% успеха в выполнении сложных задач по ловкому манипулированию в реальном мире, таких как PushT, укладывание штифтов в коробку, обрезание кабельных стяжек ножом.

Ключевое наблюдение: сброс среды часто проще, чем выполнение самой задачи

Одним из ключевых наблюдений стало: для многих роботизированных задач сброс среды зачастую проще, чем выполнение самой задачи.

Поэтому подход ENPIRE заключается в том, чтобы сначала позволить агенту построить среду автоматического сброса с помощью Code-as-Policy. Во многих случаях такой сброс — это просто задача pick-and-place, которую может решить Cap-X.

Затем интеллектуальный агент пишет эвристическую функцию вознаграждения. Исследовательская команда помещает эту среду в песочницу и запускает агента для проведения автоматизированных исследований вокруг полученных баллов.

Это также перекликается с определением автоматизированных исследований по Карпати: здесь речь идет не о простой настройке гиперпараметра или изменении небольшого фрагмента кода. Агент будет исследовать различные парадигмы в интернете и переписывать все, что может повысить производительность, включая алгоритмы, цели обучения и даже загрузчики данных.

В задаче с укладкой штифтов один агент даже самостоятельно написал контроллер безопасности по силе контакта, превзойдя по эффективности простую настройку нескольких параметров обучения с подкреплением.

Новые метрики: MRU и MTU

Масштабируемость ENPIRE зависит от размера команды агентов и вычислительных ресурсов, но здесь по-настоящему дефицитным ресурсом являются не GPU, а время работы роботов.

Когда исследовательская группа предоставила агентам 8 роботов вместо 1, время, необходимое для достижения почти идеального результата в задаче с укладкой штифтов, сократилось с более чем 1,5 часов до примерно 40 минут. Эти агенты координировались через Git: делились кодом, отказывались от неперспективных идей и автономно выбирали лучшие результаты выполнения друг у друга.

Это указывает на более масштабное изменение: робототехнические исследования превращаются в работу по проектированию среды — созданию окружения, в котором агенты-программисты могут проводить автоматизированные исследования; алгоритмическая работа смещается на более высокий уровень, превращаясь в построение замкнутого цикла обратной связи, который агенты могут замыкать самостоятельно.

И этот цикл будет наращиваться по сложным процентам: навык, освоенный агентом сегодня, завтра станет строительным блоком для создания и сброса среды для более сложных задач. Способности будут самовоспроизводиться, порождая новые способности.

В этой парадигме реальным жестким ограничением является бюджет на взаимодействие с реальным миром.

Поэтому исследовательская группа предложила две метрики:

Средняя утилизация роботов (Mean Robot Utilization, MRU): доля времени, которое роботы фактически тратят на проведение экспериментов, от общего реального затраченного времени.
Средняя утилизация токенов (Mean Token Utilization, MTU): измеряет эффективность преобразования агентом токенов в исследовательский прогресс.

В их экспериментах MRU всегда была ниже 50%. То есть роботы половину времени простаивали, ожидая, пока агент подумает. Поэтому улучшение обвязки (harness) и более быстрые модели напрямую превращаются в практическую выгоду.

PushT — давно используемый бенчмарк для манипуляций роботов. Обычно для выполнения этой задачи требуется большое количество демонстрационных данных от человека и несколько часов обучения методом поведенческого клонирования.

Но они увидели, что Codex, Claude Code и Kimi Code с помощью одного эвристического метода на основе правил «решили» эту задачу менее чем за 2 часа: без использования нейронных сетей, без обучения и без каких-либо человеческих данных.

Чтобы больше людей смогли попробовать автоматизированные исследования в физическом мире у себя дома, они на основе набора SO-101 от @LeRobotHF + NVIDIA Jetson Thor разработали полноценную стековую систему. Эта система может выполнять задачу PushT.

Ссылки для справки:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Статья из официального аккаунта WeChat «Машины и разум» (ID: almosthuman2014), автор: Ян Вэнь

Связанные с этим вопросы

QЧто такое проект ENPIRE и в чём его основное достижение?

AENPIRE — это проект NVIDIA GEAR Lab, впервые реализующий автоматизированные исследования на роботизированном оборудовании. Его основное достижение — успешное создание замкнутой системы, в которой агенты на основе кода (Codex Agent) автономно проводят исследования, включая поиск литературы, реализацию идей, обучение и развёртывание стратегий в реальном мире, достигая 99% успеха в выполнении сложных задач, таких как завязывание стяжек и сортировка булавок.

QКакие четыре ключевых модуля составляют архитектуру системы ENPIRE?

AАрхитектура системы ENPIRE состоит из четырёх ключевых модулей, образующих замкнутый цикл: модуль среды (EN, Environment), который отвечает за автоматический сброс и верификацию; модуль улучшения стратегии (PI, Policy Improvement), запускающий оптимизацию стратегий; модуль оценки (R, Rollout) для оценки стратегий на одном или нескольких роботах; и эволюционный модуль (E, Evolution), где кодирующие агенты анализируют логи, исследуют литературу и улучшают код для устранения ошибок.

QЧто означают новые метрики MRU и MTU, предложенные исследователями в проекте ENPIRE?

AMRU (Средняя утилизация робота) — это процент времени, в течение которого робот фактически выполняет эксперимент от общего затраченного времени, показывая, насколько эффективно используется аппаратное обеспечение. MTU (Средняя утилизация токенов) измеряет эффективность преобразования вычислительных ресурсов (токенов) в реальный прогресс исследования. Низкий MRU, например менее 50%, указывает на то, что роботы простаивают, ожидая вычислений агентов.

QКакое ключевое наблюдение было сделано относительно задач для роботов в проекте ENPIRE?

AКлючевое наблюдение заключается в том, что для многих задач роботов сброс среды (например, возврат предметов в исходное положение) зачастую оказывается проще, чем само выполнение задачи. Поэтому система ENPIRE сначала поручает агенту создать автоматизированный сброс среды (часто через простое действие «возьми и положи»), а затем уже фокусируется на решении основной задачи через автоматизированное исследование.

QКак увеличение количества параллельных роботов повлияло на скорость решения задач в эксперименте?

AИсследователи обнаружили «физический закон масштабирования»: увеличение количества параллельно работающих роботов (например, с одного до восьми) значительно ускоряет решение задач. В задаче сортировки булавок время достижения почти идеального результата сократилось с более чем 1,5 часов до примерно 40 минут благодаря параллельной работе нескольких агентов, которые координировались через Git, обмениваясь кодом и выбирая лучшие результаты.

Похожее

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

Крупнейшие южнокорейские криптобиржи Upbit и Bithumb сообщают о резком росте объёмов торгов альткоинами. За последние 24 часа общий оборот по 15 популярным альткоинам достиг примерно 347,7 миллиона долларов. Лидером по объёму стала MetaDAO (META) с 65,84 млн долларов только на Upbit. На втором месте Euler ($EUL) с суммарным объёмом в 47,65 млн долларов, а на третьем — $XRP с 38,11 млн долларов. В число других активов с высокими показателями вошли ThunderCore (TT), Вавилон (BABY), Geodnet (GEOD) и Hyperlane (HYPER). Замыкают список такие известные монеты, как Shiba Inu (SHIB), Dogecoin (DOGE) и Worldcoin (WLD). *Это не инвестиционная рекомендация.

cryptonews.ru58 мин. назад

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

cryptonews.ru58 мин. назад

Компания Дональда Трампа продала очередную крупную партию биткоинов!

Сообщается о новом переводе примерно 2628 биткоинов (около $165 млн) с адресов, предположительно связанных с Trump Media & Technology Group Дональда Трампа, на биржу CryptoCom. Согласно анализу блокчейна, компания ранее приобрела около 11 542 BTC по средней цене $118 500. К настоящему моменту с её адресов было выведено примерно 7 281 BTC, а около 4 261 BTC всё ещё хранятся на них. Общие реализованные и нереализованные убытки Trump Media от инвестиций в биткоин оцениваются примерно в $555 млн. Отметим, что перевод на биржу не обязательно означает продажу активов — он может быть связан с хранением или управлением ликвидностью.

cryptonews.ru2 ч. назад

Компания Дональда Трампа продала очередную крупную партию биткоинов!

cryptonews.ru2 ч. назад

Паркер Льюис ответил, почему биткоин остаётся лучшими деньгами

Известный биткоин-аналитик Паркер Льюис раскритиковал стратегии публичных компаний, позиционирующих себя как криптовалютные казначейства. Он заявил, что продажа ими «цифрового кредита» в виде бессрочных привилегированных акций искажает суть биткоина, который не генерирует фиатный доход на алгоритмическом уровне. Льюис подчеркнул, что выплата дивидендов в этой модели часто зависит от притока новых инвесторов, что несёт высокие риски, наглядно демонстрируемые скромным размером рынка таких акций ($1 трлн) на фоне глобального кредитного рынка ($300 трлн). Эксперт также опроверг тезис о чрезмерной волатильности биткоина, объяснив её как естественное следствие массового принятия актива с жёстко ограниченным предложением. Он призвал инвесторов покупать биткоины напрямую, а не акции компаний вроде MicroStrategy, что математически безопаснее. Льюис указал на главную угрозу — инфляцию фиатных денег, проиллюстрировав её личным «Индексом рибая», показывающим рост цен на 12–13% годовых. В итоге, наиболее надёжной стратегией защиты сбережений он назвал прямое владение биткоином и контроль над приватными ключами, предостерегая от скрытых рисков погони за корпоративной доходностью через деривативы.

cryptonews.ru3 ч. назад

Паркер Льюис ответил, почему биткоин остаётся лучшими деньгами

cryptonews.ru3 ч. назад

Почему биткоин удерживает $64 000 после жесткой паузы ФРС

Федеральная резервная система США оставила ключевую ставку без изменений, но жесткая риторика и голосование (9 против 3) показали готовность к дальнейшему ужесточению, что ограничивает аппетит к рисковым активам. Несмотря на это, биткоин демонстрирует устойчивость, удерживаясь около уровня $64 000 после волатильной реакции на заявление ФРС. Ключевая поддержка находится в зоне $63 000–63 500, сопротивление — около $66 000. На рынке наблюдается ротация капитала: спотовые Bitcoin-ETF после серии оттоков показали чистый приток в $32,1 млн, тогда как фонды на Ethereum продолжили терять средства. Интерес институциональных инвесторов сместился в сторону биткоина как основного актива, хотя отдельные альткоины, такие как Solana, также привлекают капитал. Рыночная доля Ethereum снижается, несмотря на сильные фундаментальные показатели сети, включая растущую очередь на стейкинг. Законодательная инициатива CLARITY Act была отложена Сенатом США до осени, что снизило рыночные ожидания относительно её принятия в 2026 году. В последний день июля внимание инвесторов будет приковано к макроэкономической статистике из США. Устойчивость биткоина выше $63 000, закрепление Ethereum над $1 860 и продолжение притоков в ETF могут стать сигналами для формирования базы восстановления во второй половине года.

cryptonews.ru3 ч. назад

Почему биткоин удерживает $64 000 после жесткой паузы ФРС

cryptonews.ru3 ч. назад

Компания ARK Invest Кэти Вуд купила 109,129 акций Circle на $6,83 млн

Компания ARK Invest Кэти Вуд приобрела 109 129 акций компании Circle на сумму около 6,83 млн долларов США. Покупка была осуществлена через три ее биржевых фонда: ARK Innovation, ARK Next Generation Internet и ARK Fintech Innovation. Эта сделка произошла вскоре после того, как Circle получила лицензию на доверительное управление от Департамента финансовых услуг штата Нью-Йорк для своей дочерней компании Circle New York Trust. Генеральный директор Circle Джереми Аллер назвал получение лицензии долгосрочной целью компании. Однако, несмотря на это регулирующее одобрение, акции Circle (CRCL) 31 июля снизились на 2,54%, что, вероятно, указывает на сдержанную реакцию инвесторов на данную новость. Параллельно ARK Invest также совершила крупные покупки акций Tesla, SpaceX и Nvidia на общую сумму около 40,2 млн долларов, одновременно сократив свои доли в таких компаниях, как Shopify, Cloudflare и CrowdStrike.

cryptonews.ru3 ч. назад

Компания ARK Invest Кэти Вуд купила 109,129 акций Circle на $6,83 млн

cryptonews.ru3 ч. назад

Торговля

Спот

Команда NVIDIA создала агента-программиста, который берет на себя эксперименты с реальными роботами, достигая успеха в 99% случаев

Введение

Архитектура системы ENPIRE: четыре модуля образуют замкнутый цикл

Ключевое наблюдение: сброс среды часто проще, чем выполнение самой задачи

Новые метрики: MRU и MTU

Ссылки для справки:

Связанные с этим вопросы

Похожее

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

Компания Дональда Трампа продала очередную крупную партию биткоинов!

Паркер Льюис ответил, почему биткоин остаётся лучшими деньгами

Почему биткоин удерживает $64 000 после жесткой паузы ФРС

Компания ARK Invest Кэти Вуд купила 109,129 акций Circle на $6,83 млн

Торговля

Популярные категории

Популярные теги