Команда NVIDIA создала агента-программиста, который берет на себя эксперименты с реальными роботами, достигая успеха в 99% случаев

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

Проект ENPIRE от NVIDIA GEAR Labs впервые реализовал полностью автоматизированные исследования на реальном роботизированном оборудовании. Система, состоящая из восьми автономных кодирующих агентов Codex, управляет флотом роботов для решения сложных задач ловкости, таких как завязывание стяжек, сортировка булавок и установка GPU, с успешностью до 99%. Агенты работают автономно в замкнутом цикле: сброс среды, поиск в литературе, реализация идей, обучение стратегий, развертывание, валидация и итеративное улучшение кода, практически без вмешательства человека. Ключевые инсайты: создание автоматизированной среды сброса часто проще, чем сама задача. Система демонстрирует «физический закон масштабирования» — увеличение числа параллельных роботов (например, до 8) значительно ускоряет решение. Введены новые метрики: MRU (средняя загрузка роботов) и MTU (эффективность использования токенов агентами). Текущая загрузка роботов ниже 50%, что указывает на потенциал роста через оптимизацию скорости работы агентов. Цель — достичь полностью автономной работы лаборатории. Проект будет открыт, что позволит разработчикам создавать подобные системы.

Автоматизированные исследования на этот раз действительно вышли из песочницы кода в реальный физический мир.

Недавно Джим Фан, руководитель лаборатории NVIDIA GEAR, представил новый проект под названием ENPIRE. Это их первая реализация автоматизированных исследований на роботизированном оборудовании.

Они поместили 8 агентов Codex во флотилию роботов, выделили им вычислительные мощности GPU и достаточный бюджет токенов, поставив простую цель: как можно быстрее решать задачи, поддерживать роботов в занятом, но безопасном состоянии и не тратить вычислительные ресурсы впустую.

Далее человеческое вмешательство практически прекратилось. Агенты автономно управляли всем замкнутым циклом: автоматически сбрасывали сцены, искали литературу, реализовывали идеи и строили инфраструктуру, обучали и развертывали стратегии, проводили самопроверку, анализировали логи и улучшали код, постоянно итерационно повторяя этот процесс, пока в реальном оборудовании не удавалось надежно выполнить задачи, требующие высокой точности и ловкости, такие как завязывание кабельных стяжек, упорядочивание игл в коробке или установка GPU.

Они также наблюдали «закон масштабирования в физическом мире»: увеличение количества параллельно работающих роботов (например, с нескольких до 8) значительно ускоряло решение задач.

В настоящее время часть систем лаборатории уже реализует самоитерацию в течение всей ночи без вмешательства человека, и исследователям достаточно лишь просматривать отчеты по утрам.

Джим Фан заявил, что цель на будущее — позволить членам команды спокойно уходить в отпуск, и даже генеральный директор NVIDIA Дженсен Хуанг не будет замечать, что лаборатория продолжает работать автономно.

Проект ENPIRE планируется полностью открыть, и тогда обычные разработчики смогут построить у себя дома аналогичную систему автономных роботизированных исследований.

Адрес проекта: https://research.nvidia.com/labs/gear/enpire/

Архитектура системы ENPIRE: четыре модуля образуют замкнутый цикл

ENPIRE — это каркасная система, разработанная для агентов-кодеров, которая с помощью четырех ключевых модулей создает воспроизводимый цикл физической обратной связи: модуль среды (EN) отвечает за автоматический сброс и проверку, модуль улучшения стратегии (PI) запускает оптимизацию стратегии, модуль прогона (R) поддерживает оценку стратегии на одном или нескольких роботах параллельно, а модуль эволюции (E) позволяет агенту-кодеру анализировать логи, изучать литературу, улучшать инфраструктуру обучения и код алгоритмов для устранения режимов сбоев.

Эта замкнутая система превращает обучение роботов в реальном мире в контролируемый, управляемый агентом процесс оптимизации, что сводит к минимуму ручной труд и одновременно позволяет проводить честные сравнительные эксперименты между различными рецептами обучения и вариантами агентов.

Благодаря поддержке ENPIRE передовые агенты-программисты смогли автономно разрабатывать стратегии и достигать 99% успеха в выполнении сложных задач по ловкому манипулированию в реальном мире, таких как PushT, укладывание штифтов в коробку, обрезание кабельных стяжек ножом.

Ключевое наблюдение: сброс среды часто проще, чем выполнение самой задачи

Одним из ключевых наблюдений стало: для многих роботизированных задач сброс среды зачастую проще, чем выполнение самой задачи.

Поэтому подход ENPIRE заключается в том, чтобы сначала позволить агенту построить среду автоматического сброса с помощью Code-as-Policy. Во многих случаях такой сброс — это просто задача pick-and-place, которую может решить Cap-X.

Затем интеллектуальный агент пишет эвристическую функцию вознаграждения. Исследовательская команда помещает эту среду в песочницу и запускает агента для проведения автоматизированных исследований вокруг полученных баллов.

Это также перекликается с определением автоматизированных исследований по Карпати: здесь речь идет не о простой настройке гиперпараметра или изменении небольшого фрагмента кода. Агент будет исследовать различные парадигмы в интернете и переписывать все, что может повысить производительность, включая алгоритмы, цели обучения и даже загрузчики данных.

В задаче с укладкой штифтов один агент даже самостоятельно написал контроллер безопасности по силе контакта, превзойдя по эффективности простую настройку нескольких параметров обучения с подкреплением.

Новые метрики: MRU и MTU

Масштабируемость ENPIRE зависит от размера команды агентов и вычислительных ресурсов, но здесь по-настоящему дефицитным ресурсом являются не GPU, а время работы роботов.

Когда исследовательская группа предоставила агентам 8 роботов вместо 1, время, необходимое для достижения почти идеального результата в задаче с укладкой штифтов, сократилось с более чем 1,5 часов до примерно 40 минут. Эти агенты координировались через Git: делились кодом, отказывались от неперспективных идей и автономно выбирали лучшие результаты выполнения друг у друга.

Это указывает на более масштабное изменение: робототехнические исследования превращаются в работу по проектированию среды — созданию окружения, в котором агенты-программисты могут проводить автоматизированные исследования; алгоритмическая работа смещается на более высокий уровень, превращаясь в построение замкнутого цикла обратной связи, который агенты могут замыкать самостоятельно.

И этот цикл будет наращиваться по сложным процентам: навык, освоенный агентом сегодня, завтра станет строительным блоком для создания и сброса среды для более сложных задач. Способности будут самовоспроизводиться, порождая новые способности.

В этой парадигме реальным жестким ограничением является бюджет на взаимодействие с реальным миром.

Поэтому исследовательская группа предложила две метрики:

Средняя утилизация роботов (Mean Robot Utilization, MRU): доля времени, которое роботы фактически тратят на проведение экспериментов, от общего реального затраченного времени.
Средняя утилизация токенов (Mean Token Utilization, MTU): измеряет эффективность преобразования агентом токенов в исследовательский прогресс.

В их экспериментах MRU всегда была ниже 50%. То есть роботы половину времени простаивали, ожидая, пока агент подумает. Поэтому улучшение обвязки (harness) и более быстрые модели напрямую превращаются в практическую выгоду.

PushT — давно используемый бенчмарк для манипуляций роботов. Обычно для выполнения этой задачи требуется большое количество демонстрационных данных от человека и несколько часов обучения методом поведенческого клонирования.

Но они увидели, что Codex, Claude Code и Kimi Code с помощью одного эвристического метода на основе правил «решили» эту задачу менее чем за 2 часа: без использования нейронных сетей, без обучения и без каких-либо человеческих данных.

Чтобы больше людей смогли попробовать автоматизированные исследования в физическом мире у себя дома, они на основе набора SO-101 от @LeRobotHF + NVIDIA Jetson Thor разработали полноценную стековую систему. Эта система может выполнять задачу PushT.

Ссылки для справки:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Статья из официального аккаунта WeChat «Машины и разум» (ID: almosthuman2014), автор: Ян Вэнь

Связанные с этим вопросы

QЧто такое проект ENPIRE и в чём его основное достижение?

AENPIRE — это проект NVIDIA GEAR Lab, впервые реализующий автоматизированные исследования на роботизированном оборудовании. Его основное достижение — успешное создание замкнутой системы, в которой агенты на основе кода (Codex Agent) автономно проводят исследования, включая поиск литературы, реализацию идей, обучение и развёртывание стратегий в реальном мире, достигая 99% успеха в выполнении сложных задач, таких как завязывание стяжек и сортировка булавок.

QКакие четыре ключевых модуля составляют архитектуру системы ENPIRE?

AАрхитектура системы ENPIRE состоит из четырёх ключевых модулей, образующих замкнутый цикл: модуль среды (EN, Environment), который отвечает за автоматический сброс и верификацию; модуль улучшения стратегии (PI, Policy Improvement), запускающий оптимизацию стратегий; модуль оценки (R, Rollout) для оценки стратегий на одном или нескольких роботах; и эволюционный модуль (E, Evolution), где кодирующие агенты анализируют логи, исследуют литературу и улучшают код для устранения ошибок.

QЧто означают новые метрики MRU и MTU, предложенные исследователями в проекте ENPIRE?

AMRU (Средняя утилизация робота) — это процент времени, в течение которого робот фактически выполняет эксперимент от общего затраченного времени, показывая, насколько эффективно используется аппаратное обеспечение. MTU (Средняя утилизация токенов) измеряет эффективность преобразования вычислительных ресурсов (токенов) в реальный прогресс исследования. Низкий MRU, например менее 50%, указывает на то, что роботы простаивают, ожидая вычислений агентов.

QКакое ключевое наблюдение было сделано относительно задач для роботов в проекте ENPIRE?

AКлючевое наблюдение заключается в том, что для многих задач роботов сброс среды (например, возврат предметов в исходное положение) зачастую оказывается проще, чем само выполнение задачи. Поэтому система ENPIRE сначала поручает агенту создать автоматизированный сброс среды (часто через простое действие «возьми и положи»), а затем уже фокусируется на решении основной задачи через автоматизированное исследование.

QКак увеличение количества параллельных роботов повлияло на скорость решения задач в эксперименте?

AИсследователи обнаружили «физический закон масштабирования»: увеличение количества параллельно работающих роботов (например, с одного до восьми) значительно ускоряет решение задач. В задаче сортировки булавок время достижения почти идеального результата сократилось с более чем 1,5 часов до примерно 40 минут благодаря параллельной работе нескольких агентов, которые координировались через Git, обмениваясь кодом и выбирая лучшие результаты.

Похожее

Обзор Ethereum за первый квартал 2026 года: активность в блокчейне достигла рекордного уровня, токенизированные активы лидируют в отрасли

Обзор Ethereum за первый квартал 2026 года: активность в сети достигла рекордных высот, токенизированные активы лидируют в отрасли Первый квартал 2026 года для Ethereum характеризовался противоречивой динамикой. С одной стороны, ключевые показатели использования сети, такие как количество ежемесячно активных пользователей (13,2 млн, +53,5% кв/кв), общее количество транзакций и пропускная способность (TPS), достигли исторических максимумов. С другой стороны, стоимость активов в долларовом выражении сократилась: общая заблокированная стоимость (TVL) в экосистеме составила $316,2 млрд (-11% кв/кв), а рыночная капитализация ETH (по полностью разводненной оценке) упала до $290 млрд (-30,3% кв/кв). Это снижение было вызвано общей коррекцией на рынке криптоактивов. Ключевым событием квартала стало внедрение второго обновления параметров Blob (BPO#2) в рамках цикла обновлений Fusaka, что значительно увеличило емкость хранения данных и снизило стоимость транзакций. Сборы за транзакции в основной сети упали на 47,9% кв/кв, несмотря на рост активности, демонстрируя эффект от масштабирования. Экосистема Ethereum сохраняет доминирующие позиции в ключевых сегментах. На ее долю приходится 71% от общего TVL пяти ведущих блокчейнов, 79,2% от объема активного децентрализованного кредитования (DeFi) и 58,4% от общего объема комиссий в экосистемах. В сегменте токенизированных активов (общая капитализация $203,4 млрд, +42,9% г/г) Ethereum является бесспорным лидером: на платформу приходится 61,8% стейблкоинов ($178,9 млрд), 73% токенизированных фондов ($194 млрд, +73,1% г/г) и 84% токенизированных товаров ($47 млрд, +325,9% г/г) от общего объема по пяти основным сетям. Аналитики команды Etherealize проводят параллель между текущим этапом развития токенизации и интернетом в 1996 году, видя в стратегии Ethereum, направленной на масштабирование и снижение издержек для пользователей, долгосрочную основу для закрепления в качестве глобального расчетного слоя для финансов. Рост числа институциональных продуктов, таких как фонды BlackRock, JPMorgan и Fidelity на Ethereum в мае 2026 года, подтверждает эту тенденцию.

Foresight News4 мин. назад

Обзор Ethereum за первый квартал 2026 года: активность в блокчейне достигла рекордного уровня, токенизированные активы лидируют в отрасли

Foresight News4 мин. назад

Раскрывая "Бога исследований и инвестиций" за Citrini: Постоянный лидер чартов Substack, один отчет обвалил триллионы на фондовом рынке США

**Раскрытие тайн Citrini: «Бог инвестиционных исследований», чей отчет обвалил рынок акций США на сотни миллиардов** Независимое аналитическое агентство Citrini Research, занимающее первое место в финансовом рейтинге Substack с почти 250 000 подписчиков, стало одним из самых обсуждаемых игроков на фоне нынешнего бычьего рынка в США. Его основатель — Джеймс ван Гилен, человек с нетривиальным бэкграундом: выпускник UCLA с двойным дипломом по биологии и психологии, бывший парамедик, основатель медицинского стартапа и даже соучредитель аптеки медицинской марихуаны. В феврале 2026 года отчет Citrini «Глобальный интеллектуальный кризис 2028 года», представлявший собой мысленный эксперимент о последствиях ИИ, вызвал панику на рынке. Акции компаний в сфере программного обеспечения, платежей и логистики, таких как IBM, American Express, DoorDash и другие, резко упали, что привело к потере сотен миллиардов долларов рыночной капитализации за короткое время. Это продемонстрировало огромное влияние аналитики агентства. Инвестиционная философия Citrini, сформированная междисциплинарным опытом Гилена, основана на «второпорядковом мышлении» — фокусе не на очевидных событиях, а на их последствиях и побочных эффектах. Агентство специализируется на долгосрочных «супертрендах» (ИИ, геополитика, макрополитика) и использует метод сценариев для поиска контринтуитивных инвестиционных идей. Примеры включают успешную покупку опционов во время краха Silicon Valley Bank и анализ суверенных облигаций Венесуэлы. Помимо «кризиса ИИ», Citrini привлек внимание отчетом своего аналитика из зоны конфликта в Ормузском проливе в апреле 2026 года, а также точными прогнозами относительно важности медной фольги для полупроводниковой индустрии. Агентство, названное в честь стадии алхимического превращения (citrinitas), продолжает расти, объединяя подход, основанный на видении основателя, с работой анонимной команды экспертов, и остается мощной силой, формирующей нарративы на финансовых рынках.

Odaily星球日报11 мин. назад

Раскрывая "Бога исследований и инвестиций" за Citrini: Постоянный лидер чартов Substack, один отчет обвалил триллионы на фондовом рынке США

Odaily星球日报11 мин. назад

Биткоин формирует устойчивый диапазон в $60–70 тыс., говорит технический аналитик

Аналитик Фрэнк Феттер утверждает, что длительная консолидация биткоина в диапазоне $60 000–$70 000 формирует значимый «пол» или базовую зону поддержки. Его аргумент основан на том, что активная торговля в этом ценовом диапазоне перераспределяет монеты в руки более уверенных держателей, создавая плотный кластер себестоимости. По мнению аналитика, этот диапазон стал ключевой зоной битвы между быками и медведями. Повторяющиеся неудачные попытки пробить его нижнюю границу могут укрепить «пол», в то время как для подтверждения бычьего сценария необходим устойчивый выход и закрепление выше уровней сопротивления и себестоимости краткосрочных держателей. Важным признаком устойчивости станет восстановление, движимое спотовым спросом, а не только ростом на фьючерсном рынке. Основным уровнем инвалидации данного сценария является уверенный и затяжной прорыв ниже $60 000, что укажет на продолжение коррекции. В краткосрочной перспективе наиболее позитивным развитием событий станет медленный, но стабильный рост внутри диапазона с последующим формированием прочной основы для новой восходящей тенденции.

bitcoinist25 мин. назад

Биткоин формирует устойчивый диапазон в $60–70 тыс., говорит технический аналитик

bitcoinist25 мин. назад

Gate Research: Отток ETF сдерживает аппетит к риску, двунаправленная система преодолевает слабый рынок

Майский криптовалютный рынок перешел от восстановления в начале месяца к коррекции и низковолатильной консолидации к концу. BTC, ETH и SOL сформировали локальные максимумы в первой декаде, после чего началось снижение. Структурно рынок характеризовался слабым спот-спросом и доминированием левериджа, на что указывают чистый отток из основных BTC и ETH ETF и высокое соотношение объемов перпетуальных контрактов к спотовым. Стратегия, применявшая двунаправленные сделки (лонг/шорт) при пробое кластера скользящих средних на 4H таймфрейме, показала наилучший результат в этих условиях. При равновесном портфеле из трех активов стратегия «купи и держи» принесла -6.09%, односторонняя лонг-стратегия — -3.65%, тогда как двунаправленная стратегия заработала +2.11%. Основная прибыль была получена на коротких позициях по ETH и SOL в трендовой фазе середины месяца, что подтвердило эффективность следования за трендом в обе стороны в мае. Механизм выхода по EMA12 эффективно ограничивал убытки от ложных пробоев, а тейк-профит в размере 3R (где R=риск) позволял сохранять прибыль от сильных движений. Текущий рынок остается в фазе выбора направления. В таких условиях дисциплинированное исполнение двунаправленных сигналов с контролем рисков (фиксированный стоп-лосс 2.5% на сделку) превзошло субъективные попытки «поймать» рост. На рынок также повлияла общая среда рисковых активов: в то время как акции технологических компаний (например, Nvidia) поддерживались сильными финансовыми результатами, криптовалютные ETF столкнулись с оттоком средств. Высокая корреляция BTC с S&P 500 (~0.6 к концу мая) указывает, что крипторынок продолжал следовать общей динамике рискового аппетита инвесторов. На июнь рекомендуется сохранять тот же системный подход, используя BTC как индикатор общего состояния рынка, а ETH и SOL — как основные активы для извлечения прибыли по трендовым сигналам в обе стороны.

marsbit34 мин. назад

Gate Research: Отток ETF сдерживает аппетит к риску, двунаправленная система преодолевает слабый рынок

marsbit34 мин. назад

По мере перетока капитала из криптовалют в ИИ, у трейдеров Zoomex уже есть доступ к обоим

Поскольку институциональный капитал перетекает с криптовалютных рынков на акции искусственного интеллекта и полупроводников, криптобиржа Zoomex представляет решение Zoomex Stocks. Оно предлагает токенизированные акции и ETF (включая TSLAx, NVDAx, QQQx и другие), позволяя трейдерам получить доступ к обоим классам активов из единого счета. Товар работает на базе модели xStocks, обеспеченной активами 1:1, соответствует стандартам MiFID II и торгуется 24/7 за USDT с комиссией 0,50%. Это устраняет необходимость в отдельном брокерском счете, конвертации валюты и привязке к рыночным часам, обеспечивая мгновенное расчеты на блокчейне. Для существующих пользователей Zoomex это возможность диверсифицировать портфель, хеджируя волатильность крипторынка, без вывода средств и прохождения новых процедур KYC. Платформа Zoomex, имеющая более 3 миллионов пользователей и регулируемые лицензии, фокусируется на простоте, скорости и безопасности торговли.

TheNewsCrypto50 мин. назад

По мере перетока капитала из криптовалют в ИИ, у трейдеров Zoomex уже есть доступ к обоим