Команда NVIDIA создала агента-программиста, который берет на себя эксперименты с реальными роботами, достигая успеха в 99% случаев

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

Проект ENPIRE от NVIDIA GEAR Labs впервые реализовал полностью автоматизированные исследования на реальном роботизированном оборудовании. Система, состоящая из восьми автономных кодирующих агентов Codex, управляет флотом роботов для решения сложных задач ловкости, таких как завязывание стяжек, сортировка булавок и установка GPU, с успешностью до 99%. Агенты работают автономно в замкнутом цикле: сброс среды, поиск в литературе, реализация идей, обучение стратегий, развертывание, валидация и итеративное улучшение кода, практически без вмешательства человека. Ключевые инсайты: создание автоматизированной среды сброса часто проще, чем сама задача. Система демонстрирует «физический закон масштабирования» — увеличение числа параллельных роботов (например, до 8) значительно ускоряет решение. Введены новые метрики: MRU (средняя загрузка роботов) и MTU (эффективность использования токенов агентами). Текущая загрузка роботов ниже 50%, что указывает на потенциал роста через оптимизацию скорости работы агентов. Цель — достичь полностью автономной работы лаборатории. Проект будет открыт, что позволит разработчикам создавать подобные системы.

Автоматизированные исследования на этот раз действительно вышли из песочницы кода в реальный физический мир.

Недавно Джим Фан, руководитель лаборатории NVIDIA GEAR, представил новый проект под названием ENPIRE. Это их первая реализация автоматизированных исследований на роботизированном оборудовании.

Они поместили 8 агентов Codex во флотилию роботов, выделили им вычислительные мощности GPU и достаточный бюджет токенов, поставив простую цель: как можно быстрее решать задачи, поддерживать роботов в занятом, но безопасном состоянии и не тратить вычислительные ресурсы впустую.

Далее человеческое вмешательство практически прекратилось. Агенты автономно управляли всем замкнутым циклом: автоматически сбрасывали сцены, искали литературу, реализовывали идеи и строили инфраструктуру, обучали и развертывали стратегии, проводили самопроверку, анализировали логи и улучшали код, постоянно итерационно повторяя этот процесс, пока в реальном оборудовании не удавалось надежно выполнить задачи, требующие высокой точности и ловкости, такие как завязывание кабельных стяжек, упорядочивание игл в коробке или установка GPU.

Они также наблюдали «закон масштабирования в физическом мире»: увеличение количества параллельно работающих роботов (например, с нескольких до 8) значительно ускоряло решение задач.

В настоящее время часть систем лаборатории уже реализует самоитерацию в течение всей ночи без вмешательства человека, и исследователям достаточно лишь просматривать отчеты по утрам.

Джим Фан заявил, что цель на будущее — позволить членам команды спокойно уходить в отпуск, и даже генеральный директор NVIDIA Дженсен Хуанг не будет замечать, что лаборатория продолжает работать автономно.

Проект ENPIRE планируется полностью открыть, и тогда обычные разработчики смогут построить у себя дома аналогичную систему автономных роботизированных исследований.

Адрес проекта: https://research.nvidia.com/labs/gear/enpire/

Архитектура системы ENPIRE: четыре модуля образуют замкнутый цикл

ENPIRE — это каркасная система, разработанная для агентов-кодеров, которая с помощью четырех ключевых модулей создает воспроизводимый цикл физической обратной связи: модуль среды (EN) отвечает за автоматический сброс и проверку, модуль улучшения стратегии (PI) запускает оптимизацию стратегии, модуль прогона (R) поддерживает оценку стратегии на одном или нескольких роботах параллельно, а модуль эволюции (E) позволяет агенту-кодеру анализировать логи, изучать литературу, улучшать инфраструктуру обучения и код алгоритмов для устранения режимов сбоев.

Эта замкнутая система превращает обучение роботов в реальном мире в контролируемый, управляемый агентом процесс оптимизации, что сводит к минимуму ручной труд и одновременно позволяет проводить честные сравнительные эксперименты между различными рецептами обучения и вариантами агентов.

Благодаря поддержке ENPIRE передовые агенты-программисты смогли автономно разрабатывать стратегии и достигать 99% успеха в выполнении сложных задач по ловкому манипулированию в реальном мире, таких как PushT, укладывание штифтов в коробку, обрезание кабельных стяжек ножом.

Ключевое наблюдение: сброс среды часто проще, чем выполнение самой задачи

Одним из ключевых наблюдений стало: для многих роботизированных задач сброс среды зачастую проще, чем выполнение самой задачи.

Поэтому подход ENPIRE заключается в том, чтобы сначала позволить агенту построить среду автоматического сброса с помощью Code-as-Policy. Во многих случаях такой сброс — это просто задача pick-and-place, которую может решить Cap-X.

Затем интеллектуальный агент пишет эвристическую функцию вознаграждения. Исследовательская команда помещает эту среду в песочницу и запускает агента для проведения автоматизированных исследований вокруг полученных баллов.

Это также перекликается с определением автоматизированных исследований по Карпати: здесь речь идет не о простой настройке гиперпараметра или изменении небольшого фрагмента кода. Агент будет исследовать различные парадигмы в интернете и переписывать все, что может повысить производительность, включая алгоритмы, цели обучения и даже загрузчики данных.

В задаче с укладкой штифтов один агент даже самостоятельно написал контроллер безопасности по силе контакта, превзойдя по эффективности простую настройку нескольких параметров обучения с подкреплением.

Новые метрики: MRU и MTU

Масштабируемость ENPIRE зависит от размера команды агентов и вычислительных ресурсов, но здесь по-настоящему дефицитным ресурсом являются не GPU, а время работы роботов.

Когда исследовательская группа предоставила агентам 8 роботов вместо 1, время, необходимое для достижения почти идеального результата в задаче с укладкой штифтов, сократилось с более чем 1,5 часов до примерно 40 минут. Эти агенты координировались через Git: делились кодом, отказывались от неперспективных идей и автономно выбирали лучшие результаты выполнения друг у друга.

Это указывает на более масштабное изменение: робототехнические исследования превращаются в работу по проектированию среды — созданию окружения, в котором агенты-программисты могут проводить автоматизированные исследования; алгоритмическая работа смещается на более высокий уровень, превращаясь в построение замкнутого цикла обратной связи, который агенты могут замыкать самостоятельно.

И этот цикл будет наращиваться по сложным процентам: навык, освоенный агентом сегодня, завтра станет строительным блоком для создания и сброса среды для более сложных задач. Способности будут самовоспроизводиться, порождая новые способности.

В этой парадигме реальным жестким ограничением является бюджет на взаимодействие с реальным миром.

Поэтому исследовательская группа предложила две метрики:

  • Средняя утилизация роботов (Mean Robot Utilization, MRU): доля времени, которое роботы фактически тратят на проведение экспериментов, от общего реального затраченного времени.
  • Средняя утилизация токенов (Mean Token Utilization, MTU): измеряет эффективность преобразования агентом токенов в исследовательский прогресс.

В их экспериментах MRU всегда была ниже 50%. То есть роботы половину времени простаивали, ожидая, пока агент подумает. Поэтому улучшение обвязки (harness) и более быстрые модели напрямую превращаются в практическую выгоду.

PushT — давно используемый бенчмарк для манипуляций роботов. Обычно для выполнения этой задачи требуется большое количество демонстрационных данных от человека и несколько часов обучения методом поведенческого клонирования.

Но они увидели, что Codex, Claude Code и Kimi Code с помощью одного эвристического метода на основе правил «решили» эту задачу менее чем за 2 часа: без использования нейронных сетей, без обучения и без каких-либо человеческих данных.

Чтобы больше людей смогли попробовать автоматизированные исследования в физическом мире у себя дома, они на основе набора SO-101 от @LeRobotHF + NVIDIA Jetson Thor разработали полноценную стековую систему. Эта система может выполнять задачу PushT.

Ссылки для справки:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Статья из официального аккаунта WeChat «Машины и разум» (ID: almosthuman2014), автор: Ян Вэнь

Связанные с этим вопросы

QЧто такое проект ENPIRE и в чём его основное достижение?

AENPIRE — это проект NVIDIA GEAR Lab, впервые реализующий автоматизированные исследования на роботизированном оборудовании. Его основное достижение — успешное создание замкнутой системы, в которой агенты на основе кода (Codex Agent) автономно проводят исследования, включая поиск литературы, реализацию идей, обучение и развёртывание стратегий в реальном мире, достигая 99% успеха в выполнении сложных задач, таких как завязывание стяжек и сортировка булавок.

QКакие четыре ключевых модуля составляют архитектуру системы ENPIRE?

AАрхитектура системы ENPIRE состоит из четырёх ключевых модулей, образующих замкнутый цикл: модуль среды (EN, Environment), который отвечает за автоматический сброс и верификацию; модуль улучшения стратегии (PI, Policy Improvement), запускающий оптимизацию стратегий; модуль оценки (R, Rollout) для оценки стратегий на одном или нескольких роботах; и эволюционный модуль (E, Evolution), где кодирующие агенты анализируют логи, исследуют литературу и улучшают код для устранения ошибок.

QЧто означают новые метрики MRU и MTU, предложенные исследователями в проекте ENPIRE?

AMRU (Средняя утилизация робота) — это процент времени, в течение которого робот фактически выполняет эксперимент от общего затраченного времени, показывая, насколько эффективно используется аппаратное обеспечение. MTU (Средняя утилизация токенов) измеряет эффективность преобразования вычислительных ресурсов (токенов) в реальный прогресс исследования. Низкий MRU, например менее 50%, указывает на то, что роботы простаивают, ожидая вычислений агентов.

QКакое ключевое наблюдение было сделано относительно задач для роботов в проекте ENPIRE?

AКлючевое наблюдение заключается в том, что для многих задач роботов сброс среды (например, возврат предметов в исходное положение) зачастую оказывается проще, чем само выполнение задачи. Поэтому система ENPIRE сначала поручает агенту создать автоматизированный сброс среды (часто через простое действие «возьми и положи»), а затем уже фокусируется на решении основной задачи через автоматизированное исследование.

QКак увеличение количества параллельных роботов повлияло на скорость решения задач в эксперименте?

AИсследователи обнаружили «физический закон масштабирования»: увеличение количества параллельно работающих роботов (например, с одного до восьми) значительно ускоряет решение задач. В задаче сортировки булавок время достижения почти идеального результата сократилось с более чем 1,5 часов до примерно 40 минут благодаря параллельной работе нескольких агентов, которые координировались через Git, обмениваясь кодом и выбирая лучшие результаты.

Похожее

ChatGPT потерял половину своей империи: за три с половиной года, от монополии к разделу рынка

Прошло три с половиной года с момента появления ChatGPT. Когда-то он был революционным явлением, самым быстрорастущим приложением в истории, достигшим 1 миллиарда пользователей. Однако сейчас его глобальная доля на рынке AI-ассистентов впервые упала ниже 50%, составив 46,4% по данным Sensor Tower на конец мая 2026 года. Лидерство больше не означает монополию. Основными конкурентами, отвоевавшими долю, стали Gemini (27,7%) от Google и Claude (10,3%) от Anthropic. Рост Gemini объясняется глубокой интеграцией в экосистему Google (поиск, почта, Android), что делает его удобным для массового пользователя. Claude завоевал популярность среди "тяжелых" пользователей благодаря сильным сторонам в обработке длинных текстов, написании кода и сложных задачах, демонстрируя высокую конверсию в платные подписки (13%). Рынок перешел от фазы удивления к фазе сравнения, монетизации и экосистемной привязки. Пользователи стали более прагматичными и готовы мигрировать к тому ассистенту, который лучше справляется с конкретной задачей. Помимо "сырой" мощности модели, на выбор теперь влияют интеграция с привычными сервисами, цена, доверие к бренду и даже этические соображения. Монетизация становится ключевой темой. Общие расходы пользователей в AI-приложениях за первое полугодие 2026 года превысили $4,2 млрд. ChatGPT экспериментирует с рекламой, которую уже видят 17% пользователей, дополняя модель подписок. Это отражает жесткую финансовую реальность: затраты на вычисления и инфраструктуру огромны (OpenAI потратила $3,7 млрд только в первом квартале 2026 года), и компаниям необходимо находить устойчивые бизнес-модели. Эпоха, когда один продукт определял всю отрасль, закончилась. ChatGPT остается крупнейшим ассистентом, но рынок поделили несколько крупных игроков. AI перестал быть диковинкой и превратился в повседневный инструмент, который оценивают по практической пользе, цене и удобству. Потеряв "половину империи", ChatGPT уступил место более зрелому и конкурентному рынку, где побеждает тот, кто лучше всего решает реальные задачи пользователей.

marsbit6 мин. назад

ChatGPT потерял половину своей империи: за три с половиной года, от монополии к разделу рынка

marsbit6 мин. назад

Прогнозные рынки становятся медвежьими: трейдеры Kalshi оценивают вероятность падения биткойна до $50 000 в 69%

Платформа прогнозных рынков Kalshi указывает на усиление медвежьих настроений среди трейдеров: в настоящее время контракты оценивают вероятность падения биткойна до $50 000 до достижения $100 000 в 69%. Эти данные отражают коллективные ожидания участников платформы на конкретный момент, а не гарантированный прогноз. Такой сценарий предполагает возможное дальнейшее снижение на фоне ужесточения макроэкономических условий или ослабления спроса на биткойн-ETF. Сигнал контрастов с оптимистичными заявлениями некоторых инвесторов о приближении дна рынка. Важно отметить, что коэффициенты на прогнозных рынках могут быстро меняться в зависимости от текущей цены и позиций трейдеров, поэтому их следует рассматривать скорее как снимок настроений, чем как самостоятельную торговую систему. Разрыв между бычьими и медвежьими нарративами подчеркивает неопределенность текущего момента, а следующими ключевыми факторами для курса BTC останутся потоки ETF, макрополитика и преодоление важных технических уровней.

bitcoinist34 мин. назад

Прогнозные рынки становятся медвежьими: трейдеры Kalshi оценивают вероятность падения биткойна до $50 000 в 69%

bitcoinist34 мин. назад

Чемпионат мира начинается: подсчитываем "громкие" прибыли и разорительные убытки на рынках предсказаний

Чемпионат мира по футболу стартовал, что привело к экспоненциальному росту объема торгов на прогнозных рынках. По отчету Bernstein, ожидается, что событие привлечет до $10 млрд объема потребительских ставок и более $3 млрд дополнительных средств. На платформе Polymarket появились как крупные победители, так и проигравшие. Например, пользователь @mintblade за один день получил прибыль в $9,24 млн, правильно угадав исход четырех матчей, включая неожиданный результат в матче Ирана и Новой Зеландии. Новый кошелек @Fishalive заработал $9,06 млн, спрогнозировав ничью Испании с Кабо-Верде при коэффициенте выше 1000%. Пользователь @LEEEROYJENKINS заработал $5,2 млн на двух сделках, а @endlessFate поднялся на третье место в еженедельном рейтинге с прибылью $7,85 млн. Однако есть и значительные убытки. Пользователь @betoor619 потерял почти $1 млн, поставив на победу Испании, которая сыграла вничью. Другой крупный игрок, @weatherman12, проиграл более $1,8 млн, поставив против победы Аргентины, которая выиграла у Алжира со счетом 3:0. Статья напоминает, что прогнозы на спортивные события сопряжены с высоким риском неожиданных результатов.

Odaily星球日报46 мин. назад

Чемпионат мира начинается: подсчитываем "громкие" прибыли и разорительные убытки на рынках предсказаний

Odaily星球日报46 мин. назад

a16z: Эра криптоиндустрии, когда требуются доказательства

Криптоиндустрия вступает в эпоху «покажи мне доказательства». Раньше для привлечения внимания хватало белой книги, токена и грандиозного видения. Но на фоне усиления регулирования, скандалов и информационного шума терпение аудитории к «историям» иссякает. Теперь рынок спрашивает не о планах, а о реальных результатах: что уже создано, кто пользуется, каковы реальные данные, реализованы ли партнерства. Приход традиционных финансовых институтов, таких как BlackRock, Fidelity и JPMorgan, которые выпускают реальные продукты, а не просто концепции, поднял планку «серьезности» для всего сектора. Криптопроекты вынуждены перестраивать коммуникацию: видение остается важным, но его уже недостаточно. Убедительными становятся конкретные доказательства — реальные объемы транзакций в основной сети, активные пользователи, доходы, партнерские интеграции с публичным подтверждением, аудиторские отчеты. Это создает как давление, так и возможности. Более высокий порог входа отсеивает шумные проекты, построенные на обещаниях, но позволяет выделиться тем, у кого есть работающий продукт, данные и пользователи. Успех теперь определяется не масштабом рассказанной истории, а способностью представить убедительные доказательства, которые эту историю подтверждают. Коммуникация должна строиться от фактов и конкретики («мы сократили время кросс-бордерных расчетов с трех дней до четырех минут, и три компании уже это используют») к более широкому видению, а не наоборот. Эпоха обещаний сменилась эпохой доказательств.

marsbit1 ч. назад

a16z: Эра криптоиндустрии, когда требуются доказательства

marsbit1 ч. назад

Торговля

Спот
Фьючерсы
活动图片