По статистике, общий объем финансирования в области воплощенного интеллекта в Китае в этом году превысил 37 миллиардов юаней.
Министерство промышленности и информатизации совместно с Государственным комитетом по делам государственных предприятий запустили «Специальную акцию по практическому обучению в реалистичных условиях человекоподобных роботов и воплощенного интеллекта». Центральное телевидение Китая прямо назвало этот год «ключевым годом для коммерциализации». Деньги первичного рынка и истории вторичного рынка кричат об одном направлении: внедрение, внедрение, внедрение.
Но возникает вопрос: как именно должен внедряться воплощенный интеллект?
Широко распространено мнение, что воплощенный интеллект должен решать задачи, которые не под силу человеку, должен заменять людей на опасных, тяжелых, повторяющихся работах, которые люди не хотят и не должны выполнять.
22 июня в Пекине открылась 4-я Китайская международная ярмарка содействия развитию цепочек поставок, впервые организована специализированная зона искусственного интеллекта.
Однако намерения — это одно, а чтобы роботы действительно смогли «войти» в такие сценарии, первое препятствие уже отпугивает большинство компаний: сертификация по взрывозащите.
На заправках, нефтегазовых станциях, химических заводах и в других взрывоопасных средах сам робот ни в коем случае не должен становиться потенциальным источником возгорания. Это предъявляет чрезвычайно строгие требования к аппаратному обеспечению продукта еще на этапе проектирования. Например: на уровне схемотехники необходимо реализовать искробезопасную конструкцию, ограничивающую энергию контура, чтобы гарантировать, что даже при возникновении неисправности ее будет недостаточно для воспламенения атмосферы; механическая конструкция должна соответствовать требованиям взрывонепроницаемости, выдерживать внутренний взрыв без повреждения корпуса; все точки соединения должны быть выполнены с повышенной безопасностью для предотвращения возникновения искр при нормальной работе; ключевые компоненты также должны быть герметизированы, чтобы изолировать опасные контакты и т.д.

Куда может пойти воплощенный интеллект
Сложность этого сценария для робота заключается в «последовательности точных операций». После оформления заказа клиентом робот должен выполнить более десяти действий подряд: открыть внешнюю крышку, открутить внутреннюю, снять пистолет с держателя, нацелиться на горловину и вставить, дождаться окончания заправки, вынуть пистолет, вернуть его на держатель, закрыть внутреннюю крышку, закрыть внешнюю. Допуск для каждого действия составляет всего несколько миллиметров, заминка на любом этапе означает срыв всей цепочки. Более того, расположение топливного бака, конструкция крышки, способ открывания различаются у разных моделей автомобилей, и робот не может работать по фиксированной программе для всех случаев.
Проблемы при патрулировании объектов совершенно иные. Если на заправке проверяется точность операций, то на объектах проверяется комплексная способность к «длительному автономному патрулированию + распознаванию множества аномалий + немедленному реагированию на месте». Инспекторы ежедневно ходят по фиксированным маршрутам — работа монотонная, опасная и требующая чрезвычайной концентрации внимания, после нескольких часов непрерывного обхода у человека значительно возрастает процент пропущенных нарушений.
Сценарий порта: исследование взаимодействия нескольких роботов
Особенность этого сценария в том, что он по своей природе требует совместной работы нескольких роботов.
В настоящее время архитектура большинства систем воплощенного интеллекта является «конвейерной»: модуль зрения отвечает за восприятие, языковой модуль — за понимание, модуль действий — за выполнение.
Такая архитектура еще может справиться с простыми задачами, имеющими короткую последовательность и низкий уровень помех. Однако как только встречается сценарий с длинной последовательностью из десятков шагов, высокой динамичностью окружения и чрезвычайно низкой допустимой погрешностью, любое малейшее отклонение на промежуточном этапе начинает распространяться по цепочке, как костяшки домино. Традиционная конвейерная архитектура практически не может гарантировать сквозную стабильность при задачах такого уровня сложности.
Прогностическая способность, основанная на модели мира
В сценарии заправки задачи, стоящие перед воплощенным интеллектом, представляют собой очень длинные цепочки: наведение на место парковки, распознавание расположения топливного бака, открытие внешней крышки, открытие внутренней крышки, взятие пистолета, наведение на горловину, вставка, заправка, извлечение, возврат пистолета, закрытие внутренней крышки, закрытие внешней крышки. Малейшее отклонение на любом шаге будет передаваться дальше по цепочке.
Эта способность особенно важна для задач с длинными последовательностями. Заправка — это не простая операция «захват-размещение», это целая цепочка действий с причинно-следственными связями. Модель мира наделяет воплощенный интеллект проактивной способностью «видеть на три шага вперед, делая один».
Для понимания можно привести аналогию: опытный заправщик, независимо от того, насколько легко открывается крышка бака, всегда держит в голове конечное состояние, которого нужно достичь, и каждый промежуточный шаг корректируется в соответствии с этим конечным состоянием. Это позволяет воплощенному интеллекту перейти от «линейного выполнения» к «выравниванию по конечному состоянию».
Первое — генерация целевого наблюдения. Получив инструкцию задачи и текущее изображение с камеры, система сначала предсказывает, «каким должен стать мир после выполнения задачи». Например, после завершения заправки пистолет должен быть возвращен на место, крышка бака — закрыта. Это предсказанное «изображение конечного состояния» и есть целевое наблюдение, которое служит четкой смысловой точкой привязки для всех последующих процессов рассуждения.
Второе — синтез промежуточных кадров перехода. Имея цель, система затем реконструирует, через какие визуальные состояния должен пройти переход. Если начальная точка — «крышка бака закрыта», а конечная — «пистолет на месте, крышка бака закрыта», то в промежутке должны последовательно появиться такие переходные изображения, как «крышка бака открыта», «пистолет взят», «пистолет вставлен в горловину» и т.д. Эти синтезированные промежуточные кадры наблюдения предоставляют визуальные ориентиры для пошагового выравнивания при генерации действий.
Этот механизм позволяет роботу еще до начала действий иметь полное визуальное представление о всем процессе задачи. Последующее планирование действий разворачивается вокруг этой «воображаемой траектории», что значительно снижает накопленное отклонение при выполнении длинных последовательностей.

(a) Существующие методы обычно используют не зависящую от цели, целостную парадигму прогнозирования. (b) H-GAR вводит синтезатор наблюдений с условием цели и оптимизатор действий с восприятием взаимодействия, реализуя тем самым прогнозирование, привязанное к цели, и явно моделируя взаимодействие между наблюдением и действием.
Конкретно рабочий процесс H-GAR делится на три этапа:

Схема архитектуры H-GAR
Первый этап: черновой набросок действий на грубом уровне. На основе истории кадров и инструкции задачи система сначала генерирует набор грубых последовательностей действий. Эти действия описывают «приблизительный путь» от текущего состояния к цели, подобно примерному плану, который возникает в голове у человека при заправке — примерно известно, какие шаги нужно сделать, это подготовка перед выполнением.
Второй этап: синтез наблюдений с условием цели (модуль GOS). Получив черновые действия, система под руководством целевого наблюдения синтезирует промежуточные визуальные кадры. Ключевой момент этого этапа: синтезированные изображения генерируются не произвольно, а с двойным ограничением — как конечным целевым состоянием, так и черновыми действиями. Это гарантирует, что промежуточные переходные кадры соответствуют логике действий и одновременно выровнены по конечной цели.
Третий этап: уточнение действий с учетом взаимодействия (модуль IAAR). На последнем этапе черновые действия преобразуются в точные исполняемые команды. IAAR получает обратную связь из двух направлений для уточнения действий: во-первых, из визуального контекста, предоставляемого промежуточными кадрами наблюдения, что позволяет выровнять действия с реальной сценой; во-вторых, из библиотеки памяти исторических действий, которая записывает ранее выполненные точные действия, гарантируя, что генерируемые в данный момент действия сохраняют временную согласованность с исторической траекторией. Когда объем библиотеки памяти превышает пороговое значение, система использует стратегию вытеснения по схожести, объединяя наиболее похожие соседние действия для сохранения разнообразия памяти.
Адрес статьи: https://arxiv.org/pdf/2511.17079
В реальных сценариях неожиданности — это почти норма. Крышка топливного бака может открываться под неправильным углом, клиент может припарковаться не там, где ожидалось, или даже вокруг горловины могут быть посторонние предметы. Действия, которые в лаборатории успешны в 99 случаях из 100, в реальных уличных условиях могут давать успех лишь в 70%.
Эпилог: Единство знания и действия
Внедрение воплощенного интеллекта в специальные сценарии — это дело, требующее долгосрочного подхода.
Чтобы войти в специальные отрасли, механическая конструкция должна с самого начала учитывать требования безопасности, необходимо иметь возможность разрабатывать само воплощенное «тело». А для выполнения задач в специальных условиях «мозг» воплощенного интеллекта совершенно незаменим. Глубокая интеграция мозга и тела уже вышла за рамки дополнительного преимущества — это условие допуска.
Когда отрасль воплощенного интеллекта в целом стоит на перекрестке коммерческого внедрения, те игроки, которые первыми наладят замкнутый цикл «мозг-тело-данные», с большой вероятностью получат преимущество в предстоящей конкуренции.
Эта статья взята из официального аккаунта WeChat: Machine Heart (机器之心) , редактор: Лэн Мао, автор: интересующийся воплощенным интеллектом, оригинальное название: «Первая в стране сертификация по взрывозащите и первое в мире решение «мозга для заправки»: как им удалось достичь двух «первых»»








