Alibaba запускает базу воплощенного интеллекта Qwen-Robot для развертывания многодоменных физических действий без обучения

06/16 07:05

Согласно мониторингу Dongcha Beating, команда крупных моделей Alibaba выпустила набор базовых моделей воплощенного интеллекта Qwen-Robot Suite, который включает три базовые модели: Qwen-RobotNav, Qwen-RobotManip и Qwen-RobotWorld, соответствующие навигации, манипуляции и симуляции мира в трех областях физических действий. Набор нацелен на согласование визуальных языковых моделей с физическими действиями для достижения воплощенной обобщаемости в рамках множества задач и моделей. Навигационная модель Qwen-RobotNav объединяет такие задачи, как выполнение инструкций, навигация к цели, отслеживание цели и автономное вождение. В своем дизайне модель параметризует стратегии визуального распределения, поддерживая динамические корректировки бюджетов визуальных токенов и выборки кадров во время вывода. После обучения на 15,6 миллионах образцов Qwen-RobotNav достигла передовых результатов в пяти навигационных областях и была развернута в режиме нулевого обучения на четырехногом роботе Yushu Go2. Модель манипуляции Qwen-RobotManip построена на основе Qwen3.5-4B VL и поточно-сопоставляющей головы действий DiT, используя 80-мерное представление состояния-действия для вывода инкрементальных поз для конечных эффекторов. Команда обучалась на более чем 38 100 часов данных (включая демонстрации роботов с открытым исходным кодом, видео с участием людей и синтезированные данные передачи между человеком и роботом), достигнув 91,4% уровня успеха в оценке LIBERO-Plus. Модель предсказания физического мира Qwen-RobotWorld использует естественный язык для унификации интерфейса роботизированных действий. Архитектурно модель основана на 60-слойной двойной потоковой MMDiT, которая глубоко связывает семантические представления Qwen2.5-VL с латентными переменными видео. После обучения на 8,6 миллионах пар видео-текст Qwen-RobotWorld заняла первое место в оценках, таких как EWMBench и WorldModelBench, которые оценивают соблюдение физических законов. Все три модели предоставляют интерфейсы с приоритетом языка. Alibaba также запустила фреймворк роботизированного агента Qwen-RobotClaw, который вызывает модели набора в качестве физических инструментов через верхние планировщики (такие как Qwen-3.5) для достижения многошаговых операций.
bullishbullishbullishAlcistabearishbearishbearishBajistaMe gustaCompartir
Descargo de responsabilidadEl contenido anterior no representa las posiciones de HTX.HTX no ofrece ninguna recomendación de trading.

Todos los comentarios0Lo más recientePopular

avatar
Lo más recientePopular