Alibaba запускает базу воплощенного интеллекта Qwen-Robot для развертывания многодоменных физических действий без обучения

06/16 07:05

Согласно мониторингу Dongcha Beating, команда крупных моделей Alibaba выпустила набор базовых моделей воплощенного интеллекта Qwen-Robot Suite, который включает три базовые модели: Qwen-RobotNav, Qwen-RobotManip и Qwen-RobotWorld, соответствующие навигации, манипуляции и симуляции мира в трех областях физических действий. Набор нацелен на согласование визуальных языковых моделей с физическими действиями для достижения воплощенной обобщаемости в рамках множества задач и моделей. Навигационная модель Qwen-RobotNav объединяет такие задачи, как выполнение инструкций, навигация к цели, отслеживание цели и автономное вождение. В своем дизайне модель параметризует стратегии визуального распределения, поддерживая динамические корректировки бюджетов визуальных токенов и выборки кадров во время вывода. После обучения на 15,6 миллионах образцов Qwen-RobotNav достигла передовых результатов в пяти навигационных областях и была развернута в режиме нулевого обучения на четырехногом роботе Yushu Go2. Модель манипуляции Qwen-RobotManip построена на основе Qwen3.5-4B VL и поточно-сопоставляющей головы действий DiT, используя 80-мерное представление состояния-действия для вывода инкрементальных поз для конечных эффекторов. Команда обучалась на более чем 38 100 часов данных (включая демонстрации роботов с открытым исходным кодом, видео с участием людей и синтезированные данные передачи между человеком и роботом), достигнув 91,4% уровня успеха в оценке LIBERO-Plus. Модель предсказания физического мира Qwen-RobotWorld использует естественный язык для унификации интерфейса роботизированных действий. Архитектурно модель основана на 60-слойной двойной потоковой MMDiT, которая глубоко связывает семантические представления Qwen2.5-VL с латентными переменными видео. После обучения на 8,6 миллионах пар видео-текст Qwen-RobotWorld заняла первое место в оценках, таких как EWMBench и WorldModelBench, которые оценивают соблюдение физических законов. Все три модели предоставляют интерфейсы с приоритетом языка. Alibaba также запустила фреймворк роботизированного агента Qwen-RobotClaw, который вызывает модели набора в качестве физических инструментов через верхние планировщики (такие как Qwen-3.5) для достижения многошаговых операций.
bullishbullishbullishTăng giábearishbearishbearishGiảm giáThíchChia sẻ
Tuyên bố miễn trừ trách nhiệmNội dung trên không đại diện cho quan điểm của HTX.HTX không đưa ra bất kỳ lời khuyên giao dịch nào.

Tất cả bình luận0Mới nhấtPhổ biến

avatar
Mới nhấtPhổ biến