Всё верно, ИИ продолжает ускоряться.
В 2016 году, спустя лишь год после взрыва популярности глубокого обучения, развитие практически остановилось. В 2026 году, после 4 лет бурного роста, большие модели по-прежнему не достигли своего предела.
На конференции BAAI 2026, журнал «Guangzhui Intelligent» увидел, как всё — от моделей, программного и аппаратного обеспечения до продуктов — работает над тем, чтобы ИИ вышел из цифрового мира в физический.
С одной стороны, Scaling Law стабильно работает, продвигая развитие больших языковых и мультимодальных моделей, и отрасль ИИ уже вступила в фазу погони за мировыми моделями. Однако пока не решены вопросы технических маршрутов, данных и другие, на исследование которых может потребоваться как минимум 3-5 лет.
С другой стороны, прорывы в области агентов ускоряют внедрение ИИ в реальные сценарии. По мере того как агенты достигают стадии пригодности к использованию, отрасль продвигает их применение в таких областях, как медицина, совещания и другие. Чтобы сделать агентов из «пригодных к использованию» в «удобные», ключевым становится взаимодействие программного и аппаратного обеспечения. На выставочной площадке конференции BAAI производители чипов заняли «половину территории». Присутствовали практически все ведущие отечественные ИИ-чипы.
«Мы находимся на новом историческом переломном моменте. Искусственный интеллект больше не просто инструмент для преобразования какой-либо отрасли, а становится базовой силой, перестраивающей мир. AI Coding, автономные агенты, самоэволюция моделей открывают новые возможности для ИИ и создания ИИ. Мировые модели, воплощённый интеллект и робототехника позволяют интеллекту распространяться из цифрового мира в физический», — сказал Ван Чжунюань, президент Института интеллектуальных источников (BAAI).
Что же происходит в этой волне перестройки «базовой силы»?
В первый день конференции BAAI присутствующие гости дали ответ: ИИ переходит от «умения болтать» к «умению работать». Scaling Law продолжается, мировая модель, техническое направление которой ещё не сходится, становится центром внимания следующего этапа, а интеллектуальные агенты уже начинают переходить от пригодности к удобству использования, и перед ними также стоит множество проблем, требующих оптимизации.
ИИ не только не достиг потолка в технологиях
но и научился самоэволюции
За последний год, по мере исчерпания высококачественных текстовых данных из интернета, в отрасли распространились пессимистичные настроения о том, что «Scaling Law (закон масштабирования) вот-вот достигнет пика».
На многих форумах конференции BAAI часто поднимался вопрос «уменьшилась ли выгода от Scaling Law», и несколько гостей отрицали это утверждение.
«Я всё ещё твёрдо верю, что Scaling Law ещё далёк от своего конца, — сказал Ван Хэ, основатель и технический директор Galaxy General. — Оглядываясь сегодня назад, Scaling Law не потерял силу, просто он стал более разнообразным».
Scaling продолжает играть свою роль в серии недавно выпущенных больших языковых моделей. Анализируя недавно выпущенную Anthropic модель Fable 5, Ло Фули из Xiaomi отметила, что эта сама модель является продуктом научного продвижения Scaling. Это результат масштабирования, полученного путём сочетания трёх измерений: масштаба параметров, синтетических данных и обучения с подкреплением.
«Мы предполагаем, что масштаб параметров самой Fable 5, вероятно, в несколько раз превышает масштаб самой большой на данный момент открытой модели. Кроме того, были вложены значительные вычислительные ресурсы в Test-Time Scaling (масштабирование во время вывода) или обучение с подкреплением. Также синтетические данные, генерируемые людьми и агентами, довели объём данных до нового уровня», — сказала Ло Фули.
В мультимодальной области улучшение производительности моделей благодаря Scaling также весьма значительно. Чжу Цзюнь, основатель и главный научный сотрудник Shengsu Technology, заявил, что качество данных, размер модели и крупномасштабное обучение — всё это способствует улучшению модели. На основе повышения способностей базовой модели понимание физических законов и 3D-сцен также становится более эффективным.
Пока Scaling продолжает действовать, с постепенным созреванием AI Coding и ускорением внедрения агентов становится очевидной тенденция самоэволюции ИИ, от написания кода до самостоятельного выполнения обновлений продукта.
«Основой цифрового мира человека в значительной степени является код. Прогресс AI Coding стал реальным и превратился в mainstream, что означает, что всё в цифровом мире постепенно может быть взято под контроль ИИ», — сказал Ван Чжунюань.
Как за рубежом, так и внутри страны стало нормой использование ИИ для выполнения обновлений продукта.
«Если модель определяет способности интеллектуального агента, то Harness определяет верхний предел этих способностей», — сказал Ли Цзинцю. «Сложность заключается в необходимости дальнейшего уточнения, проверки и обратной связи по проблемам на основе модели».
Например, если полагаться только на модель для понимания проблемы, её возможности будут ограничены. Задача Harness — доработать и обогатить простое однострочное указание пользователя, чтобы модель лучше поняла потребность. Для этого Harness должен проявить способность понимать намерения, а после получения задачи спроектировать последующий рабочий процесс и затем распределить выполнение модели. В этом процессе может потребоваться сочетание человеческого вмешательства и корректировки, а также проверка перед завершением задачи.
Мировая модель
Следующее ключевое поле битвы для больших моделей
Продвигаясь за границы цифрового мира, мировая модель стала следующим ключевым полем битвы для больших моделей.
«На данный момент ещё нет ни одной мировой модели, которая действительно заставляла бы чувствовать себя особенно впечатлённо, решая различные проблемы реального физического мира», — сказал Ван Чжунюань.
Для мировой модели, находящейся на начальной стадии развития, в отрасли пока нет полного консенсуса относительно технологий для мировых моделей. И в условиях, когда технические маршруты ещё не сходятся, есть ряд неотложных проблем. Например, в отношении данных Ван Чжунюань привёл пример: нужны ли видео данные, симуляционные данные или данные реального физического мира — методология и путь ещё не найдены.
На примере Galaxy General Ван Хэ на месте рассказал об их применении синтетических данных.
«До появления парадигмы WAM (World Action Model, мировая модель действий) мы в рамках парадигмы VLA сначала использовали синтетические данные и провели множество экспериментов с захватом объектов», — сказал Ван Хэ. «Мы доказали на 1 миллиарде кадров симуляционных данных: если вы масштабируете данные до такого уровня, вы можете полностью реализовать zero-shot (обучение без примеров). В реальном мире, дайте мне любую вещь, и я смогу её захватить».
Относительно развития мировых моделей Институт BAAI прогнозирует, что «потребуется как минимум ещё несколько лет», и следующие три-пять лет будут этапом постоянной эволюции и итерации мировых моделей.
За последние несколько лет в отрасли появились мировые модели с различными техническими маршрутами, и развитие каждого из них имеет свои особенности.
Что касается мультимодальных мировых моделей, Чжу Цзюнь отметил, что видео модели тесно связаны с мировыми моделями, поскольку мировая модель должна обладать тремя способностями: видеть и понимать состояние, предсказывать и действовать. Среди обучающих данных, доступных в настоящее время, наиболее связанными с мировой моделью являются именно видео данные.
В условиях дифференциации различных технических маршрутов и отсутствия отраслевого консенсуса Институт BAAI классифицировал мировые модели на четыре категории:
Первая категория — языко-ориентированные мировые модели, которые отображают другие модальности и способности в языковое пространство, включая большие языковые модели (LLM), VLM, VLA и т.д.;
Вторая категория — пиксель-ориентированные мировые модели. Генерация видео по сути является предсказанием следующего кадра, но модели генерации видео не равны мировым моделям, они связаны с ними. World Action Model (WAM), который может стать очень популярным в этом году, эволюционирует на основе пикселей;
Третья категория — мировые модели, ориентированные на трёхмерную структуру, включая простое трёхмерное моделирование мира;
Четвёртая категория — мировые модели, ориентированные на визуальное представление.
В настоящее время Институт BAAI исследует «пятый» путь — слияние языко-ориентированного и ориентированного на визуальное представление подходов, а именно латентное пространственное представление, которое эквивалентно сжатию текстовой, графической и другой информации в векторное пространство для представления различных состояний реального физического мира.
«Будущее единое моделирование латентного пространства будет не только визуальным пространством, а полимодальным латентным пространством, что, весьма вероятно, является следующим возможным путём для истинной мировой модели», — сказал Ван Чжунюань.
На конференции Институт BAAI представил разрабатываемую мировую модель — WuJie·Physis-v0.1, которая ориентирована на моделирование физического пространства и прогнозирование следующего физического состояния. Её позиционирование — первая в мире универсальная базовая модель мира, подчёркивающая четыре ключевые способности: «физическая корректность, причинно-следственная прослеживаемость действий, долгосрочная временная согласованность, универсальная обобщаемость».
В настоящее время модель ещё находится на стадии обучения, во второй половине года BAAI будет продолжать делиться прогрессом и откроет модель после завершения обучения.
От «пригодности» к «удобству»
Интеллектуальным агентам предстоит пройти ещё много барьеров
Со стороны моделей прогресс в мировых моделях способствует реализации физического ИИ; со стороны продуктов агенты становятся ключевым продуктом для внедрения ИИ в повседневную жизнь масс.
Начиная с 2025 года, названного «годом интеллектуальных агентов», уже появились некоторые впечатляющие продукты-агенты, наметились признаки взрывного роста, но неожиданной оказалась огромная популярность «лобстеров» в этом году.
По сравнению с прошлым годом, когда агенты ещё находились в состоянии исполнения, в этом году агенты явно стали более активными, лучше справляться с делами и могут помогать пользователям активно выполнять более сложные задачи.
На конференции BAAI этого года Институт также представил четырёх агентов, ориентированных на вертикальные области: первый в мире вспомогательный диагностический агент для кардиологической магнитно-резонансной томографии BAAI Cardiac Agent, который, объединяя мультимодальные возможности и профессиональные знания врачей, помогает в принятии решений; автономный исследовательский агент AREX, применяемый в научной сфере; агент SoulAgent, помогающий пользователям слушать совещания в реальном времени и фиксировать ключевые моменты; а также агент для обнаружения рисков, связанный с получением вредных белков.
Например, протестировав агента для прослушивания совещаний, журнал «Guangzhui Intelligent» оценил его способность резюмировать содержание различных совещаний. SoulAgent действительно сделал краткое резюме содержания совещания. Хотя оно не так полно, как протокол, но основные идеи верны. Этот агент хорошо подходит для ситуаций, когда время проведения секционных заседаний совпадает.
Однако в настоящее время в техническом плане у интеллектуальных агентов существует множество проблем, требующих дальнейшей оптимизации. Профессор Ан Ян из Наньянского технологического университета отметил, что для поддержания дальнейшего повышения способностей агентов наиболее важными на данный момент остаются аспекты, связанные с инженерией контекста, такие как Memory (память), оркестрация и т.д.
На форуме по интеллектуальным агентам термин Harness (буквально — упряжь, означает целый набор инженерных фреймворков или сред, построенных вокруг агента), который редко упоминался в прошлом году и стал очень популярным в этом, стал одним из часто упоминаемых ключевых слов.
«Если модель определяет способности интеллектуального агента, то Harness определяет верхний предел этих способностей», — сказал Ли Цзинцю. «Сложность заключается в необходимости дальнейшего уточнения, проверки и обратной связи по проблемам на основе модели».
Например, если полагаться только на модель для понимания проблемы, её возможности будут ограничены. Задача Harness — доработать и обогатить простое однострочное указание пользователя, чтобы модель лучше поняла потребность. Для этого Harness должен проявить способность понимать намерения, а после получения задачи спроектировать последующий рабочий процесс и затем распределить выполнение модели. В этом процессе может потребоваться сочетание человеческого вмешательства и корректировки, а также проверка перед завершением задачи.
Проще говоря, как настоящий личный помощник, каждый детальный шаг требует отработки продуктом для Harness, чтобы ещё больше повысить эффективность выполнения агента.
В настоящее время агенты находятся на начальной стадии развития. Можно预见, что у этой отрасли большой потенциал для прогресса. Как повышение способностей моделей, так и укрепление инженерных деталей будут способствовать дальнейшему улучшению работоспособности агентов.
Эта статья из WeChat Official Account: Guangzhui Intelligent , автор: Следит за передовыми технологиями












