Автор | Zimu AI
Трек AI-видео в последнее время немного охладел. Seedance 2.0 столкнулся с проблемами авторских прав, OpenAI закрыла Sora, омрачив атмосферу на этом треке.
Именно в это время Alibaba выпустила темную лошадь.
В апреле 2026 года HappyHorse-1.0 возглавил рейтинг Artificial Analysis, опередив таких конкурентов, как ByteDance и Kuaishou, на двух треках: генерация видео из текста и генерация видео из изображений (без аудио).
Чжан Ди вернулся в Alibaba Group в ноябре 2025 года, заняв должность руководителя Лаборатории будущей жизни группы Taotian Group и подчиняясь непосредственно техническому директору Alimama Чжэн Бо.
Другими словами, с момента возвращения Чжан Ди до того, как он добился успеха, прошло всего около 5 месяцев.
Ключевым моментом является то, что HappyHorse, как и Qwen от Alibaba, имеет открытую версию для коммерческого использования.
Какую позицию сейчас занимает Qwen в Alibaba? Это основная универсальная большая модель базового уровня группы Alibaba, абсолютное ядро стратегии ИИ. Все, что сейчас есть в Alibaba, строится вокруг Qwen.
Поэтому значение HappyHorse для Alibaba, вероятно, гораздо больше, чем просто демонстрация технологий в рейтинге.
Однако, прежде чем понять замысел Alibaba, нам следует поговорить о том, кто такой Чжан Ди.
01 Из Alibaba в Kuaishou и обратно в Alibaba
Чжан Ди окончил факультет компьютерных наук Шанхайского транспортного университета, учился по программе бакалавриата и магистратуры. После окончания в 2010 году присоединился к Alibaba, где долгое время отвечал за инженерию больших данных и машинного обучения в Alimama.
Alimama занимается рекламой, рекомендациями, поиском и конверсией, за которыми стоят большие данные, массовое распространение и сложные инженерные системы. Все это звучит не так ярко, как большие модели, но именно здесь готовили кадры в области ИИ для китайских интернет-компаний.
Многие из тех, кто действительно может превратить модели в продукты, пришли не из чисто лабораторной среды. Они раньше прошли через такие системы, как поиск, рекомендации, реклама, распространение контента.
Приведу несколько примеров для понимания. Генеральный директор Google Сундар Пичаи начинал с поисковой строки и рекомендаций контента YouTube. Генеральный директор Microsoft Сатья Наделла изначально разрабатывал поисковую систему Bing и рекламную систему Microsoft.
Потому что эти системы ежедневно обрабатывают огромное количество пользовательских действий и требуют, чтобы модели стабильно работали в реальном бизнесе. Они не позволяют инженерам делать просто красивый демо-ролик, а заставляют создавать действительно полезные продукты, постоянно идя на компромиссы между задержкой, стоимостью, эффектом и обратной связью.
Десять лет Чжан Ди в Alibaba прошли примерно в такой среде. В то время внешний мир еще не называл все это большими моделями, но внутри Alibaba уже был тренировочный полигон,围绕数据、算法和工程化的训练场 (построенный вокруг данных, алгоритмов и инженерии).
В 2020 году Чжан Ди ушел из Alibaba в Kuaishou.
В то время платформы коротких видео уже перешли от конкуренции за трафик к конкуренции технологий. Чжан Ди занимал должности вице-президента по технологиям, руководителя команды больших моделей и мультимедийных технологий в Kuaishou, позже主导ствовал в разработке базовой архитектуры и внедрении большой модели Kling.
Значение Kling для Kuaishou было очень большим.
Kling позволил Kuaishou перейти от прошлой «платформы распространения контента» к «провайдеру инфраструктуры для производства контента», построив полный闭环 «генерация креатива-создание видео-однокнопочное распространение-монетизация трафика-итерация данных».
В апреле 2025 года Kuaishou создал бизнес-подразделение Kling AI, повысив его до подразделения первого уровня компании, подчиняющегося непосредственно генеральному директору Чэн Исяо, наравне с основным бизнесом коротких видео.
Поэтому, когда он ненадолго присоединился к Bilibili в сентябре 2025 года, а затем вернулся в Alibaba два месяца спустя, это вряд ли можно было рассматривать как обычное движение кадров.
Bilibili нужны были видео-технологии, Alibaba тоже нужны были видео-технологии, но потребности Alibaba были сложнее.
Создание видео в Kuaishou — это, по сути, распространение. Но если Alibaba займется генерацией видео, за этим последует множество связанных环节 (звеньев): электронная коммерция, реклама, прямые трансляции, облачные услуги и зарубежные merchants (продавцы).
Как упоминалось ранее, после возвращения в Alibaba в ноябре 2025 года Чжан Ди занял должность руководителя «Лаборатории будущей жизни» группы Taotian Group, уровень P11.
При таком安排 (arrangement) чувствуется дух Alibaba. Она не поместила видео-модель просто в чисто исследовательский отдел, ее место反而更靠近 (наоборот, ближе к) такому месту совершения сделок, как Taotian.
Другими словами, HappyHorse с самого замысла был продуктом, ориентированным на внедрение и связанным с существующей экосистемой Alibaba.
Пять месяцев спустя появился HappyHorse.
Скорость действительно высока. Alibaba предоставила Чжан Ди новую бизнес-сцену и команду, и он снова проложил путь для видео-моделей.
Он не начинал с нуля в AI-видео, и не был просто внешним назначенцем в Alibaba.
Его карьерный путь похож на линию, которая вышла наружу и вернулась обратно. Сначала в Alibaba он научился тому, как работают крупные коммерческие системы, затем в Kuaishou превратил генерацию видео в продукт, а затем вернулся в Alibaba, чтобы поместить эти возможности в更大的 коммерческую машину.
Многие компании борются за таланты в области больших моделей, но真正稀缺的人 (по-настоящему稀缺的人) — это те, кто одновременно понимает модели, бизнес и организацию.
Тех, кто просто умеет тренировать модели, много. Тех, кто просто умеет рассказывать о стратегии, тоже много. Сложность в том, чтобы найти того, кто знает, на каком этапе может застрять модель от технического маршрута, проектирования архитектуры, тренировки и вывода, до выхода продукта и конечного использования merchants (продавцами) и пользователями.
HappyHorse снова вывел Чжан Ди на передний план, а также дал более конкретный персонализированный вход для относительно разрозненного AI-нарратива Alibaba за последние годы.
02 Как модель с открытым исходным кодом победила закрытых гигантов
Настоящей точкой внимания для HappyHorse стало то, что он выиграл слишком внезапно.
На треке генерации видео за рубежом есть Runway, Pika, Luma, Veo от Google, внутри страны — Seedance от ByteDance, Kling от Kuaishou. Alibaba не входила в число.
Поэтому, когда HappyHorse только возглавил рейтинг, многие предпочли поверить, что это модель, разработанная каким-то стартапом, а не модель от Alibaba.
HappyHorse находится в первом эшелоне на двух треках: преобразование текста в видео и преобразование изображения в видео, с оценкой Elo 1333 для текст-в-видео и 1392 для изображение-в-видео.
Рейтинг Artificial Analysis сам по себе постоянно меняется вслед за слепыми пользовательскими тестами, позже оценки на странице также обновлялись, но он действительно опередил一批 более известных закрытых моделей в пользовательских предпочтениях.
Это действительно ненормально. Обычно генерация видео — одно из направлений, которое最吃钱、吃数据、吃算力 (сильнее всего требует денег, данных, вычислительных мощностей).
Закрытые крупные компании могут хранить данные, детали моделей, системы вывода и пользовательский опыт внутри своей платформы,持续做内部迭代 (постоянно выполняя внутренние итерации).
Модели с открытым исходным кодом сталкиваются с большими ограничениями: их параметры должны быть публичными, вывод должен работать, сообщество должно能够复现 (иметь возможность воспроизвести), а эффект должен выдерживать横向比较 (горизонтальное сравнение).
Поэтому до появления HappyHorse большинство открытых видео-моделей были игрушками,输出的视频不够稳定,人物还经常会出现漂移 (выходное видео было недостаточно стабильным, персонажи часто дрейфовали).
HappyHorse имеет 15 миллиардов параметров, 40-слойную унифицированную трансформерную архитектуру с самовниманием, помещая токены текста, видео и аудио в одну последовательность для совместного моделирования.
Этот подход очень напоминает Qwen, что объясняет, почему Чжан Ди создал HappyHorse всего за 5 месяцев, вероятно, использовав высококачественные原生ные мультимодальные методы тренировки, оставшиеся от Qwen.
Не原生но-мультимодальные модели генерации видео, такие как Sora, часто сталкиваются с тем, что рот персонажа двигается, а звук запаздывает. Иногда выражение лица персонажа богатое, но тон не тот. Персонаж может действовать до того, как раздастся звук.
Причина высоких оценок HappyHorse в том, что он решает эту проблему через原生ную мультимодальность.
HappyHorse изначально поддерживает синхронизацию губ на английском, путунхуа, кантонском, японском, корейском, немецком, французском и других языках, а также коэффициент ошибок по словам сравнивается с аналогичными открытыми моделями.
Зачем Чжан Ди это сделал? Мое понимание таково: если Alibaba хочет, чтобы технология генерации видео вошла в рекламу, электронную коммерцию, короткие сериалы, образование и прямые трансляции, нельзя полагаться только на красивые кадры.
Она должна уметь говорить, озвучивать, чтобы звук и изображение работали одновременно.
Другой ключевой момент — стоимость и скорость.
HappyHorse требует около 38 секунд для генерации 5-секундного видео 1080p на одной GPU H100 и использует технологию дистилляции DMD-2 для сокращения шагов денойзинга до 8.
Это непреодолимый барьер для коммерциализации генерации видео. Какой бы хорошей ни была модель, если стоимость создания одного короткого видео слишком высока, а ожидание слишком долгое,很难进入商家日常工作流 (трудно войти в рабочий процесс merchants/продавцов).
Merchants не будут ждать полдня каждый товар и не будут платить слишком высокую цену за десятки тестовых материалов.
Поэтому значение HappyHorse не только в «способности генерировать», но и в попытке снизить скорость генерации и стоимость вывода до приемлемого диапазона.
Для разработчиков открытый исходный код означает возможность само-хостинга, тонкой настройки, интеграции в свои продукты. Для платформы открытый исходный код также принесет больше отзывов сообщества.
Прогресс закрытой модели в основном зависит от внутренней команды компании, открытая модель будет подвергаться различным странным тестам разработчиков, проблемы暴露得快 (обнаруживаются быстро),改进方向也会变多 (направления улучшений также становятся больше).
Видео-арена Artificial Analysis использует пользовательское голосование по предпочтениям, часто смотря не на один технический показатель, а на то, какое из двух видео пользователь предпочитает.
Конечно, Чжан Ди еще не может слишком гордиться, одно первое место в рейтинге не означает вечного лидерства.
Конкуренты не будут стоять на месте. Победа HappyHorse сейчас — это всего лишь один публичный тест, а не вся война.
Если HappyHorse — это просто модель, которая может возглавить рейтинг, ее значение ограничено. Но если она станет базой для генерации видео, совместно используемой бизнесом Alibaba Cloud и Taotian, она станет входом.
Поэтому самое интересное в победе HappyHorse над закрытыми гигантами — не только в领先分数 (лидирующих оценках).真正值得关注的是 (真正值得关注的是), это позволило Alibaba найти способ重新进入视频生成牌桌 (вернуться за стол переговоров по генерации видео).
Она не стала сначала делать приложение для конечных пользователей, и не ограничилась внутренними демонстрациями, а直接拿开源模型接受全行业检验 (прямо взяла открытую модель и подвергла ее проверке всей отраслью).
Эта победа, возможно, продлится недолго, но Чжан Ди изменил внешнее восприятие возможностей Alibaba в области генерации видео.
Новый вопрос стал: куда Alibaba собирается применить эту способность?
03 Значение HappyHorse для Alibaba
Самое прямое применение HappyHorse — электронная коммерция.
Раньше, говоря об AI-видео, легче всего было представить кино, короткие сериалы, рекламные ролики, инструменты для создателей. Бесспорно, это реальные большие рынки, но они находятся на некотором расстоянии от основного бизнеса Alibaba.
Преимущество Alibaba не в создании собственного видео-сообщества и не в том, чтобы обычные пользователи ежедневно открывали AI-видео приложение для убивания времени.真正有优势的地方 (Истинное преимущество Alibaba) в том, что у нее есть самые плотные товары, merchants,交易和广告系统 (транзакционные и рекламные системы) в Китае.
Вот почему многие обратили внимание, что HappyHorse родился в «Лаборатории будущей жизни» группы Taotian Group.
Taotian ежедневно сталкивается с тем, как merchants продают товары, как товары видны, почему пользователи点击进来 (кликают и заходят), и почему совершают покупки. Размещение HappyHorse здесь естественно наводит на мысль: может ли он повысить эффективность производства商品内容 (товарного контента), может ли повысить конверсию, может ли помочь платформе делать больше бизнеса?
Для обычного merchantа видеоконтент всегда был проблемой.
Чтобы снять 30-секундное видео товара, нужно найти место, найти модель, выставить свет, смонтировать, озвучить. Крупные бренды могут нанять команду, мелкие и средние merchants чаще всего вынуждены обходиться своими силами.
Многие товарные преимущества не сложны, проблема в том, что никто не снимает их. На белом фоне они выглядят обычными, но一旦进入具体场景 (как только попадают в конкретную сцену), пользователи осознают, для чего их можно использовать.
Недавно за рубежом распродался продукт «солнечный насос для фонтана», изначально это была просто садовая мелочь, эффект так себе. Но после упаковки AI-видео в птичьи ванночки, рыбьи пруды и детские ванночки с крутой брызгающей игрушкой, все стали сходить с ума и скупать.
ИИ не изменил сам товар, но изменил способ понимания товара пользователем. Он превратил «описание функции» в «сцену использования».
Это как раз бьет в больное место контента электронной коммерции.
Страница товара заполнена параметрами, пользователю未必有耐心看 (может не хватить терпения прочитать); ведущий рассказывает полдня, пользователь未必相信 (может не поверить). Но если 10-секундное видео может четко объяснить сцену, эффективность конверсии может быть намного выше.
Что более важно, AI-видео можно генерировать批量 (пакетами). Merchant может сгенерировать детскую, семейную, праздничную, уличную версии для одного товара, а также версии на разных языках, с разными персонажами и сценами для разных стран.
Это имеет для Alibaba большее значение, чем просто создание инструмента генерации видео. Как на Taobao, так и на Tmall есть множество merchants, а также大量商品数据和交易反馈 (огромное количество товарных данных и обратной связи по транзакциям).
Если инструмент AI-видео只知道 генерировать красивые кадры, он很快会变成素材软件 (быстро превратится в программное обеспечение для素材/материалов); если он сможет знать, в какой сцене этот товар更容易被点击 (更可能 быть кликнутым), какой текст更容易带来加购 (更可能 привести к добавлению в корзину), какие первые секунды видео更容易留住用户 (更可能 удержать пользователя), он приблизится к части операционной системы электронной коммерции.
То, чего у Alibaba больше, чем у других компаний-создателей видео-моделей, — это именно эта обратная связь по闭环 (замкнутый цикл).
Изображения товаров, страницы с подробностями, оценки, вопросы и ответы, поисковые запросы,点击率 (CTR),加购率 (rate добавления в корзину), причины возврата, время пребывания в прямой трансляции — все это кажется разрозненным, но является топливом для обучения способностей电商内容 (контента электронной коммерции).
Если HappyHorse подключится к этой обратной связи, он сможет эволюционировать от «помощи merchantу сгенерировать видео» до «помощи merchantу сгенерировать видео, которое更可能卖货 (更可能 продать товар)».
Ориентируясь на Taotian, он может создавать видео для главных изображений, короткие сцены товаров, срезы прямых трансляций, виртуальных ведущих и маркетинговых материалов.
Раньше merchant при выпуске нового товара可能只上传几张图 (мог загрузить только несколько картинок), максимум снять одно грубое короткое видео. В будущем он сможет передать системе изображение товара, преимущества, оценки и人群标签 (теги аудитории), позволив системе сгенерировать несколько разных версий видео, а затем с помощью реальных данных размещения и成交数据 (данных о сделках) отфильтровать более эффективную.
Если этот процесс пойдет гладко, предложение контента на платформе значительно увеличится, а порог контента для мелких и средних merchants также снизится.
Однако, продажи через AI-видео также несут риски. Оно может усиливать преимущества, но也可能放大幻觉 (也可能 усиливать иллюзии). Солнечный насос в AI-видео бьет высоко, в реальности такого эффекта достичь невозможно.
Возможность для Alibaba не должна заключаться в потворстве merchantsам создавать мечты с помощью ИИ. Акцент следует делать на параметрах товара,实拍素材 (материалах реальной съемки),买家评价 (оценках покупателей) и平台审核 (проверке платформой), чтобы генерируемый контент имел границы.
В конце марта OpenAI объявила о закрытии独立应用 (независимого приложения) Sora и связанных API. Причина реалистична: генерация видео слишком дорога, удержание пользователей не окупает затрат, OpenAI должна вернуть вычислительные мощности в кодирование, корпоративные услуги и робототехнику.
Sora пала на коммерческом расчете.
ByteDance также столкнулся с проблемами. Хотя Seedance 2.0 также очень эффективен, из-за проблем с авторскими правами ByteDance приостановила глобальный выпуск Seedance 2.0.
Чем сильнее тренируется модель, тем легче она попадает в трясину авторских прав, прав на изображение и тренировочных данных.
Теперь, глядя на HappyHorse, созданный под руководством Чжан Ди, у него есть четкая коммерческая сцена. Более того, товарные изображения, материалы merchants, видео реальной съемки и транзакционная обратная связь, имеющиеся у Alibaba,天然比 (естественным образом более подходят для контролируемой генерации, чем)影视IP (кинематографический IP).
Поэтому ценность HappyHorse не только в рейтинге. Он нашел для AI-видео более稳的落点 (устойчивую точку применения).









