Без презентаций, без технических блогов, без поддержки какой-либо компании — модель под названием HappyHorse-1.0 для преобразования текста в видео незаметно возглавила рейтинг AI Video Arena авторитетной платформы для оценки ИИ Artificial Analysis, набрав более высокий рейтинг Elo, чем Seedance 2.0, и оставив позади таких основных игроков, как Keling и Tiangong, что мгновенно вызвало «соревнование по разгадыванию» в техническом сообществе.
Рейтинг Artificial Analysis — это не оценка технических параметров, а совокупность результатов слепого тестирования реальными пользователями, выраженная в рейтинге Elo, что отражает реальное восприятие обычных людей после просмотра. Это делает данный рейтинг менее подверженным сомнениям по сравнению с обычными тестами производительности, а также превращает вопрос «кто же это сделал?» в нечто, что невозможно игнорировать.
«Счастливая лошадь» незаметно возглавляет рейтинг, вызывая соревнование по разгадкам в технологическом сообществе
Догадки в X появились быстро. Первое, что заметили, — это порядок языков на официальном сайте: путунхуа и кантонский стоят перед английским. Для продукта, ориентированного на глобальных пользователей, такой порядок несколько необычен — если бы за ним стояла американская команда, английский почти наверняка был бы на первом месте. То, что команда базируется в Китае, можно считать практически установленным фактом.
Само название также является подсказкой. 2026 год — это год Лошади по лунному календарю, и название «HappyHorse» содержит не слишком скрытую отсылку к году Лошади, подобный прием ранее в этом году уже использовала «Pony Alpha». Таким образом, список подозреваемых быстро расширился: основатели Tencent и Alibaba носят фамилию Ма (Лошадь), что естественно включает их в список; некоторые делали ставку на Xiaomi, полагая, что Лэй Цзюнь всегда低调ен и любит неожиданно раскрывать карты; другие считали, что стиль больше похож на DeepSeek, поскольку DS ранее уже незаметно запускала визуальную модель, а затем так же незаметно свернула ее. Предположения были оживленными, но ни одно не подкреплялось железными доказательствами.
Истинную цель помогло определить детальное техническое сравнение. Пользователь X Vigo Zhao сопоставил открытые эталонные данные HappyHorse-1.0 с данными известных моделей и нашел高度 соответствие с daVinci-MagiHuman — открытой моделью «Да Винчи: Магический человек», размещенной на Github в марте.
Качество изображения 4.80, соответствие тексту 4.18, физическая согласованность 4.52, коэффициент ошибок по словам в речи 14.60% — все пункты двух наборов данных совпадают. Структура официальных сайтов также почти идентична: описание архитектуры, таблицы производительности, стиль представления демонстрационных видео — все выглядит так, как будто сделано по одному шаблону. Обе используют архитектуру однорангового Transformer, обе генерируют аудио и видео совместно, поддерживаемые языки полностью совпадают. Степень такого совпадения трудно объяснить простым совпадением.
Наиболее широко признанный в техническом сообществе вывод на данный момент заключается в том, что HappyHorse — это итерационная версия, оптимизированная одной из сторон-разработчиков daVinci-MagiHuman, Sand.ai, на основе открытой модели, с основной целью проверки пределов производительности модели в условиях реальных пользовательских предпочтений для подготовки к коммерческому внедрению.
daVinci-MagiHuman был официально открыт 23 марта 2026 года и является результатом сотрудничества двух молодых команд. Одна — из Лаборатории исследований генеративного искусственного интеллекта (GAIR) Шанхайского инновационного и интеллектуального института (SII), во главе с ученым Лю Пэнфэем; другая — пекинская Sand.ai (Саньдай кэцзи), основатель Цао Юэ также имеет академический background, а компания ориентирована авторегрессионные мировые модели.
Модель использует чисто трансформерный одноранговый Transformer с 15 миллиардами параметров, помещая токены текста, видео и аудио в одну последовательность для совместного моделирования — в открытом сообществе ранее никто не делал с нуля настоящего совместного претренинга для аудио и видео, большинство ограничивалось склейкой на основе одномодальных моделей.
Как открытая модель для генерации видео смогла совершить прорыв за две недели?
После выяснения происхождения другой вопрос стал звучать еще сложнее: daVinci-MagiHuman был открыт только в конце марта, как HappyHorse-1.0 смог всего за две недели набрать более высокий рейтинг Elo, чем Seedance 2.0?
Судя по информации, раскрытой на официальном сайте, HappyHorse не вносил фундаментальных изменений в базовую архитектуру. Более разумное предположение заключается в том, что он внес целевые корректировки в стратегию генерации по умолчанию, ориентированные на сценарии оценки.
Система Elo по своей сути является накоплением пользовательских предпочтений. Если немного улучшить такие восприимчивые аспекты, как стабильность выражения лиц персонажей, синхронизация звука и изображения, визуальная привлекательность кадра, то в слепом тесте это с большей вероятностью будет выбрано. Верхний предел возможностей модели не изменился, но «производительность в тестах» можно было отточить.
Фактически, в слепых тестах Artificial Analysis доля контента с генерацией портретов и озвучкой превышает 60%, а daVinci-MagiHuman с этапа обучения был сфокусирован на портретных исполнениях, что дает ему естественное преимущество в таких сценариях и является основной причиной его лидерства в слепых тестах; если слепой тест в основном состоит из крупных планов людей, модели, специализирующиеся на портретах, будут систематически получать преимущество, что не имеет прямого отношения к их фактической производительности в сложных сценариях с множеством персонажей, сложной операторской работой, длительным повествованием и т.д.
В результате между цифрами в рейтинге и реальным опытом тестирования возник заметный разрыв, и участники дискуссий в X разделились на два лагеря. Скептики, протестировав, считают, что HappyHorse-1.0 все еще имеет видимый разрыв с Seedance 2.0 в деталях персонажей и плавности динамики, и на этом основании подвергают сомнению репрезентативность самого рейтинга Elo.
Сторонники же возлагают большие надежды на потенциал HappyHorse, надеясь, что он сможет решить отраслевую проблему «согласованности качества изображения в последовательностях с несколькими кадрами», поскольку это проблема, которую текущие mainstream модели для видео еще не решили. Если daVinci-MagiHuman действительно достигнет здесь прорыва, это может быть гораздо важнее места в рейтинге.
Ограничения самой модели также не должны быть скрыты цифрами. Блогер Xiaohongshu @JACK's AI World第一时间 развернул и протестировал daVinci-MagiHuman. Обнаружилось, что для его работы требуется H100, потребительские видеокарты基本 не справляются, и хотя сообщество изучает варианты квантования, в краткосрочной перспективе развертывание на машинах индивидуальных пользователей остается затруднительным.
Что касается сцен, в настоящее время он в основном擅长 одиночных персонажей, как только появляется несколько человек или сцена усложняется, качество падает — это не проблема, решаемая настройкой параметров, это напрямую связано с его ориентацией на портреты. Длительность генерации обычно составляет около 10 секунд, при большей длине может начаться путаница, а для вывода в высоком разрешении仍需 полагаться на плагины повышения разрешения.
@JACK's AI World пришел к выводу: общая удобство использования daVinci-MagiHuman уступает LTX 2.3, и для повседневного использования придется подождать, пока сообщество не завершит работу по квантованию.
Гонка генерации видео дождалась настоящей «рывковой силы»?
Конечно, одно лидерство в рейтинге не может сказать многого. Далее HappyHorse предстоит пройти более тщательную проверку на стабильность, скорость доступа при высокой concurrent нагрузке, согласованность между сценами, точность управления персонажами, а также способность к обобщению за пределами тестового набора. Именно эти показатели являются ключевыми для определения того, сможет ли модель真正 войти в рабочий процесс создателей контента.
Но если взглянуть на более широкую отраслевую картину, сигнал, передаваемый этим событием, уже достаточно ясен.
Открытые модели для генерации видео сами по себе не являются новостью. Но между открытыми и закрытыми моделями всегда существовал видимый разрыв в эффективности — в сценариях, требующих поставки клиентам, качество генерации открытых моделей长期 не могло перешагнуть порог от «пригодного к использованию» до «пригодного к поставке». Ценовая политика закрытых продуктов, таких как Keling и Seedance, в значительной степени строилась именно на этом разрыве.
Значение нынешнего события заключается в том, что продукт на основе открытой модели впервые в слепом тест-рейтинге, основанном на восприятии реальных пользователей, напрямую сравнялся с основными закрытыми конкурентами. Независимо от того, сколько в этом было成分 оптимизации под сценарии тестирования, для закрытых производителей, полагающихся на этот разрыв для построения ценовой политики, это, по крайней мере, сигнал, к которому стоит серьезно отнестись.
Для разработчиков значение этой转折点更为 конкретно. В вертикальных сценариях, таких как портреты, цифровые люди, виртуальные ведущие, как только качество генерации открытой базовой модели достигнет порога «пригодности к поставке», структура затрат на самостоятельное развертывание претерпит существенные изменения — это не только сокращение затрат на вызовы API, но, что более важно, включение данных, модели и цепочки логического вывода под полный собственный контроль, получение глубины кастомизации и соответствия требованиям конфиденциальности, гибкость которых закрытые решения提供 с трудом.
HappyHorse-1.0 в краткосрочной перспективе не поколеблет позиции Seedance 2.0 или Keling на рынке, но как только утвердится认知, что открытые модели могут сравниться по эффективности с закрытыми, последующая量化 оптимизация, вертикальная тонкая настройка и ускорение логического вывода будут продвигаться сообществом со скоростью итерации, значительно превышающей таковую у закрытых продуктов.
В этот год Лошади perhaps стоит обращать внимание не на то, какая лошадь бежит быстрее, а на то, что сама гоночная трасса становится шире.
Эта статья из WeChat Official Account «AI价值官», автор: Синъе, редактор: Мэйци










