Par | Lettre IA
La piste de l'IA vidéo est récemment devenue un peu froide. Seedance 2.0 est empêtré dans des controverses de droits d'auteur, et OpenAI a fermé Sora, couvrant cette piste de nuages sombres.
C'est à ce moment qu'Alibaba a présenté un cheval noir.
En avril 2026, HappyHorse-1.0 a grimpé en tête du classement d'Artificial Analysis, devançant simultanément des concurrents comme ByteDance et Kuaishou sur les deux pistes de génération de vidéo à partir de texte et d'image (sans audio).
Zhang Di est retourné chez Alibaba en novembre 2025, prenant le poste de responsable du Laboratoire de la vie future du groupe Taotian et rapportant directement à Zheng Bo, CTO d'Alimama.
Autrement dit, il ne s'est écoulé qu'environ 5 mois entre le retour de Zhang Di et sa percée.
Le point clé est que HappyHorse, tout comme le Qwen d'Alibaba, a ouvert une version open source utilisable commercialement.
Quelle est la position de Qwen chez Alibaba aujourd'hui ? C'est la base centrale de modèle général de grande taille au niveau du groupe Alibaba, le support absolument central de la stratégie d'IA. Tout ce qu'Alibaba fait actuellement est organisé autour de Qwen.
Ainsi, la signification de HappyHorse pour Alibaba va probablement bien au-delà d'être simplement un modèle pour faire étalage de technologie en tête de classement.
Mais avant de comprendre la pensée d'Alibaba, nous devrions d'abord parler de qui est Zhang Di.
01 D'Alibaba à Kuaishou puis de retour chez Alibaba
Zhang Di est diplômé en informatique de l'Université Jiao Tong de Shanghai, avec un programme consécutif licence-maîtrise. Après avoir obtenu son diplôme en 2010, il a rejoint Alibaba, où il était longtemps responsable de l'ingénierie du big data et du machine learning d'Alimama.
Alimama s'occupe de publicité, de recommandation, de recherche et de conversion, soutenus par des données à grande échelle, une distribution à grande échelle et des systèmes d'ingénierie complexes. Ces choses peuvent sembler moins excitantes que les grands modèles, mais elles étaient précisément l'endroit où les entreprises internet chinoises formaient leurs talents en IA.
Beaucoup de ceux qui peuvent réellement transformer les modèles en produits ne viennent pas purement des laboratoires. Ils ont été formés plus tôt par des systèmes comme la recherche, la recommandation, la publicité, la distribution de contenu.
Je vous donne que quelques exemples pour que vous compreniez. Le PDG de Google, Sundar Pichai, vient de la barre de recherche et de la recommandation de contenu sur YouTube. Le PDG de Microsoft, Satya Nadella, a initialement développé le moteur de recherche Bing et le système publicitaire de Microsoft.
Parce que ces systèmes traitent quotidiennement des masses de comportements utilisateurs et exigent aussi que les modèles fonctionnent de manière stable dans des activités réelles. Ils ne permettent pas aux ingénieurs de faire seulement une démo jolie, ils vous forcent à créer quelque chose de vraiment utile, et à faire constamment des compromis entre la latence, le coût, l'effet et les retours.
Les dix années de Zhang Di chez Alibaba se sont globalement passées dans un tel environnement. À cette époque, le monde extérieur n'appelait pas encore tout « grand modèle », mais Alibaba avait déjà internalisé un terrain d'entraînement autour des données, des algorithmes et de l'ingénierie.
En 2020, Zhang Di a quitté Alibaba pour Kuaishou.
Les plateformes de courte vidéo étaient alors passées d'une compétition de flux à une compétition technologique. Zhang Di a occupé successivement les postes de vice-président technique, responsable de l'équipe des technologies de grands modèles et multimédia chez Kuaishou, et a ensuite dirigé le développement de l'architecture sous-jacente et la mise en application du grand modèle Kling.
La signification de Kling pour Kuaishou est très importante.
Kling a permis à Kuaishou de passer d'une « plateforme de distribution de contenu » à un « fournisseur d'infrastructure de production de contenu », construisant une boucle complète de « génération créative - production vidéo - distribution en un clic - monétisation du trafic - itération des données ».
En avril 2025, Kuaishou a créé la division IA Kling et l'a élevée au rang de département de niveau 1 de l'entreprise, rapportant directement au PDG Cheng Yixiao, sur un pied d'égalité avec l'activité principale de courte vidéo.
Ainsi, lorsqu'il a brièvement rejoint Bilibili en septembre 2025 pour revenir chez Alibaba deux mois plus tard, ce mouvement ne pouvait guère être considéré comme un simple transfert de talents ordinaire.
Bilibili a besoin de technologie vidéo, Alibaba a également besoin de technologie vidéo, mais les besoins d'Alibaba sont plus complexes.
Kuaishou fait de la génération vidéo, ce n'est guère plus que de la distribution. Mais si Alibaba fait de la génération vidéo, les maillons derrière sont bien plus nombreux. Il y a le e-commerce, la publicité, le live streaming, les services cloud et les commerçants à l'étranger.
Comme mentionné précédemment, après son retour chez Alibaba en novembre 2025, Zhang Di a pris le poste de responsable du « Laboratoire de la vie future » du groupe Taotian, au niveau P11.
Avec un tel arrangement, l'odeur d'Alibaba est encore forte. Il n'a pas simplement placé le modèle vidéo dans un département de recherche pure ; sa position est plutôt plus proche de Taotian, une scène de transaction.
En d'autres termes, HappyHorse, dès sa conception, est un produit axé sur la mise en œuvre et lié à l'écosystème existant d'Alibaba.
Cinq mois plus tard, HappyHorse est apparu.
Cette vitesse est vraiment rapide. Alibaba a donné à Zhang Di un nouveau scénario commercial et une nouvelle équipe, et il a de nouveau ouvert la voie de la modélisation vidéo.
Il n'est pas entré dans l'IA vidéo à partir de zéro, ni n'a simplement parachuté de l'extérieur chez Alibaba.
Son parcours professionnel ressemble à une ligne qui fait un détour et revient. Il a d'abord appris chez Alibaba comment fonctionnent les systèmes commerciaux à grande échelle, puis est allé chez Kuaishou pour faire de la génération vidéo un produit, puis est retourné chez Alibaba pour intégrer cette capacité dans une machine commerciale plus grande.
De nombreuses entreprises se disputent les talents des grands modèles, mais les personnes vraiment rares sont souvent celles qui comprennent à la fois les modèles, les activités et l'organisation.
Beaucoup de gens savent simplement entraîner des modèles, beaucoup savent simplement parler de stratégie, ce qui est difficile c'est que quelqu'un sache où chaque étape va se bloquer, depuis la route technologique d'un modèle, jusqu'à la conception de l'architecture, l'entraînement et l'inférence, la sortie du produit, et finalement son utilisation par les commerçants et les utilisateurs.
HappyHorse a remis Zhang Di sur le devant de la scène et a également offert à la narration relativement dispersée d'Alibaba ces dernières années une entrée personnifiée plus concrète.
02 Comment un modèle open source bat les géants闭源
Le point qui a vraiment attiré l'attention sur HappyHorse est qu'il a gagné trop soudainement.
Sur cette piste de génération vidéo, à l'étranger il y a Runway, Pika, Luma, Veo de Google. En Chine, il y a Seedance de ByteDance, Kling de Kuaishou. Alibaba ne figurait pas dans la liste.
Donc, quand HappyHorse a commencé à dominer le classement, les gens préféraient même croire que c'était un modèle développé par une start-up, plutôt que de croire que c'était un modèle d'Alibaba.
HappyHorse se situe dans le premier tier sur les deux pistes de génération texte-vers-vidéo et image-vers-vidéo, avec un score Elo de 1333 pour le texte-vers-vidéo et de 1392 pour l'image-vers-vidéo.
Le classement d'Artificial Analysis lui-même change constamment avec les tests en aveugle des utilisateurs, et les scores sur la page sont mis à jour par la suite, mais il a effectivement surpassé lors des tests de préférence utilisateur un lot de modèles闭源 qui étaient célèbres plus tôt.
Cette affaire est en fait assez anormale. En général, la génération vidéo est l'une des directions qui consomment le plus d'argent, de données et de puissance de calcul.
Les grandes entreprises闭源 peuvent cacher les données, les détails du modèle, les systèmes d'inférence et l'expérience produit dans leur propre plateforme, faisant des itérations internes continues.
Les modèles open source, quant à eux, font face à plus de limitations现实. Leurs paramètres doivent pouvoir être publics, l'inférence doit pouvoir être exécutée, la communauté doit pouvoir les reproduire, et les effets doivent pouvoir résister à des comparaisons横向.
Donc, avant l'apparition de HappyHorse, la plupart des modèles vidéo open source étaient des jouets, les vidéos produites n'étaient pas assez stables, et les personnages apparaissaient souvent avec des dérives.
HappyHorse a 15 milliards de paramètres, une architecture Transformer à 40 couches avec attention unifiée, plaçant les jetons de texte, vidéo et audio三种模态 dans une même séquence pour une modélisation conjointe.
Cette approche ressemble beaucoup à Qwen, ce qui explique probablement pourquoi Zhang Di a sorti HappyHorse en seulement 5 mois, en reprenant vraisemblablement les méthodes de formation multimodale native de haute qualité laissées par Qwen.
Des modèles de génération vidéo non natifs multimodaux comme Sora présentent souvent des situations où la bouche du personnage bouge mais le son est en retard d'une demi-seconde. Et parfois l'expression du personnage est riche, mais le ton est incorrect. Le personnage peut également agir avant que le son ne soit émis.
La raison du score élevé de HappyHorse réside dans le fait qu'il a résolu ce problème grâce au multimodal natif.
HappyHorse prend nativement en charge la synchronisation labiale en plusieurs langues包括 anglais, mandarin, cantonais, japonais, coréen, allemand, français, etc., et le taux d'erreur sur les mots est également comparé à des modèles open source similaires.
Pourquoi Zhang Di a-t-il fait cela ? Ma compréhension est que si Alibaba veut que cette technologie de génération vidéo entre dans la publicité, le e-commerce, les mini-drames, l'éducation et le live streaming, elle ne peut pas se contenter à de belles images.
Elle doit pouvoir parler, pouvoir faire du doublage, faire que le son et l'image soient simultanément成立.
Un autre point clé est le coût et la vitesse.
HappyHorse nécessite environ 38 secondes sur une seule GPU H100 pour générer une vidéo 1080p de 5 secondes, et utilise la technologie de distillation DMD-2 pour comprimer les étapes de débruitage à 8 steps.
C'est un obstacle incontournable pour la commercialisation de la génération vidéo. Peu importe si l'effet du modèle est bon, si le coût de génération d'une courte vidéo est trop élevé et l'attente trop longue, il est difficile de l'intégrer dans le flux de travail quotidien des commerçants.
Les commerçants n'attendront pas半天 pour chaque produit, et ne paieront pas un coût trop élevé pour des dizaines de matériaux de test.
Ainsi, la signification de HappyHorse n'est pas seulement de « pouvoir générer », mais aussi qu'il tente de comprimer la vitesse de génération et le coût d'inférence dans une plage utilisable.
Pour les développeurs, l'open source signifie pouvoir auto-héberger,微调, intégrer à leur propre produit. Pour la plateforme, l'open source apportera également plus de retours de la communauté.
Les progrès d'un modèle闭源 dépendent principalement de l'équipe interne de l'entreprise, un modèle open source sera soumis par les développeurs à divers tests étranges, les problèmes sont exposés rapidement, et les directions d'amélioration deviennent également plus nombreuses.
L'arène vidéo d'Artificial Analysis utilise le vote de préférence des utilisateurs, ne regardant souvent pas un seul indicateur technique, mais regardant davantage quelle vidéo les utilisateurs préfèrent entre deux.
Bien sûr, Zhang Di ne peut pas encore être trop fier, une première place au classement n'équivaut pas à une avance permanente.
Les concurrents ne resteront pas sur place. La victoire de HappyHorse maintenant n'est qu'un test public, pas encore toute la guerre.
Si HappyHorse n'est qu'un modèle capable de dominer le classement, sa signification est limitée. Mais s'il peut devenir la base de génération vidéo utilisée conjointement par les activités d'Ali Cloud et de Taotian, il deviendra une entrée.
Donc, la chose la plus intéressante concernant la victoire de HappyHorse sur les géants闭源 n'est pas seulement le score en tête. Ce qui mérite vraiment attention, c'est qu'il a permis à Alibaba de trouver un moyen de revenir à la table de jeu de la génération vidéo.
Il n'a pas d'abord créé une application orientée vers les utilisateurs grand public, ni fait seulement des démonstrations internes, mais a directement pris le modèle open source pour le soumettre au test de toute l'industrie.
Cette victoire ne durera peut-être pas longtemps, mais Zhang Di a fait changer au monde extérieur son jugement sur Alibaba dans les modèles de génération vidéo.
La nouvelle question est devenue : où Alibaba prévoit-il d'utiliser cette capacité ?
03 La signification de HappyHorse pour Alibaba
Le point de chute le plus direct de HappyHorse est le e-commerce.
Dans le passé, quand on parlait d'IA vidéo, on pensait最容易 au cinéma, aux mini-drames, aux publicités spectaculaires, aux outils de création. Certes, ce sont de réels grands marchés, mais ils sont encore à une certaine distance de l'activité principale d'Alibaba.
L'avantage d'Alibaba ne réside pas dans le fait de créer sa propre communauté vidéo, ni dans le fait de laisser les utilisateurs ordinaires ouvrir une application d'IA vidéo quotidiennement pour passer le temps. L'endroit où Alibaba a vraiment un avantage, c'est qu'il détient la concentration la plus dense de produits, de commerçants, de transactions et de systèmes publicitaires de Chine.
C'est aussi pourquoi beaucoup de gens attachent de l'importance au fait que HappyHorse soit né au « Laboratoire de la vie future » du groupe Taotian.
Taotian fait face quotidiennement à la façon dont les commerçants vendent leurs produits, à la façon dont les produits sont vus, à pourquoi les utilisateurs cliquent et passent commande. HappyHorse placé ici, tout le monde pense naturellement à savoir s'il peut améliorer la productivité du contenu des produits, s'il peut améliorer la conversion, s'il peut aider la plateforme à faire plus d'affaires ?
Pour un commerçant ordinaire, le contenu vidéo a toujours été un problème.
Pour tourner une vidéo produit de 30 secondes, vous devez trouver un décor, un mannequin, faire l'éclairage, le montage, le doublage. Les grandes marques peuvent engager une équipe, les petits et moyens commerçants doivent le plus souvent se débrouiller seuls.
De nombreux points de vente de produits ne sont pas complexes, le problème est que personne ne les filme. Ils semblent très ordinaires sur fond blanc, mais une fois placés dans une scène concrète, les utilisateurs réalisent à quoi ils peuvent servir.
Récemment à l'étranger, la pompe à fontaine solaire a été un énorme succès. Ce n'était à l'origine qu'un petit article de jardin, l'effet était assez quelconque. Mais après avoir été emballé par l'IA vidéo en jouet de fontaine酷炫 dans un bain d'oiseaux, un bassin à poissons et une baignoire pour enfants, tout le monde s'est rué dessus.
L'IA n'a pas changé le produit lui-même, mais a changé la façon dont l'utilisateur comprend le produit. Elle a transformé la « description de fonction » en « scène d'utilisation ».
Cela touche précisément le point douloureux du contenu e-commerce.
Une page produit remplie de paramètres, l'utilisateur n'aura pas nécessairement la patience de la lire ; un streamer qui parle longtemps, l'utilisateur ne croira pas nécessairement. Mais une vidéo de quelques secondes, si elle peut expliquer clairement la scène, l'efficacité de conversion peut être beaucoup plus élevée.
Plus important encore, l'IA vidéo peut générer en lots. Les commerçants peuvent générer pour un même produit une version enfant, une version famille, une version fête, une version plein air, ou générer pour différents pays différentes langues, différents personnages, différentes scènes.
La signification de cela pour Alibaba est plus grande que de simplement créer un outil de génération vidéo. Que ce soit Taobao ou Tmall, il y a de nombreux commerçants dessus, ainsi que de nombreuses données produits et retours de transactions.
Un outil d'IA vidéo qui ne sait que générer de belles images deviendra rapidement un logiciel de matériel ; s'il peut savoir dans quelle scène ce produit est plus susceptible d'être cliqué, quel文案 est plus susceptible d'apporter un ajout au panier, quelles premières secondes de vidéo sont plus susceptibles de retenir l'utilisateur, il se rapprochera d'une partie du système d'exploitation e-commerce.
Ce qu'Alibaba a de plus que les autres entreprises de modèles de génération vidéo, c'est précisément cette boucle de retour.
Les images de produits, les pages de détails, les évaluations, les questions-réponses, les mots-clés de recherche, le taux de clics, le taux d'ajout au panier, les motifs de remboursement, le temps de séjour en live stream, ces choses semblent fragmentées, mais sont toutes du carburant pour former la capacité de contenu e-commerce.
Si HappyHorse est connecté à ces retours, il peut évoluer de « aider les commerçants à générer une vidéo » à « aider les commerçants à générer une vidéo plus susceptible de vendre ».
Pour Taotian, il peut faire des vidéos d'image principale, des courts métrages de scènes produits, des extraits de live, des streamers virtuels et du matériel marketing.
Dans le passé, lorsqu'un commerçant mettait à jour ses produits, il pouvait seulement télécharger quelques images, au plus tourner une courte vidéo grossière. À l'avenir, il pourra donner l'image du produit, les points de vente, les évaluations et les étiquettes de population au système, laisser le système générer plusieurs versions différentes de vidéos, puis utiliser les données réelles de diffusion et de transaction pour sélectionner celle qui est la plus efficace.
Si ce processus fonctionne bien, l'offre de contenu de la plateforme augmentera明显, et le seuil de contenu des petits et moyens commerçants diminuera également.
Cependant, la vente assistée par IA vidéo comporte aussi des risques. Elle peut amplifier les points de vente, mais aussi amplifier les illusions. Une pompe à fontaine dans une vidéo IA jaillit très haut, mais dans la réalité, elle ne peut pas atteindre un tel effet.
L'opportunité d'Alibaba ne devrait pas être de permettre aux commerçants de rêver avec l'IA. L'accent devrait être mis sur les paramètres des produits, le matériel photographié réel, les évaluations des acheteurs et l'audit de la plateforme, pour que le contenu généré ait des limites.
Fin mars, OpenAI a annoncé la fermeture de l'application indépendante Sora et des API associées. La raison est现实, la génération vidéo coûte trop cher, la rétention des utilisateurs ne supporte pas le coût, OpenAI doit remettre la puissance de calcul dans le codage, les services aux entreprises et la robotique.
Sora est tombé sur la question commerciale.
ByteDance a également rencontré des problèmes de l'autre côté. Bien que Seedance 2.0 soit également très impressionnant, en raison de problèmes de droits d'auteur, ByteDance a suspendu la sortie mondiale de Seedance 2.0.
Plus le modèle est entraîné puissant, plus il est susceptible de s'enliser dans les marécages des droits d'auteur, des droits à l'image et des données d'entraînement.
En regardant à nouveau HappyHorse créé par l'équipe de Zhang Di, il a un scénario commercial clair. Et les images de produits, le matériel des commerçants, les vidéos réelles et les retours de transactions qu'Alibaba détient sont天然 plus adaptés à une génération contrôlée que les IP cinématographiques.
Ainsi, la valeur de HappyHorse ne réside pas seulement dans le classement. Il a trouvé un point de chute plus stable pour l'IA vidéo.







