Le modèle mystérieux HappyHorse débarque et domine le classement, la course à la génération vidéo accueille-t-elle un "poisson-chat" ?

marsbitPublié le 2026-04-08Dernière mise à jour le 2026-04-08

Résumé

Un modèle de génération de vidéo nommé HappyHorse-1.0 a discrètement atteint la première place du classement AI Video Arena d'Artificial Analysis, dépassant des modèles établis comme Seedance 2.0. Ce classement, basé sur des tests en aveugle par des utilisateurs réels (système Elo), est considéré comme reflétant fidèlement la perception humaine. Les indices pointent vers une origine chinoise (ordre des langues sur le site, référence à l'année du cheval). Après analyse technique, la communauté identifie HappyHorse comme une version optimisée du modèle open source daVinci-MagiHuman, développé conjointement par le laboratoire GAIR de SII (Shanghai) et Sand.ai (Pékin). Ce modèle utilise un transformateur monoflux de 15 milliards de paramètres pour un traitement conjoint du texte, de la vidéo et de l'audio. Sa montée fulgurante s'expliquerait par un réglage spécifique pour le benchmark, qui favorise les scènes avec un personnage (60% des tests), son domaine de force. Cependant, des tests pratiques notent des limites : besoin de puces H100, difficultés avec les scènes complexes或多personnages, et durée de génération courte (~10 sec). Symboliquement, cet événement marque un tournant : un modèle open source rivalise pour la première fois en qualité perçue avec des solutions propriétaires. Cela pourrait, à terme, menacer leur avantage concurrentiel dans des niches comme les portraits ou les présentateurs virtuels, en offrant une alternative personnalisable, moins chère et plus flexib...

Aucune conférence de presse, aucun blog technique, aucun soutien d'entreprise – un modèle de génération de texte en vidéo nommé HappyHorse-1.0 a discrètement atteint la première place du classement AI Video Arena de la plateforme d'évaluation IA authoritative Artificial Analysis, dépassant avec un score Elo plus élevé Seedance 2.0 et laissant derrière lui des acteurs majeurs comme Kling et Tian Gong, déclenchant instantanément une "course au décryptage" dans les cercles technologiques.

Le classement d'Artificial Analysis n'est pas une évaluation de paramètres techniques, mais un résumé des résultats de tests en aveugle par des utilisateurs réels sous forme de score Elo, reflétant la perception réelle après visionnage. Cela rend ce classement plus difficile à remettre en question qu'un simple benchmark, et fait de "qui est derrière cela" une question impossible à ignorer.

Le "Cheval Heureux" atteint discrètement le sommet, déclenchant un jeu de devinettes dans le milieu technologique

Les spéculations sur X sont arrivées rapidement. La première chose remarquée fut l'ordre des langues sur le site officiel : le mandarin et le cantonais précèdent l'anglais. Pour un produit destiné aux utilisateurs mondiaux, cet ordre est quelque peu inhabituel – si une équipe américaine était aux commandes, l'anglais serait presque invariablement en première position. Une équipe originaire de Chine est pratiquement confirmée.

Le nom lui-même est aussi un indice. 2026 est l'année du Cheval selon le calendrier lunaire, le nom "HappyHorse" cache un clin d'œil peu subtil à l'année du Cheval, une tactique similaire avait été employée plus tôt dans l'année par "Pony Alpha". La liste des suspects s'est donc allongée rapidement : les fondateurs de Tencent et d'Alibaba portent le nom de famille Ma (cheval), ils y figurent naturellement ; certains ont parié sur Xiaomi, estimant que Lei Jun est traditionnellement discret et aime dévoiler ses cartes soudainement ; d'autres ont trouvé que le style ressemblait plus à DeepSeek, car DS avait précédemment lancé discrètement un modèle visuel, puis l'avait retiré tout aussi discrètement. Les spéculations étaient nombreuses et animées, mais aucune n'avait de preuve tangible.

Ce qui a véritablement identifié la cible, c'est une comparaison point par point au niveau technique. L'utilisateur X Vigo Zhao a comparé les données de benchmark publiques de HappyHorse-1.0 avec celles de modèles connus un par un, et a trouvé une correspondance très forte : daVinci-MagiHuman, le modèle open source "Da Vinci Magic Human" mis en ligne sur Github en mars.

Qualité visuelle 4.80, alignement texte 4.18, cohérence physique 4.52, taux d'erreur de mots dans la parole 14.60% – les données correspondent point par point. La structure du site officiel est aussi presque identique : la description de l'architecture, le tableau des performances, le style de présentation des vidéos de démonstration, tout semble provenir du même modèle. Les deux partagent la même architecture Transformer à flux unique, la même génération conjointe audio-vidéo, et la même liste de langues prises en charge. Un tel degré de coïncidence est difficile à expliquer par le hasard.

La conclusion la plus largement acceptée dans les cercles techniques est que HappyHorse est une version itérative optimisée par Sand.ai, l'un des co-développeurs de daVinci-MagiHuman, basée sur le modèle open source, dans le but principal de vérifier les limites des performances du modèle sous les préférences réelles des utilisateurs et de préparer le terrain pour sa commercialisation future.

daVinci-MagiHuman a été officiellement open source le 23 mars 2026, fruit de la collaboration de deux jeunes équipes. L'une provient du laboratoire de recherche sur l'intelligence artificielle générative (GAIR) du Shanghai Institute of Intelligence (SII), dirigé par le chercheur Liu Pengfei ; l'autre est Sand.ai (Sand Technology) basée à Pékin, dont le fondateur Cao Yue a également un background académique, et dont l'orientation de l'entreprise est les modèles de monde auto-régressifs.

Le modèle utilise un Transformer à flux unique pur à attention de 15 milliards de paramètres, fourrant les tokens de texte, vidéo et audio dans une même séquence pour une modélisation conjointe – l'open source n'avait jamais réalisé auparavant un pré-entraînement conjoint audio-vidéo véritablement from scratch, la plupart se contentant de coller des bases mono-modales.

Comment un modèle vidéo open source a-t-il réalisé une remontée éclair en deux semaines ?

Une fois l'identité clarifiée, une autre question devient plus difficile à répondre : daVinci-MagiHuman n'est open source que depuis fin mars, comment HappyHorse-1.0 a-t-il pu obtenir un score Elo plus élevé que Seedance 2.0 en seulement deux semaines ?

D'après les informations divulguées sur le site officiel, HappyHorse n'a pas modifié l'architecture sous-jacente de manière significative. L'hypothèse la plus raisonnable est qu'il a effectué des ajustements ciblés sur la stratégie de génération par défaut pour le scénario d'évaluation.

Le système Elo est essentiellement une accumulation des préférences des utilisateurs. Améliorer légèrement les éléments sensibles à la perception comme la stabilité des expressions faciales, l'alignement audio-vidéo, ou l'esthétique visuelle, permet d'être plus facilement choisi dans les tests en aveugle. La limite supérieure des capacités du modèle n'a pas changé, mais les "performances en évaluation" peuvent être polies.

En fait, dans les échantillons de test en aveugle d'Artificial Analysis, la génération de portraits et les contenus de type narration" représentaient plus de 60%, et daVinci-MagiHuman s'est concentré sur la performance de portraits dès la phase d'entraînement, lui conférant un avantage naturel dans ce type de scénario, ce qui est la raison principale de son taux de victoire en aveugle ; si l'échantillon de test en aveugle est principalement composé de gros plans sur des personnages, les modèles spécialisés dans les portraits bénéficieront systématiquement d'un avantage, sans rapport direct avec leurs performances réelles dans des scénarios complexes impliquant plusieurs personnages, des mouvements de caméra complexes ou des narrations temporelles longues.

Le résultat est qu'un écart notable est apparu entre les chiffres du classement et l'expérience de test, divisant les commentateurs sur X en deux camps. Les sceptiques, après tests, estiment que HappyHorse-1.0 présente encore un écart visible avec Seedance 2.0 en termes de détails des personnages et de cohérence dynamique, et remettent en question la représentativité du score Elo lui-même.

Les partisans, quant à eux, placent de grands espoirs dans le potentiel de HappyHorse, espérant qu'il pourra résoudre le point sensible de l'industrie qu'est la "cohérence de la qualité d'image dans les séquences multi-plans", car c'est un problème que les modèles vidéo grand public actuels n'ont pas bien résolu. Si daVinci-MagiHuman parvient réellement à faire une percée ici, cela pourrait être bien plus important qu'une place dans un classement.

Les limites du modèle lui-même ne doivent pas non plus être masquées par les chiffres. Le blogueur Xiaohongshu @JACK's AI World a déployé et testé daVinci-MagiHuman dès sa sortie. Il a constaté qu'il nécessitait un H100 pour fonctionner, les cartes graphiques grand public sont基本 exclues, et bien que la communauté travaille sur des solutions de quantification, le déploiement local pour les utilisateurs individuels restera difficile à court terme.

En termes de scénarios, il excelle actuellement principalement pour les personnages uniques ; dès que plusieurs personnages apparaissent ou que la scène devient complexe, la qualité chute – ce n'est pas un problème réglable par paramétrage, c'est directement lié à son orientation de conception axée sur les portraits. La durée de génération est généralement d'environ 10 secondes, au-delà cela devient désordonné, et une sortie haute définition nécessite encore des plugins de super-résolution.

La conclusion de @JACK's AI World est : la facilité d'utilisation globale de daVinci-MagiHuman est inférieure à celle de LTX 2.3, il faudra attendre que la communauté améliore la quantification avant qu'il ne soit adapté à un usage quotidien.

La course à la génération vidéo attend-elle un véritable "poisson-chat" ?

Bien sûr, une première place dans un classement ne signifie pas grand-chose. Ensuite, HappyHorse devra subir des tests plus complets sur la stabilité, la vitesse d'accès en concurrence élevée, la cohérence inter-scénarios, la précision du contrôle des personnages, ainsi que la capacité de généralisation au-delà de l'ensemble d'évaluation. Ce sont là les indicateurs clés qui déterminent si un modèle peut véritablement entrer dans le flux de travail des créateurs.

Mais si l'on élargit le champ de vision à la structure industrielle globale, le signal envoyé par cet événement est déjà suffisamment clair.

Les modèles vidéo open source en eux-mêmes ne sont pas nouveaux. Mais un écart visible au niveau de l'effet a toujours persisté entre l'open source et le闭源 (closed source) – dans les scénarios nécessitant une livraison au client, la qualité de génération des modèles open source n'a pas réussi à franchir durablement le seuil de "utilisable" à "livrable". Le pouvoir de fixation des prix des produits闭源 comme Kling ou Seedance est, dans une large mesure, construit sur cet écart.

Cette fois, la signification réside dans le fait qu'un produit basé sur un modèle open source a, pour la première fois, rivalisé de front avec les principaux concurrents闭源 actuels sur un classement de test en aveugle basé sur la perception réelle des utilisateurs. Quelles que soient les composantes d'optimisation pour le scénario d'évaluation, pour les fabricants闭源 qui dépendent de cet écart pour construire leur pouvoir de fixation des prix, c'est au moins un signal qui mérite d'être pris au sérieux.

Pour les développeurs, la signification de ce point d'inflexion est plus concrète. Dans les scénarios verticaux comme les portraits, les humains numériques, les streamers virtuels, etc., une fois que la qualité de génération de la base open source atteint le seuil "livrable", la structure des coûts du déploiement autonome subira un changement substantiel – non seulement une compression des coûts d'appel d'API, mais surtout l'intégration complète des données, du modèle et de la chaîne d'inférence sous son propre contrôle, obtenant une flexibilité en termes de profondeur de personnalisation et de conformité à la vie privée que les solutions闭源 peinent à offrir.

HappyHorse-1.0 n'ébranlera pas à court terme la position de marché de Seedance 2.0 ou de Kling, mais une fois la cognition établie que les modèles open source peuvent rivaliser avec les闭源, les optimisations de quantification, les微调 (fine-tuning) verticaux et l'accélération de l'inférence seront poursuivies par la communauté à un rythme d'itération dépassant de loin celui des produits闭源.

En cette année du Cheval, ce qui mérite vraiment d'être suivi, ce n'est peut-être pas quel cheval court le plus vite, mais la piste elle-même qui s'élargit.

Cet article provient du compte WeChat officiel "AI价值官" (AI Value Officer), auteur : Xing Ye, éditeur : Mei Qi

Questions liées

QQu'est-ce que HappyHorse-1.0 et pourquoi a-t-il suscité l'attention dans le domaine de l'IA ?

AHappyHorse-1.0 est un modèle de génération de vidéos à partir de texte qui a discrètement atteint la première place du classement AI Video Arena d'Artificial Analysis, dépassant des modèles établis comme Seedance 2.0. Son succès est dû à son score Elo élevé, basé sur des tests à l'aveugle par des utilisateurs réels, ce qui a déclenché une compétition d'investigation dans la communauté technologique.

QQuelles preuves suggèrent que HappyHorse-1.0 est lié au modèle open source daVinci-MagiHuman ?

ALes données de référence publiques de HappyHorse-1.0 correspondent étroitement à celles de daVinci-MagiHuman, un modèle open source sorti en mars 2026. Les similitudes incluent des scores identiques en qualité visuelle, alignement texte-vidéo, cohérence physique et taux d'erreur vocale, ainsi qu'une architecture technique et une liste de langues prises en charge presque identiques.

QQui sont les équipes derrière le développement de daVinci-MagiHuman et HappyHorse-1.0 ?

AdaVinci-MagiHuman est le fruit d'une collaboration entre le laboratoire de recherche sur l'IA générative (GAIR) de la Shanghai Innovation Institute (SII), dirigé par le chercheur Liu Pengfei, et Sand.ai (San Dai Tech), une startup de Pékin fondée par Cao Yue, spécialisée dans les modèles mondiaux auto-régressifs.

QPourquoi HappyHorse-1.0 a-t-il performé aussi rapidement dans les tests en aveugle malgré son récent lancement ?

AHappyHorse-1.0 a obtenu un score Elo élevé en raison de son optimisation pour les scènes de test, en particulier les contenus mettant en scène des personnages humains et des narrations, qui représentent plus de 60% des échantillons de test. Sa conception initiale axée sur la génération de personnages lui a donné un avantage naturel dans ces scénarios.

QQuel impact HappyHorse-1.0 pourrait-il avoir sur l'industrie de la génération vidéo par IA ?

AHappyHorse-1.0 symbolise un tournant où un modèle open source rivalise avec des solutions propriétaires dans des tests basés sur la perception utilisateur. Cela pourrait réduire les coûts de déploiement, offrir plus de flexibilité en matière de personnalisation et de confidentialité, et accélérer l'innovation communautaire, élargissant ainsi les possibilités pour les développeurs et les créateurs.

Lectures associées

Ce PDG de la Finance Choisit Solana Plutôt Que Bitcoin — Voici Pourquoi

Le PDG du secteur financier Raoul Pal a exprimé une préférence nette pour Solana par rapport au Bitcoin, lors de l'événement Consensus 2026. Sa position ne relève pas d'une simple comparaison d'actifs mais d'une conviction sur l'avenir de la cryptographie à l'ère de l'intelligence artificielle. Il estime que l'industrie se dirige vers une phase dominée par les réseaux à haute vitesse et faible coût, mieux adaptés aux activités de masse, plutôt que par le rôle de réserve de valeur du Bitcoin. Selon lui, Solana, avec son débit élevé et ses faibles frais de transaction, est idéal pour les microtransactions entre machines, les activités basées sur l'IA et les interactions DeFi rapides. Pal prédit par ailleurs que d'ici cinq ans, les agents IA représenteront 60% des utilisateurs de la finance décentralisée (DeFi), surpassant les utilisateurs humains. Cette vision d'un futur où les transactions fréquentes et automatisées seront cruciales explique son choix en faveur de Solana pour capturer les opportunités de croissance. Bien qu'il soit improbable que Solana surpasse Bitcoin en termes de taille à court terme, cette perspective s'inscrit dans un thème majeur de la conférence, centré sur la convergence entre l'IA, la DeFi et l'infrastructure institutionnelle. D'autres intervenants, comme Arthur Hayes, ont également souligné la nature distincte de la cryptographie par rapport aux systèmes traditionnels.

bitcoinistIl y a 11 h

Ce PDG de la Finance Choisit Solana Plutôt Que Bitcoin — Voici Pourquoi

bitcoinistIl y a 11 h

GensynAI : Ne laissez pas l'IA répéter les erreurs d'Internet

Au cours des derniers mois, l'essor de l'IA a attiré de nombreux talents de la cryptographie. Une question centrale émerge : la blockchain peut-elle faire partie de l'infrastructure de l'IA ? Gensyn se distingue en s'attaquant non pas aux applications, mais au cœur du développement de l'IA : **l'entraînement des modèles**. Le projet vise à organiser les ressources GPU mondiales dispersées en un réseau ouvert d'entraînement d'IA. Les développeurs peuvent soumettre des tâches, les nœuds fournissent la puissance de calcul, et le réseau vérifie les résultats avant de distribuer les incitations. L'enjeu dépasse la simple décentralisation : il s'agit de contrer la **concentration croissante des ressources de calcul** entre les mains de quelques géants, qui deviennent un goulot d'étranglement pour l'innovation. Gensyn propose ainsi une nouvelle façon d'organiser les ressources. Premièrement, il opère au niveau de l'infrastructure fondamentale, la couche la plus exigeante techniquement et en ressources. Deuxièmement, il offre un modèle de collaboration plus ouvert, permettant une meilleure utilisation des GPU inactifs et une réduction potentielle des coûts. Troisièmement, sa technologie de vérification probabiliste des résultats et de coordination des nœuds constitue un véritable avantage technique. Enfin, il répond à une demande réelle et croissante du marché, évitant le piège des récits sans utilité pratique. En somme, Gensyn incite la convergence entre la cryptographie (expertise en coordination et incitations mondiales) et l'IA (besoins massifs en ressources). Son ambition est de transformer l'entraînement de l'IA en un système plus ouvert et accessible, au-delà du contrôle exclusif des grands acteurs, posant les bases d'une infrastructure essentielle pour l'ère de l'IA.

marsbitIl y a 12 h

GensynAI : Ne laissez pas l'IA répéter les erreurs d'Internet

marsbitIl y a 12 h

Pourquoi la Chine se développe-t-elle si rapidement en IA ? La réponse se cache dans les laboratoires

L'auteur, après une visite dans des laboratoires d'IA chinois de premier plan, explore les raisons du développement rapide de l'IA en Chine. Il constate que l'écosystème chinois se distingue de celui des États-Unis par son approche organisationnelle : moins de concepts, plus de modèles concrets ; moins d'importance accordée aux vedettes individuelles, plus au travail d'équipe ; et une forte préférence pour maîtriser en interne la pile technologique plutôt que de dépendre de services externes. La culture de travail, valorisant l'humilité, l'exécution et l'ingénierie rapide, est bien adaptée à la construction de grands modèles de langage. Une grande partie des contributeurs clés sont des étudiants, intégrés directement aux équipes, apportant un regard neuf et une forte capacité d'adaptation. L'accent est mis sur l'amélioration itérative et l'optimisation plutôt que sur la recherche "de 0 à 1". Les scientifiques chinois se montrent très concentrés sur la construction technique, moins sur les débats philosophiques ou économiques autour de l'IA. L'écosystème industriel présente également des différences : une demande précoce en IA (ressemblant plus au marché du cloud qu'au SaaS), une forte influence des modèles comme Claude sur les développeurs, et une mentalité répandue de "contrôle technologique" poussant de nombreuses grandes entreprises (plateformes, hardware) à développer leurs propres modèles fondateurs, souvent en open source par pragmatisme. Le soutien gouvernemental existe mais est décentralisé, l'industrie des données est moins mature qu'en Occident, et l'accès aux puces Nvidia est une contrainte majeure. L'auteur conclut que la Chine développe sa propre voie, marquée par une culture de construction, un esprit d'écosystème collaboratif et un pragmatisme profond. Cette approche, différente de la course aux sommets menée par le capital et les "stars" aux États-Unis, fait de la compétition mondiale en IA une rivalité de capacités organisationnelles, d'écosystèmes développeurs et d'exécution industrielle. Il exprime un souhait pour une écologie open source mondiale florissante, tout en notant les défis géopolitiques actuels.

marsbitIl y a 14 h

Pourquoi la Chine se développe-t-elle si rapidement en IA ? La réponse se cache dans les laboratoires

marsbitIl y a 14 h

3 ans, 5 fois la valeur, la renaissance d'une verrerie centenaire

D'après CRU, la demande de fibre optique pour les centres de données IA a augmenté de 75,9 % sur un an, et l'écart entre l'offre et la demande s'est creusé de 6 % à 15 %. Les prix des fibres ont plus que triplé en quelques mois, révélant une capacité de production insuffisante. Cela explique les investissements massifs de NVIDIA chez Corning, ainsi que chez Lumentum et Coherent, pour un total de 45 milliards de dollars, visant à sécuriser la chaîne d'approvisionnement optique (lasers, puces photoniques, fibres). Corning, une entreprise de verrerie fondée en 1851, a vu son cours de bourse multiplié par plus de 3 en un an, atteignant une capitalisation de 160 milliards de dollars. Cette renaissance est portée par les infrastructures IA. La fibre optique est devenue le « nerf » des centres de données IA, avec une consommation 5 à 10 fois supérieure aux serveurs traditionnels. La transition du cuivre vers la lumière (interconnexions optiques, CPO) est nécessaire pour les débits élevés (au-delà de 800G) et pour réduire la consommation d'énergie. Corning se distingue par sa technologie de fibres spécialisées à très faible atténuation et haute densité, cruciales pour l'IA. Son activité "Enterprise" (centres de données), désormais plus de 40% de ses revenus en communication optique, connaît une croissance explosive, soutenue par des contrats pluriannuels avec Meta, NVIDIA et d'autres géants. Bien que ne détenant pas la plus grande part de marché mondiale de la fibre, Corning tire parti de décennies de R&D et d'un savoir-faire matériel de pointe, notamment dans le domaine émergent du CPO (Co-Packaged Optics). La pénurie et la hausse des prix profitent à tout le secteur, comme en témoignent les résultats des concurrents chinois. Le rythme de déploiement du CPO par NVIDIA et l'identité des autres grands clients non divulgués de Corning sont des catalyseurs clés pour son avenir. Des technologies disruptives comme la fibre à cœur creux pourraient également remodeler le paysage à plus long terme. Après une forte appréciation boursière, l'exécution des commandes et le respect des délais seront désormais plus importants que le récit de croissance lui-même.

marsbitIl y a 14 h

3 ans, 5 fois la valeur, la renaissance d'une verrerie centenaire

marsbitIl y a 14 h

Trading

Spot
Futures
活动图片