Le modèle mystérieux HappyHorse débarque et domine le classement, la course à la génération vidéo accueille-t-elle un "poisson-chat" ?

marsbitPublié le 2026-04-08Dernière mise à jour le 2026-04-08

Résumé

Un modèle de génération de vidéo nommé HappyHorse-1.0 a discrètement atteint la première place du classement AI Video Arena d'Artificial Analysis, dépassant des modèles établis comme Seedance 2.0. Ce classement, basé sur des tests en aveugle par des utilisateurs réels (système Elo), est considéré comme reflétant fidèlement la perception humaine. Les indices pointent vers une origine chinoise (ordre des langues sur le site, référence à l'année du cheval). Après analyse technique, la communauté identifie HappyHorse comme une version optimisée du modèle open source daVinci-MagiHuman, développé conjointement par le laboratoire GAIR de SII (Shanghai) et Sand.ai (Pékin). Ce modèle utilise un transformateur monoflux de 15 milliards de paramètres pour un traitement conjoint du texte, de la vidéo et de l'audio. Sa montée fulgurante s'expliquerait par un réglage spécifique pour le benchmark, qui favorise les scènes avec un personnage (60% des tests), son domaine de force. Cependant, des tests pratiques notent des limites : besoin de puces H100, difficultés avec les scènes complexes或多personnages, et durée de génération courte (~10 sec). Symboliquement, cet événement marque un tournant : un modèle open source rivalise pour la première fois en qualité perçue avec des solutions propriétaires. Cela pourrait, à terme, menacer leur avantage concurrentiel dans des niches comme les portraits ou les présentateurs virtuels, en offrant une alternative personnalisable, moins chère et plus flexib...

Aucune conférence de presse, aucun blog technique, aucun soutien d'entreprise – un modèle de génération de texte en vidéo nommé HappyHorse-1.0 a discrètement atteint la première place du classement AI Video Arena de la plateforme d'évaluation IA authoritative Artificial Analysis, dépassant avec un score Elo plus élevé Seedance 2.0 et laissant derrière lui des acteurs majeurs comme Kling et Tian Gong, déclenchant instantanément une "course au décryptage" dans les cercles technologiques.

Le classement d'Artificial Analysis n'est pas une évaluation de paramètres techniques, mais un résumé des résultats de tests en aveugle par des utilisateurs réels sous forme de score Elo, reflétant la perception réelle après visionnage. Cela rend ce classement plus difficile à remettre en question qu'un simple benchmark, et fait de "qui est derrière cela" une question impossible à ignorer.

Le "Cheval Heureux" atteint discrètement le sommet, déclenchant un jeu de devinettes dans le milieu technologique

Les spéculations sur X sont arrivées rapidement. La première chose remarquée fut l'ordre des langues sur le site officiel : le mandarin et le cantonais précèdent l'anglais. Pour un produit destiné aux utilisateurs mondiaux, cet ordre est quelque peu inhabituel – si une équipe américaine était aux commandes, l'anglais serait presque invariablement en première position. Une équipe originaire de Chine est pratiquement confirmée.

Le nom lui-même est aussi un indice. 2026 est l'année du Cheval selon le calendrier lunaire, le nom "HappyHorse" cache un clin d'œil peu subtil à l'année du Cheval, une tactique similaire avait été employée plus tôt dans l'année par "Pony Alpha". La liste des suspects s'est donc allongée rapidement : les fondateurs de Tencent et d'Alibaba portent le nom de famille Ma (cheval), ils y figurent naturellement ; certains ont parié sur Xiaomi, estimant que Lei Jun est traditionnellement discret et aime dévoiler ses cartes soudainement ; d'autres ont trouvé que le style ressemblait plus à DeepSeek, car DS avait précédemment lancé discrètement un modèle visuel, puis l'avait retiré tout aussi discrètement. Les spéculations étaient nombreuses et animées, mais aucune n'avait de preuve tangible.

Ce qui a véritablement identifié la cible, c'est une comparaison point par point au niveau technique. L'utilisateur X Vigo Zhao a comparé les données de benchmark publiques de HappyHorse-1.0 avec celles de modèles connus un par un, et a trouvé une correspondance très forte : daVinci-MagiHuman, le modèle open source "Da Vinci Magic Human" mis en ligne sur Github en mars.

Qualité visuelle 4.80, alignement texte 4.18, cohérence physique 4.52, taux d'erreur de mots dans la parole 14.60% – les données correspondent point par point. La structure du site officiel est aussi presque identique : la description de l'architecture, le tableau des performances, le style de présentation des vidéos de démonstration, tout semble provenir du même modèle. Les deux partagent la même architecture Transformer à flux unique, la même génération conjointe audio-vidéo, et la même liste de langues prises en charge. Un tel degré de coïncidence est difficile à expliquer par le hasard.

La conclusion la plus largement acceptée dans les cercles techniques est que HappyHorse est une version itérative optimisée par Sand.ai, l'un des co-développeurs de daVinci-MagiHuman, basée sur le modèle open source, dans le but principal de vérifier les limites des performances du modèle sous les préférences réelles des utilisateurs et de préparer le terrain pour sa commercialisation future.

daVinci-MagiHuman a été officiellement open source le 23 mars 2026, fruit de la collaboration de deux jeunes équipes. L'une provient du laboratoire de recherche sur l'intelligence artificielle générative (GAIR) du Shanghai Institute of Intelligence (SII), dirigé par le chercheur Liu Pengfei ; l'autre est Sand.ai (Sand Technology) basée à Pékin, dont le fondateur Cao Yue a également un background académique, et dont l'orientation de l'entreprise est les modèles de monde auto-régressifs.

Le modèle utilise un Transformer à flux unique pur à attention de 15 milliards de paramètres, fourrant les tokens de texte, vidéo et audio dans une même séquence pour une modélisation conjointe – l'open source n'avait jamais réalisé auparavant un pré-entraînement conjoint audio-vidéo véritablement from scratch, la plupart se contentant de coller des bases mono-modales.

Comment un modèle vidéo open source a-t-il réalisé une remontée éclair en deux semaines ?

Une fois l'identité clarifiée, une autre question devient plus difficile à répondre : daVinci-MagiHuman n'est open source que depuis fin mars, comment HappyHorse-1.0 a-t-il pu obtenir un score Elo plus élevé que Seedance 2.0 en seulement deux semaines ?

D'après les informations divulguées sur le site officiel, HappyHorse n'a pas modifié l'architecture sous-jacente de manière significative. L'hypothèse la plus raisonnable est qu'il a effectué des ajustements ciblés sur la stratégie de génération par défaut pour le scénario d'évaluation.

Le système Elo est essentiellement une accumulation des préférences des utilisateurs. Améliorer légèrement les éléments sensibles à la perception comme la stabilité des expressions faciales, l'alignement audio-vidéo, ou l'esthétique visuelle, permet d'être plus facilement choisi dans les tests en aveugle. La limite supérieure des capacités du modèle n'a pas changé, mais les "performances en évaluation" peuvent être polies.

En fait, dans les échantillons de test en aveugle d'Artificial Analysis, la génération de portraits et les contenus de type narration" représentaient plus de 60%, et daVinci-MagiHuman s'est concentré sur la performance de portraits dès la phase d'entraînement, lui conférant un avantage naturel dans ce type de scénario, ce qui est la raison principale de son taux de victoire en aveugle ; si l'échantillon de test en aveugle est principalement composé de gros plans sur des personnages, les modèles spécialisés dans les portraits bénéficieront systématiquement d'un avantage, sans rapport direct avec leurs performances réelles dans des scénarios complexes impliquant plusieurs personnages, des mouvements de caméra complexes ou des narrations temporelles longues.

Le résultat est qu'un écart notable est apparu entre les chiffres du classement et l'expérience de test, divisant les commentateurs sur X en deux camps. Les sceptiques, après tests, estiment que HappyHorse-1.0 présente encore un écart visible avec Seedance 2.0 en termes de détails des personnages et de cohérence dynamique, et remettent en question la représentativité du score Elo lui-même.

Les partisans, quant à eux, placent de grands espoirs dans le potentiel de HappyHorse, espérant qu'il pourra résoudre le point sensible de l'industrie qu'est la "cohérence de la qualité d'image dans les séquences multi-plans", car c'est un problème que les modèles vidéo grand public actuels n'ont pas bien résolu. Si daVinci-MagiHuman parvient réellement à faire une percée ici, cela pourrait être bien plus important qu'une place dans un classement.

Les limites du modèle lui-même ne doivent pas non plus être masquées par les chiffres. Le blogueur Xiaohongshu @JACK's AI World a déployé et testé daVinci-MagiHuman dès sa sortie. Il a constaté qu'il nécessitait un H100 pour fonctionner, les cartes graphiques grand public sont基本 exclues, et bien que la communauté travaille sur des solutions de quantification, le déploiement local pour les utilisateurs individuels restera difficile à court terme.

En termes de scénarios, il excelle actuellement principalement pour les personnages uniques ; dès que plusieurs personnages apparaissent ou que la scène devient complexe, la qualité chute – ce n'est pas un problème réglable par paramétrage, c'est directement lié à son orientation de conception axée sur les portraits. La durée de génération est généralement d'environ 10 secondes, au-delà cela devient désordonné, et une sortie haute définition nécessite encore des plugins de super-résolution.

La conclusion de @JACK's AI World est : la facilité d'utilisation globale de daVinci-MagiHuman est inférieure à celle de LTX 2.3, il faudra attendre que la communauté améliore la quantification avant qu'il ne soit adapté à un usage quotidien.

La course à la génération vidéo attend-elle un véritable "poisson-chat" ?

Bien sûr, une première place dans un classement ne signifie pas grand-chose. Ensuite, HappyHorse devra subir des tests plus complets sur la stabilité, la vitesse d'accès en concurrence élevée, la cohérence inter-scénarios, la précision du contrôle des personnages, ainsi que la capacité de généralisation au-delà de l'ensemble d'évaluation. Ce sont là les indicateurs clés qui déterminent si un modèle peut véritablement entrer dans le flux de travail des créateurs.

Mais si l'on élargit le champ de vision à la structure industrielle globale, le signal envoyé par cet événement est déjà suffisamment clair.

Les modèles vidéo open source en eux-mêmes ne sont pas nouveaux. Mais un écart visible au niveau de l'effet a toujours persisté entre l'open source et le闭源 (closed source) – dans les scénarios nécessitant une livraison au client, la qualité de génération des modèles open source n'a pas réussi à franchir durablement le seuil de "utilisable" à "livrable". Le pouvoir de fixation des prix des produits闭源 comme Kling ou Seedance est, dans une large mesure, construit sur cet écart.

Cette fois, la signification réside dans le fait qu'un produit basé sur un modèle open source a, pour la première fois, rivalisé de front avec les principaux concurrents闭源 actuels sur un classement de test en aveugle basé sur la perception réelle des utilisateurs. Quelles que soient les composantes d'optimisation pour le scénario d'évaluation, pour les fabricants闭源 qui dépendent de cet écart pour construire leur pouvoir de fixation des prix, c'est au moins un signal qui mérite d'être pris au sérieux.

Pour les développeurs, la signification de ce point d'inflexion est plus concrète. Dans les scénarios verticaux comme les portraits, les humains numériques, les streamers virtuels, etc., une fois que la qualité de génération de la base open source atteint le seuil "livrable", la structure des coûts du déploiement autonome subira un changement substantiel – non seulement une compression des coûts d'appel d'API, mais surtout l'intégration complète des données, du modèle et de la chaîne d'inférence sous son propre contrôle, obtenant une flexibilité en termes de profondeur de personnalisation et de conformité à la vie privée que les solutions闭源 peinent à offrir.

HappyHorse-1.0 n'ébranlera pas à court terme la position de marché de Seedance 2.0 ou de Kling, mais une fois la cognition établie que les modèles open source peuvent rivaliser avec les闭源, les optimisations de quantification, les微调 (fine-tuning) verticaux et l'accélération de l'inférence seront poursuivies par la communauté à un rythme d'itération dépassant de loin celui des produits闭源.

En cette année du Cheval, ce qui mérite vraiment d'être suivi, ce n'est peut-être pas quel cheval court le plus vite, mais la piste elle-même qui s'élargit.

Cet article provient du compte WeChat officiel "AI价值官" (AI Value Officer), auteur : Xing Ye, éditeur : Mei Qi

Questions liées

QQu'est-ce que HappyHorse-1.0 et pourquoi a-t-il suscité l'attention dans le domaine de l'IA ?

AHappyHorse-1.0 est un modèle de génération de vidéos à partir de texte qui a discrètement atteint la première place du classement AI Video Arena d'Artificial Analysis, dépassant des modèles établis comme Seedance 2.0. Son succès est dû à son score Elo élevé, basé sur des tests à l'aveugle par des utilisateurs réels, ce qui a déclenché une compétition d'investigation dans la communauté technologique.

QQuelles preuves suggèrent que HappyHorse-1.0 est lié au modèle open source daVinci-MagiHuman ?

ALes données de référence publiques de HappyHorse-1.0 correspondent étroitement à celles de daVinci-MagiHuman, un modèle open source sorti en mars 2026. Les similitudes incluent des scores identiques en qualité visuelle, alignement texte-vidéo, cohérence physique et taux d'erreur vocale, ainsi qu'une architecture technique et une liste de langues prises en charge presque identiques.

QQui sont les équipes derrière le développement de daVinci-MagiHuman et HappyHorse-1.0 ?

AdaVinci-MagiHuman est le fruit d'une collaboration entre le laboratoire de recherche sur l'IA générative (GAIR) de la Shanghai Innovation Institute (SII), dirigé par le chercheur Liu Pengfei, et Sand.ai (San Dai Tech), une startup de Pékin fondée par Cao Yue, spécialisée dans les modèles mondiaux auto-régressifs.

QPourquoi HappyHorse-1.0 a-t-il performé aussi rapidement dans les tests en aveugle malgré son récent lancement ?

AHappyHorse-1.0 a obtenu un score Elo élevé en raison de son optimisation pour les scènes de test, en particulier les contenus mettant en scène des personnages humains et des narrations, qui représentent plus de 60% des échantillons de test. Sa conception initiale axée sur la génération de personnages lui a donné un avantage naturel dans ces scénarios.

QQuel impact HappyHorse-1.0 pourrait-il avoir sur l'industrie de la génération vidéo par IA ?

AHappyHorse-1.0 symbolise un tournant où un modèle open source rivalise avec des solutions propriétaires dans des tests basés sur la perception utilisateur. Cela pourrait réduire les coûts de déploiement, offrir plus de flexibilité en matière de personnalisation et de confidentialité, et accélérer l'innovation communautaire, élargissant ainsi les possibilités pour les développeurs et les créateurs.

Lectures associées

Polymarket coincé : le véritable examen après avoir profité de l'effet de flux est arrivé

Polymarket, la principale plateforme de marchés prédictifs, fait face à de sérieux problèmes de performance et de latence qui dégradent l'expérience utilisateur. L'équipe, dirigée par le vice-président de l'ingénierie DeFi Josh Stevens, a reconnu que sa croissance a dépassé la capacité de son infrastructure actuelle, basée sur Polygon. La solution envisagée est une migration de la chaîne de base ("chain migration") et une refonte complète du système, notamment la reconstruction du carnet d'ordres (CLOB V2). L'objectif est d'obtenir plus d'espace bloc, des frais de gaz réduits et des temps de bloc plus rapides pour supporter une activité de trading plus fréquente et complexe, incluant bientôt des produits dérivés perpétuels ("Perps"). Cette annonce a déclenché une compétition entre plusieurs blockchains (Solana, Sui, Algorand, etc.) qui cherchent à accueillir Polymarket, un acteur majeur générant des revenus substantiels en frais. Pour Polygon, le départ potentiel de Polymarket représenterait une perte significative. Le véritable défi pour Polymarket n'est plus de prouver la demande pour son marché, mais de construire une infrastructure stable et fiable capable de retenir les utilisateurs et de supporter un trading intensif.

Odaily星球日报Hier 03:23

Polymarket coincé : le véritable examen après avoir profité de l'effet de flux est arrivé

Odaily星球日报Hier 03:23

Le principal obstacle à la nomination de Warsh à la présidence de la Fed le 15 mai est levé après le « revirement » d'un sénateur clé

L'obstacle clé à la nomination de Kevin Warsh comme président de la Fed a été levé après que le sénateur républicain Thom Tillis a retiré son opposition. Tillis, membre influent de la commission bancaire du Sénat, a justifié sa décision par la clôture de l'enquête criminelle visant le président sortant Jerome Powell, garantissant selon lui l'indépendance de la Fed. Le vote en commission est prévu le 29 avril, avec une confirmation finale attendue vers le 15 mai, date à laquelle le mandat de Powell expire. Warsh, largement soutenu par les républicains, prévoit des réformes majeures incluant l'abolition du "dot plot" et une révision des mécanismes de forward guidance, ce qui pourrait fondamentalement transformer le cadre de pricing des actifs globaux. Bien que l'enquête criminelle soit close, Powell reste sous scrutiny concernant des dépenses de rénovation, et sa position au conseil de la Fed (jusqu'en 2028) n'est pas encore assurée. Les marchés devront anticiper une refonte des outils de communication de la Fed, potentiellement source de volatilité et de réévaluation des modèles de prix.

marsbitHier 02:59

Le principal obstacle à la nomination de Warsh à la présidence de la Fed le 15 mai est levé après le « revirement » d'un sénateur clé

marsbitHier 02:59

Réduire les attentes pour le prochain cycle haussier du BTC

L'auteur Alex Xu, anciennement grand détenteur de Bitcoin, a réduit sa position à 30% malgré une vision à long terme positive. Il explique cette décision par six raisons principales : 1. L'énergie potentielle pour une nouvelle hausse cyclique est moindre, car le Bitcoin a déjà conquis les investisseurs institutionnels via les ETF. La prochaine étape nécessiterait une adoption par les banques centrales ou les fonds souverains, ce qui semble improbable à court terme. 2. Son coût d'opportunité a augmenté avec la découverte d'autres investissements attractifs. 3. L'industrie crypto dans son ensemble est en déclin, avec peu de modèles économiques viables (seul le DeFi génère des profits), ce qui réduit la base de détenteurs de BTC. 4. Le principal acheteur de BTC, Strategy, voit son coût de financement augmenter (11,5%), ce qui pourrait ralentir ses achats et exercer une pression vendeuse. 5. L'or tokenisé, un concurrent direct, offre désormais les mêmes avantages de divisibilité et de transférabilité que le Bitcoin. 6. Le problème du budget de sécurité du Bitcoin s'aggrave avec le halving, les nouvelles sources de frais (comme les inscriptions) ayant échoué. Malgré cette réduction, l'auteur conserve une exposition significative au Bitcoin et reste ouvert à racheter si les conditions évoluent favorablement.

marsbitHier 02:50

Réduire les attentes pour le prochain cycle haussier du BTC

marsbitHier 02:50

Les marchés prédictifs dépendent des délits d'initiés, mais les délits d'initiés sont en train de les tuer

L'article de Nic Carter explore le paradoxe central des marchés prédictifs : ils dépendent des initiés partageant des informations privilégiées pour générer des prix précis, mais cette même pratique d'initiés, comme le récent scandale d'un militaire américain ayant gagné 400 000 $ sur Polymarket, risque de détruire la confiance des petits investisseurs. L'auteur explique que la valeur sociale de ces marchés réside dans leur capacité à motiver la divulgation d'informations, mais un excès de trading d'initiés peut conduire les particuliers à se retirer, réduisant ainsi la liquidité. À l'inverse, une réglementation trop stricte étoufferait le flux d'informations précieuses. Le texte conclut sur le dilemme de trouver un équilibre entre l'efficacité informationnelle et une perception d'équité pour assurer la survie à long terme de ces plateformes.

marsbitHier 02:39

Les marchés prédictifs dépendent des délits d'initiés, mais les délits d'initiés sont en train de les tuer

marsbitHier 02:39

Le détroit d’Ormuz, l’Iran peut-il le « contrôler » ?

L'Iran a annoncé un projet global pour contrôler le détroit d'Ormuz, incluant l'exigence d'autorisations de transit, des frais de passage (payables de préférence en rials), et l'interdiction absolue des navires israéliens. Les analystes y voient une manœuvre pour exercer une pression économique sur les États-Unis et Israël, obtenir de nouvelles sources de revenus et lier le transit à des demandes d'indemnisation de guerre. Cependant, la mise en œuvre reste incertaine en raison des défis pratiques, des contestations juridiques internationales, de l'opposition mondiale et des contre-mesures américaines, dont le blocus des ports iraniens. Le projet pourrait surtout servir de monnaie d'échange dans de futures négociations.

marsbitHier 01:34

Le détroit d’Ormuz, l’Iran peut-il le « contrôler » ?

marsbitHier 01:34

Trading

Spot

Futures