Le modèle mystérieux HappyHorse débarque et domine le classement, la course à la génération vidéo accueille-t-elle un "poisson-chat" ?
Un modèle de génération de vidéo nommé HappyHorse-1.0 a discrètement atteint la première place du classement AI Video Arena d'Artificial Analysis, dépassant des modèles établis comme Seedance 2.0. Ce classement, basé sur des tests en aveugle par des utilisateurs réels (système Elo), est considéré comme reflétant fidèlement la perception humaine.
Les indices pointent vers une origine chinoise (ordre des langues sur le site, référence à l'année du cheval). Après analyse technique, la communauté identifie HappyHorse comme une version optimisée du modèle open source daVinci-MagiHuman, développé conjointement par le laboratoire GAIR de SII (Shanghai) et Sand.ai (Pékin). Ce modèle utilise un transformateur monoflux de 15 milliards de paramètres pour un traitement conjoint du texte, de la vidéo et de l'audio.
Sa montée fulgurante s'expliquerait par un réglage spécifique pour le benchmark, qui favorise les scènes avec un personnage (60% des tests), son domaine de force. Cependant, des tests pratiques notent des limites : besoin de puces H100, difficultés avec les scènes complexes或多personnages, et durée de génération courte (~10 sec).
Symboliquement, cet événement marque un tournant : un modèle open source rivalise pour la première fois en qualité perçue avec des solutions propriétaires. Cela pourrait, à terme, menacer leur avantage concurrentiel dans des niches comme les portraits ou les présentateurs virtuels, en offrant une alternative personnalisable, moins chère et plus flexible. La course n'est pas terminée, mais la piste s'élargit pour l'open source.
marsbit04/08 08:02