¿El misterioso modelo HappyHorse llega para arrasar con los rankings? ¿La generación de videos por IA tiene un nuevo "pez espada"?

marsbitPublicado a 2026-04-08Actualizado a 2026-04-08

Resumen

Resumen: El modelo de generación de vídeo HappyHorse-1.0, basado en el modelo de código abierto daVinci-MagiHuman, ha encabezado la clasificación AI Video Arena de Artificial Analysis, superando a competidores establecidos como Seedance 2.0. Su éxito se atribuye a su enfoque en la generación de retratos y a ajustes específicos para escenarios de evaluación. Aunque tiene limitaciones en escenas complejas y requiere hardware potente, su rendimiento sugiere que los modelos de código abierto pueden igualar a los comerciales en ciertos contextos, lo que podría impactar la industria al ofrecer más flexibilidad y control a los desarrolladores.

Sin conferencia de prensa, sin blog técnico, sin respaldo corporativo alguno: un modelo de generación de video a partir de texto llamado HappyHorse-1.0 ascendió silenciosamente al primer puesto del ranking AI Video Arena de la plataforma de evaluación de IA Artificial Analysis, superando con una puntuación Elo más alta a Seedance 2.0 y dejando atrás a jugadores principales como Keling, TiGong y otros, desatando instantáneamente una "competencia de descifrado" en los círculos técnicos.

El ranking de Artificial Analysis no es una evaluación de parámetros técnicos, sino un resumen de los resultados de pruebas ciegas de usuarios reales convertidos en una puntuación Elo, que refleja la percepción real de la gente común después de ver los videos. Esto hace que este ranking sea más difícil de cuestionar fácilmente que las tablas de puntuación habituales, y también convierte a "quién demonios ha hecho esto" en una pregunta imposible de ignorar.

El "Caballo Feliz" asciende sigilosamente, desatando una competencia de adivinanzas en el mundo tecnológico

Las especulaciones en X (antes Twitter) llegaron rápido. Lo primero que llamó la atención fue el orden de los idiomas en el sitio web oficial: el mandarín y el cantonés aparecían antes que el inglés. Para un producto dirigido a usuarios globales, este orden es un poco inusual: si el equipo estuviera liderado desde Estados Unidos, es casi imposible que el inglés no fuera el primero. Que el equipo detrás es de China era prácticamente un hecho confirmado.

El nombre en sí también era una pista. 2026 es el año del Caballo según el calendario lunar chino. El nombre "HappyHorse" esconde un guiño poco sutil al Año del Caballo, una estrategia similar a la que usó "Pony Alpha" a principios de año. Así, la lista de sospechosos se alargó rápidamente: los fundadores de Tencent y Alibaba se apellidan Ma (Caballo en chino), por lo que naturalmente estaban en la lista; algunos apostaron por Xiaomi, pensando que su CEO Lei Jun, siempre discreto,喜欢突然亮牌 (le gusta sacar cartas de repente); otros sintieron que se parecía más a DeepSeek, ya que DS había lanzado previamente un modelo visual en silencio y luego lo retiró discretamente. Las especulaciones eran bulliciosas, pero nadie tenía pruebas contundentes.

Lo que realmente identificó al objetivo fue una comparación técnica punto por punto. El usuario de X Vigo Zhao tomó los datos de referencia públicos de HappyHorse-1.0 y los comparó uno por uno con los modelos conocidos, encontrando una coincidencia altamente precisa: daVinci-MagiHuman, también conocido como el modelo de código abierto "Da Vinci Magical Human" subido a Github en marzo.

Calidad visual 4.80, alineación de texto 4.18, consistencia física 4.52, tasa de error de palabras en el habla 14.60%: los datos coincidían punto por punto. La estructura del sitio web oficial también era casi idéntica: la descripción de la arquitectura, las tablas de rendimiento, el estilo de presentación de los videos de demostración, todo parecía provenir de la misma plantilla. Ambos comparten la misma arquitectura Transformer de flujo único, la misma generación conjunta de audio y video, y la misma lista de idiomas admitidos. Este nivel de coincidencia es difícil de explicar por casualidad.

La conclusión con mayor aceptación en los círculos técnicos actualmente es que HappyHorse es una versión iterativa optimizada por Sand.ai, uno de los co-desarrolladores de daVinci-MagiHuman, basada en el modelo de código abierto, con el objetivo central de validar el límite superior del rendimiento del modelo bajo la preferencia real del usuario, allanando el camino para su posterior comercialización.

daVinci-MagiHuman se lanzó oficialmente como código abierto el 23 de marzo de 2026, fruto de la colaboración de dos jóvenes equipos. Uno provenía del Laboratorio de Investigación de Inteligencia Artificial Generativa (GAIR) de la Shanghai Innovation and Intelligence Institute (SIII), liderado por el académico Liu Pengfei; el otro era Sand.ai (SanDai Technology) de Beijing, cuyo fundador, Cao Yue, también tiene antecedentes académicos, y la empresa se centra en los modelos de mundo autoregresivos.

El modelo utiliza un Transformer de flujo único puro de auto-atención con 15 mil millones de parámetros, metiendo los tokens de texto, video y audio en una misma secuencia para un modelado conjunto: la comunidad de código abierto no había hecho previamente un pre-entrenamiento conjunto de audio y video real desde cero, la mayoría simplemente unía modalidades individuales.

¿Cómo logró un modelo de video de código abierto una逆袭 (remontada) en dos semanas?

Una vez aclarada la identidad, otra pregunta se volvió más difícil de responder: daVinci-MagiHuman se hizo de código abierto a fines de marzo, ¿cómo pudo HappyHorse-1.0 obtener una puntuación Elo más alta que Seedance 2.0 en apenas dos semanas?

Según la información divulgada en el sitio web oficial, HappyHorse no parece haber alterado la arquitectura subyacente. La suposición más razonable es que realizó ajustes específicos en su estrategia de generación por defecto, orientados al escenario de evaluación.

El sistema Elo es esencialmente una acumulación de preferencias del usuario. Si se mejora un poco en elementos sensibles a la percepción, como la estabilidad de las expresiones faciales, la alineación audio-video, o lo agradable que es a la vista, es más probable que sea seleccionado en una prueba ciega. El límite superior de capacidad del modelo no cambia, pero el "rendimiento en la evaluación" se puede pulir.

De hecho, en las muestras de prueba ciega de Artificial Analysis, la generación de retratos y el formato de locución superan el 60%. Y daVinci-MagiHuman se enfocó en la interpretación de retratos desde la fase de entrenamiento, por lo que tiene una ventaja natural en este tipo de escenarios, que es la razón central de su alta tasa de victoria en las pruebas ciegas; si las muestras de prueba ciega se centran principalmente en primeros planos de personas, los modelos especializados en retratos tendrán una ventaja sistemática, lo que no tiene una relación directa con su rendimiento real en escenarios complejos como múltiples personas, movimientos de cámara intrincados o narrativas temporales largas.

El resultado fue una brecha notable entre los números en el ranking y la experiencia de prueba reales, dividiendo a los comentaristas en X en dos bandos. Los escépticos, después de realizar pruebas, consideraron que HappyHorse-1.0 todavía mostraba una brecha visible con Seedance 2.0 en detalles de personajes y coherencia dinámica, y por lo tanto cuestionaron la representatividad de la propia puntuación Elo.

Mientras tanto, los partidarios depositaron grandes esperanzas en el potencial de HappyHorse, esperando que pueda resolver el punto doloroso de la industria de la "consistencia de la calidad de imagen en secuencias de múltiples planos", ya que es un problema que los modelos de video principales actuales no han resuelto bien. Si daVinci-MagiHuman realmente logra un avance aquí, podría ser mucho más importante que un puesto en un ranking.

Tampoco se deben ocultar las limitaciones inherentes del modelo. El bloguero de Xiaohongshu @JACK的AI视界 (El mundo de la IA de JACK) implementó y probó daVinci-MagiHuman de inmediato. Descubrió que para ejecutarlo se necesita una H100, las GPU de consumo básico no son suficientes. Aunque la comunidad está investigando soluciones de cuantización, a corto plazo sigue siendo difícil para los usuarios individuales desplegarlo localmente.

En cuanto a los escenarios, actualmente se especializa principalmente en una sola persona; una vez que aparecen múltiples personas o la escena se vuelve compleja, la calidad cae. Esto no es un problema que se pueda resolver ajustando parámetros, está directamente relacionado con su orientación de diseño centrada en retratos. La duración de la generación generalmente ronda los 10 segundos; si es más larga, tiende a descontrolarse, y la salida en alta definición aún requiere complementos de super-resolución.

La conclusión de @JACK的AI视界 fue: la facilidad de uso general de daVinci-MagiHuman no es tan buena como la de LTX 2.3, y hay que esperar a que la comunidad termine la cuantización para que sea adecuado para el uso diario.

¿La generación de video por IA finalmente tiene su auténtico "pez espada"?

Por supuesto, liderar un ranking una vez no significa mucho. A continuación, HappyHorse aún necesita ser sometido a pruebas más exhaustivas en términos de estabilidad, velocidad de acceso bajo alta concurrencia, consistencia entre escenarios, precisión en el control de personajes y capacidad de generalización más allá del conjunto de evaluación. Estos son los indicadores centrales que determinan si un modelo puede integrarse realmente en el flujo de trabajo de los creadores.

Pero si ampliamos la perspectiva al panorama general de la industria, la señal que transmite este evento ya es lo suficientemente clara.

Los modelos de video de código abierto en sí mismos no son novedad. Pero lo que siempre se ha interpuesto entre el código abierto y el cerrado es una brecha visible en términos de efectividad: en escenarios que requieren entrega a clientes, la calidad de generación de los modelos de código abierto no ha logrado cruzar el umbral de "usable" a "entregable" a largo plazo. El poder de fijación de precios de productos cerrados como Keling o Seedance se basa, en gran medida, en esta brecha.

La importancia esta vez radica en que un producto basado en un modelo de código abierto, por primera vez, se ha equiparado en un ranking de pruebas ciegas basado en la percepción real del usuario con los principales competidores cerrados actuales. Independientemente de cuánto haya de ajuste orientado al escenario de evaluación, para los fabricantes de software cerrado que dependen de esta brecha para construir su poder de fijación de precios, al menos esta es una señal que vale la pena tomar en serio.

Para los desarrolladores, el significado de este punto de inflexión es más concreto. En escenarios verticales como retratos, humanos digitales o presentadores virtuales, una vez que la calidad de generación de la base de código abierto alcanza el umbral de "entregable", la estructura de costos del despliegue autónomo cambiará sustancialmente: no solo se comprimirán los costos de llamadas a la API, sino que, lo más importante, se incorporarán bajo control propio los datos, el modelo y la cadena de inferencia, obteniendo una flexibilidad en personalización profunda y cumplimiento de privacidad que las soluciones cerradas difícilmente pueden proporcionar.

HappyHorse-1.0 no sacudirá a corto plazo la posición de mercado de Seedance 2.0 o Keling, pero una vez que se establezca la percepción de que los modelos de código abierto pueden rivalizar con los cerrados, la posterior optimización de cuantización, el fine-tuning vertical y la aceleración de la inferencia serán impulsados por la comunidad a un ritmo de iteración muy superior al de los productos cerrados.

En este Año del Caballo, lo que realmente merece atención quizás no sea qué caballo corre más rápido, sino que la pista misma se está ampliando.

Este artículo proviene del WeChat Official Account "AI价值官" (AI Value Official), autor: Xingye, editor: Meiqi.

Preguntas relacionadas

Q¿Qué es HappyHorse-1.0 y por qué ha generado tanto revuelo en el ámbito de la IA?

AHappyHorse-1.0 es un modelo de generación de vídeo a partir de texto que ha alcanzado la cima del ranking AI Video Arena de Artificial Analysis, superando a modelos establecidos como Seedance 2.0. Su impacto radica en que logró esta hazaña sin anuncios previos, respaldo corporativo o documentación técnica, y su puntuación Elo, basada en pruebas ciegas de usuarios reales, lo sitúa por encima de competidores principales, desatando especulaciones sobre sus creadores.

Q¿Qué pistas llevaron a la comunidad a identificar el posible origen de HappyHorse?

ALa comunidad identificó varias pistas: el orden de los idiomas en su web (chino mandarín y cantonés antes que el inglés) sugirió un equipo chino; el nombre 'HappyHorse' hace referencia al Año del Caballo en el calendario lunar chino (2026); y una comparación técnica mostró una coincidencia casi exacta con los datos de rendimiento y la arquitectura del modelo de código abierto daVinci-MagiHuman, desarrollado conjuntamente por SII GAIR y Sand.ai.

Q¿Cómo explica la comunidad el rápido éxito de HappyHorse-1.0 a pesar de ser un modelo de código abierto reciente?

ASe cree que su éxito se debe a ajustes específicos en su estrategia de generación para optimizar su rendimiento en los escenarios de prueba del ranking, que se centran en gran medida (más del 60%) en la generación de retratos y contenidos de locución, áreas donde la arquitectura de daVinci-MagiHuman (en la que se basa) ya era inherentemente fuerte. Su alta puntuación Elo refleja una preferencia de usuario en pruebas ciegas para estos casos específicos, no necesariamente una superioridad técnica general.

Q¿Cuáles son las principales limitaciones actuales del modelo daVinci-MagiHuman/HappyHorse según los análisis?

ALas limitaciones incluyen: requisitos de hardware muy elevados (necesita una GPU H100, siendo difícil de ejecutar en hardware de consumo), está principalmente especializado en escenas de un solo personaje (su calidad decae con múltiples personas o escenas complejas), la duración de la generación es limitada (unos 10 segundos para mantener la coherencia) y necesita post-procesamiento para salida de alta definición. Su facilidad de uso general se considera inferior a la de otros modelos como LTX 2.3.

Q¿Qué implicación broader tiene el éxito de HappyHorse para la industria de generación de vídeo con IA?

AEl éxito de HappyHorse simboliza un punto de inflexión potencial: es la primera vez que un producto basado en un modelo de código abierto iguala a competidores cerrados principales en una evaluación basada en la percepción real del usuario. Esto podría erosionar la ventaja de calidad en la que se basan los modelos cerrados para su precio, impulsar la innovación en la comunidad de código abierto (cuantización, fine-tuning) y ofrecer a los desarrolladores una alternativa más flexible, controlada y potencialmente más económica para escenarios verticales como avatares digitales, especialmente en cuanto a personalización y privacidad.

Lecturas Relacionadas

GensynAI : Que la IA no repita los errores de Internet

En los últimos meses, el auge de la IA ha atraído talento del sector cripto. Muchos proyectos exploran cómo la blockchain puede integrarse en la infraestructura de IA, pero pocos logran un modelo de negocio cerrado. Gensyn se distingue al enfocarse en el núcleo más costoso: el entrenamiento de modelos. Su propuesta es organizar recursos de GPU dispersos globalmente en una red abierta para entrenamiento de IA. Los desarrolladores pueden enviar tareas, los nodos aportan capacidad de cálculo, y la red verifica los resultados y distribuye incentivos. Esto aborda un problema crítico: la creciente centralización del poder de cálculo en grandes tecnológicas, donde el acceso a GPUs como la H100 se ha convertido en una barrera clave para la innovación. Gensyn destaca por cuatro razones: 1. Ataca la capa de infraestructura central de la IA (entrenamiento), no solo aplicaciones. 2. Ofrece un modelo de colaboración abierto que puede optimizar costes y eficiencia para equipos más pequeños. 3. Su principal barrera tecnológica y ventaja es la capacidad de verificar resultados y garantizar fiabilidad en un entorno distribuido. 4. Responde a una demanda real y creciente en un mercado ya validado, más allá de la narrativa cripto. En conclusión, la frontera entre cripto e IA se desdibuja. La IA necesita coordinación de recursos e incentivos para la colaboración global, áreas donde la tecnología blockchain puede aportar soluciones. Gensyn representa un paso hacia una infraestructura de IA más abierta y accesible, no solo controlada por unos pocos gigantes.

marsbitHace 14 hora(s)

GensynAI : Que la IA no repita los errores de Internet

marsbitHace 14 hora(s)

¿Por qué el desarrollo de la IA en China es tan rápido? La respuesta está dentro de sus laboratorios

El artículo explora las razones del rápido desarrollo de la IA en China, centrándose en la cultura organizativa de sus laboratorios. A diferencia del ecosistema estadounidense, que prioriza la innovación disruptiva, el capital y las "estrellas" científicas individuales, el enfoque chino se caracteriza por un pragmatismo basado en la ejecución en equipo, la ingeniería eficiente, la rápida iteración y un fuerte deseo de controlar la pila tecnológica clave. Los laboratorios chinos sobresalen como "seguidores rápidos", optimizando direcciones ya establecidas. Una cultura que valora menos el ego individual y más el trabajo en equipo, combinada con una gran afluencia de jóvenes investigadores y estudiantes integrados en proyectos centrales, facilita una adaptación ágil y un enfoque en tareas prácticas de mejora de modelos. Existe un respeto general dentro del ecosistema, que se percibe más como una comunidad que como tribus en competencia. En el ámbito industrial, se observa una mentalidad de "construir, no comprar", con muchas grandes empresas tecnológicas desarrollando sus propios modelos LLM fundamentales para mantener la soberanía tecnológica. El apoyo gubernamental existe pero es descentralizado. La demanda interna de IA está creciendo, potencialmente similar al mercado de la nube, y los desarrolladores muestran una fuerte admiración por herramientas como Claude. Aunque hay una gran necesidad de chips de Nvidia, también se utilizan alternativas locales como Huawei para inferencia. El ecosistema de datos es menos maduro que en Occidente, lo que fomenta soluciones internas. En conclusión, se están formando dos trayectorias distintas: una carrera impulsada por el capital y el prestigio en EE.UU. frente a una competencia industrial impulsada por la capacidad de ejecución, el ecosistema de código abierto y la autonomía tecnológica en China. El autor destaca la calidez y el enfoque pragmático de los investigadores chinos, subrayando que la competencia futura dependerá no solo de los modelos, sino también de las capacidades organizativas y la fuerza del ecosistema.

marsbitHace 15 hora(s)

¿Por qué el desarrollo de la IA en China es tan rápido? La respuesta está dentro de sus laboratorios

marsbitHace 15 hora(s)

3 años, 5 veces: el renacimiento de una fábrica de vidrio centenaria

Según CRU, la demanda de fibra óptica en centros de datos de IA creció un 75,9% anual, ampliando el déficit de oferta del 6% al 15%. Los precios de la fibra se triplicaron en meses. NVIDIA invirtió en Corning, Lumentum y Coherent (total 45 mil millones USD) para asegurar la cadena de suministro óptica. Corning, fundada en 1851, ve su valor subir un 316,81% en el último año, alcanzando 160 mil millones USD. Su crecimiento se debe a dos factores clave: la rigidez de la oferta (el proceso de fabricación de preformas es complejo y lento) y la transición forzada de cobre a fibra en infraestructuras de IA para mayor eficiencia y menor consumo energético. La fibra es crucial para la IA: su uso en bastidores de IA es 5-10 veces mayor que en centros tradicionales. Se espera que la demanda de fibra para IA represente el 35% del mercado total para 2027. Corning lidera en fibra especializada de baja pérdida, alta densidad y resistencia a la curvatura, esencial para transmisiones de 800G a 1,6T. Sus ingresos en comunicación óptica para empresas se duplicaron en dos años, superando los 30 mil millones USD en 2025, respaldados por acuerdos a largo plazo con Meta, NVIDIA y otros grandes clientes. Aunque no es el mayor fabricante global, Corning destaca en I+D (más de 10 mil millones USD anuales) y en su enfoque en el segmento premium de centros de datos de IA. El aumento de precios beneficia a toda la industria, como muestran los resultados de empresas chinas. El despliegue de Óptica de Co-Embalaje (CPO) y la posible adopción de fibra hueca son variables futuras clave. Sin embargo, la rápida apreciación de las acciones de Corning (multiplicando por 3 su relación P/E) ya refleja grandes expectativas, lo que podría aumentar la volatilidad si los pedidos no cumplen con el ritmo esperado.

marsbitHace 16 hora(s)

3 años, 5 veces: el renacimiento de una fábrica de vidrio centenaria

marsbitHace 16 hora(s)

Trading

Spot
Futuros
活动图片