¿El misterioso modelo HappyHorse llega para arrasar con los rankings? ¿La generación de videos por IA tiene un nuevo "pez espada"?

marsbitPublicado a 2026-04-08Actualizado a 2026-04-08

Resumen

Resumen: El modelo de generación de vídeo HappyHorse-1.0, basado en el modelo de código abierto daVinci-MagiHuman, ha encabezado la clasificación AI Video Arena de Artificial Analysis, superando a competidores establecidos como Seedance 2.0. Su éxito se atribuye a su enfoque en la generación de retratos y a ajustes específicos para escenarios de evaluación. Aunque tiene limitaciones en escenas complejas y requiere hardware potente, su rendimiento sugiere que los modelos de código abierto pueden igualar a los comerciales en ciertos contextos, lo que podría impactar la industria al ofrecer más flexibilidad y control a los desarrolladores.

Sin conferencia de prensa, sin blog técnico, sin respaldo corporativo alguno: un modelo de generación de video a partir de texto llamado HappyHorse-1.0 ascendió silenciosamente al primer puesto del ranking AI Video Arena de la plataforma de evaluación de IA Artificial Analysis, superando con una puntuación Elo más alta a Seedance 2.0 y dejando atrás a jugadores principales como Keling, TiGong y otros, desatando instantáneamente una "competencia de descifrado" en los círculos técnicos.

El ranking de Artificial Analysis no es una evaluación de parámetros técnicos, sino un resumen de los resultados de pruebas ciegas de usuarios reales convertidos en una puntuación Elo, que refleja la percepción real de la gente común después de ver los videos. Esto hace que este ranking sea más difícil de cuestionar fácilmente que las tablas de puntuación habituales, y también convierte a "quién demonios ha hecho esto" en una pregunta imposible de ignorar.

El "Caballo Feliz" asciende sigilosamente, desatando una competencia de adivinanzas en el mundo tecnológico

Las especulaciones en X (antes Twitter) llegaron rápido. Lo primero que llamó la atención fue el orden de los idiomas en el sitio web oficial: el mandarín y el cantonés aparecían antes que el inglés. Para un producto dirigido a usuarios globales, este orden es un poco inusual: si el equipo estuviera liderado desde Estados Unidos, es casi imposible que el inglés no fuera el primero. Que el equipo detrás es de China era prácticamente un hecho confirmado.

El nombre en sí también era una pista. 2026 es el año del Caballo según el calendario lunar chino. El nombre "HappyHorse" esconde un guiño poco sutil al Año del Caballo, una estrategia similar a la que usó "Pony Alpha" a principios de año. Así, la lista de sospechosos se alargó rápidamente: los fundadores de Tencent y Alibaba se apellidan Ma (Caballo en chino), por lo que naturalmente estaban en la lista; algunos apostaron por Xiaomi, pensando que su CEO Lei Jun, siempre discreto,喜欢突然亮牌 (le gusta sacar cartas de repente); otros sintieron que se parecía más a DeepSeek, ya que DS había lanzado previamente un modelo visual en silencio y luego lo retiró discretamente. Las especulaciones eran bulliciosas, pero nadie tenía pruebas contundentes.

Lo que realmente identificó al objetivo fue una comparación técnica punto por punto. El usuario de X Vigo Zhao tomó los datos de referencia públicos de HappyHorse-1.0 y los comparó uno por uno con los modelos conocidos, encontrando una coincidencia altamente precisa: daVinci-MagiHuman, también conocido como el modelo de código abierto "Da Vinci Magical Human" subido a Github en marzo.

Calidad visual 4.80, alineación de texto 4.18, consistencia física 4.52, tasa de error de palabras en el habla 14.60%: los datos coincidían punto por punto. La estructura del sitio web oficial también era casi idéntica: la descripción de la arquitectura, las tablas de rendimiento, el estilo de presentación de los videos de demostración, todo parecía provenir de la misma plantilla. Ambos comparten la misma arquitectura Transformer de flujo único, la misma generación conjunta de audio y video, y la misma lista de idiomas admitidos. Este nivel de coincidencia es difícil de explicar por casualidad.

La conclusión con mayor aceptación en los círculos técnicos actualmente es que HappyHorse es una versión iterativa optimizada por Sand.ai, uno de los co-desarrolladores de daVinci-MagiHuman, basada en el modelo de código abierto, con el objetivo central de validar el límite superior del rendimiento del modelo bajo la preferencia real del usuario, allanando el camino para su posterior comercialización.

daVinci-MagiHuman se lanzó oficialmente como código abierto el 23 de marzo de 2026, fruto de la colaboración de dos jóvenes equipos. Uno provenía del Laboratorio de Investigación de Inteligencia Artificial Generativa (GAIR) de la Shanghai Innovation and Intelligence Institute (SIII), liderado por el académico Liu Pengfei; el otro era Sand.ai (SanDai Technology) de Beijing, cuyo fundador, Cao Yue, también tiene antecedentes académicos, y la empresa se centra en los modelos de mundo autoregresivos.

El modelo utiliza un Transformer de flujo único puro de auto-atención con 15 mil millones de parámetros, metiendo los tokens de texto, video y audio en una misma secuencia para un modelado conjunto: la comunidad de código abierto no había hecho previamente un pre-entrenamiento conjunto de audio y video real desde cero, la mayoría simplemente unía modalidades individuales.

¿Cómo logró un modelo de video de código abierto una逆袭 (remontada) en dos semanas?

Una vez aclarada la identidad, otra pregunta se volvió más difícil de responder: daVinci-MagiHuman se hizo de código abierto a fines de marzo, ¿cómo pudo HappyHorse-1.0 obtener una puntuación Elo más alta que Seedance 2.0 en apenas dos semanas?

Según la información divulgada en el sitio web oficial, HappyHorse no parece haber alterado la arquitectura subyacente. La suposición más razonable es que realizó ajustes específicos en su estrategia de generación por defecto, orientados al escenario de evaluación.

El sistema Elo es esencialmente una acumulación de preferencias del usuario. Si se mejora un poco en elementos sensibles a la percepción, como la estabilidad de las expresiones faciales, la alineación audio-video, o lo agradable que es a la vista, es más probable que sea seleccionado en una prueba ciega. El límite superior de capacidad del modelo no cambia, pero el "rendimiento en la evaluación" se puede pulir.

De hecho, en las muestras de prueba ciega de Artificial Analysis, la generación de retratos y el formato de locución superan el 60%. Y daVinci-MagiHuman se enfocó en la interpretación de retratos desde la fase de entrenamiento, por lo que tiene una ventaja natural en este tipo de escenarios, que es la razón central de su alta tasa de victoria en las pruebas ciegas; si las muestras de prueba ciega se centran principalmente en primeros planos de personas, los modelos especializados en retratos tendrán una ventaja sistemática, lo que no tiene una relación directa con su rendimiento real en escenarios complejos como múltiples personas, movimientos de cámara intrincados o narrativas temporales largas.

El resultado fue una brecha notable entre los números en el ranking y la experiencia de prueba reales, dividiendo a los comentaristas en X en dos bandos. Los escépticos, después de realizar pruebas, consideraron que HappyHorse-1.0 todavía mostraba una brecha visible con Seedance 2.0 en detalles de personajes y coherencia dinámica, y por lo tanto cuestionaron la representatividad de la propia puntuación Elo.

Mientras tanto, los partidarios depositaron grandes esperanzas en el potencial de HappyHorse, esperando que pueda resolver el punto doloroso de la industria de la "consistencia de la calidad de imagen en secuencias de múltiples planos", ya que es un problema que los modelos de video principales actuales no han resuelto bien. Si daVinci-MagiHuman realmente logra un avance aquí, podría ser mucho más importante que un puesto en un ranking.

Tampoco se deben ocultar las limitaciones inherentes del modelo. El bloguero de Xiaohongshu @JACK的AI视界 (El mundo de la IA de JACK) implementó y probó daVinci-MagiHuman de inmediato. Descubrió que para ejecutarlo se necesita una H100, las GPU de consumo básico no son suficientes. Aunque la comunidad está investigando soluciones de cuantización, a corto plazo sigue siendo difícil para los usuarios individuales desplegarlo localmente.

En cuanto a los escenarios, actualmente se especializa principalmente en una sola persona; una vez que aparecen múltiples personas o la escena se vuelve compleja, la calidad cae. Esto no es un problema que se pueda resolver ajustando parámetros, está directamente relacionado con su orientación de diseño centrada en retratos. La duración de la generación generalmente ronda los 10 segundos; si es más larga, tiende a descontrolarse, y la salida en alta definición aún requiere complementos de super-resolución.

La conclusión de @JACK的AI视界 fue: la facilidad de uso general de daVinci-MagiHuman no es tan buena como la de LTX 2.3, y hay que esperar a que la comunidad termine la cuantización para que sea adecuado para el uso diario.

¿La generación de video por IA finalmente tiene su auténtico "pez espada"?

Por supuesto, liderar un ranking una vez no significa mucho. A continuación, HappyHorse aún necesita ser sometido a pruebas más exhaustivas en términos de estabilidad, velocidad de acceso bajo alta concurrencia, consistencia entre escenarios, precisión en el control de personajes y capacidad de generalización más allá del conjunto de evaluación. Estos son los indicadores centrales que determinan si un modelo puede integrarse realmente en el flujo de trabajo de los creadores.

Pero si ampliamos la perspectiva al panorama general de la industria, la señal que transmite este evento ya es lo suficientemente clara.

Los modelos de video de código abierto en sí mismos no son novedad. Pero lo que siempre se ha interpuesto entre el código abierto y el cerrado es una brecha visible en términos de efectividad: en escenarios que requieren entrega a clientes, la calidad de generación de los modelos de código abierto no ha logrado cruzar el umbral de "usable" a "entregable" a largo plazo. El poder de fijación de precios de productos cerrados como Keling o Seedance se basa, en gran medida, en esta brecha.

La importancia esta vez radica en que un producto basado en un modelo de código abierto, por primera vez, se ha equiparado en un ranking de pruebas ciegas basado en la percepción real del usuario con los principales competidores cerrados actuales. Independientemente de cuánto haya de ajuste orientado al escenario de evaluación, para los fabricantes de software cerrado que dependen de esta brecha para construir su poder de fijación de precios, al menos esta es una señal que vale la pena tomar en serio.

Para los desarrolladores, el significado de este punto de inflexión es más concreto. En escenarios verticales como retratos, humanos digitales o presentadores virtuales, una vez que la calidad de generación de la base de código abierto alcanza el umbral de "entregable", la estructura de costos del despliegue autónomo cambiará sustancialmente: no solo se comprimirán los costos de llamadas a la API, sino que, lo más importante, se incorporarán bajo control propio los datos, el modelo y la cadena de inferencia, obteniendo una flexibilidad en personalización profunda y cumplimiento de privacidad que las soluciones cerradas difícilmente pueden proporcionar.

HappyHorse-1.0 no sacudirá a corto plazo la posición de mercado de Seedance 2.0 o Keling, pero una vez que se establezca la percepción de que los modelos de código abierto pueden rivalizar con los cerrados, la posterior optimización de cuantización, el fine-tuning vertical y la aceleración de la inferencia serán impulsados por la comunidad a un ritmo de iteración muy superior al de los productos cerrados.

En este Año del Caballo, lo que realmente merece atención quizás no sea qué caballo corre más rápido, sino que la pista misma se está ampliando.

Este artículo proviene del WeChat Official Account "AI价值官" (AI Value Official), autor: Xingye, editor: Meiqi.

Preguntas relacionadas

Q¿Qué es HappyHorse-1.0 y por qué ha generado tanto revuelo en el ámbito de la IA?

AHappyHorse-1.0 es un modelo de generación de vídeo a partir de texto que ha alcanzado la cima del ranking AI Video Arena de Artificial Analysis, superando a modelos establecidos como Seedance 2.0. Su impacto radica en que logró esta hazaña sin anuncios previos, respaldo corporativo o documentación técnica, y su puntuación Elo, basada en pruebas ciegas de usuarios reales, lo sitúa por encima de competidores principales, desatando especulaciones sobre sus creadores.

Q¿Qué pistas llevaron a la comunidad a identificar el posible origen de HappyHorse?

ALa comunidad identificó varias pistas: el orden de los idiomas en su web (chino mandarín y cantonés antes que el inglés) sugirió un equipo chino; el nombre 'HappyHorse' hace referencia al Año del Caballo en el calendario lunar chino (2026); y una comparación técnica mostró una coincidencia casi exacta con los datos de rendimiento y la arquitectura del modelo de código abierto daVinci-MagiHuman, desarrollado conjuntamente por SII GAIR y Sand.ai.

Q¿Cómo explica la comunidad el rápido éxito de HappyHorse-1.0 a pesar de ser un modelo de código abierto reciente?

ASe cree que su éxito se debe a ajustes específicos en su estrategia de generación para optimizar su rendimiento en los escenarios de prueba del ranking, que se centran en gran medida (más del 60%) en la generación de retratos y contenidos de locución, áreas donde la arquitectura de daVinci-MagiHuman (en la que se basa) ya era inherentemente fuerte. Su alta puntuación Elo refleja una preferencia de usuario en pruebas ciegas para estos casos específicos, no necesariamente una superioridad técnica general.

Q¿Cuáles son las principales limitaciones actuales del modelo daVinci-MagiHuman/HappyHorse según los análisis?

ALas limitaciones incluyen: requisitos de hardware muy elevados (necesita una GPU H100, siendo difícil de ejecutar en hardware de consumo), está principalmente especializado en escenas de un solo personaje (su calidad decae con múltiples personas o escenas complejas), la duración de la generación es limitada (unos 10 segundos para mantener la coherencia) y necesita post-procesamiento para salida de alta definición. Su facilidad de uso general se considera inferior a la de otros modelos como LTX 2.3.

Q¿Qué implicación broader tiene el éxito de HappyHorse para la industria de generación de vídeo con IA?

AEl éxito de HappyHorse simboliza un punto de inflexión potencial: es la primera vez que un producto basado en un modelo de código abierto iguala a competidores cerrados principales en una evaluación basada en la percepción real del usuario. Esto podría erosionar la ventaja de calidad en la que se basan los modelos cerrados para su precio, impulsar la innovación en la comunidad de código abierto (cuantización, fine-tuning) y ofrecer a los desarrolladores una alternativa más flexible, controlada y potencialmente más económica para escenarios verticales como avatares digitales, especialmente en cuanto a personalización y privacidad.

Lecturas Relacionadas

Cuando la Copa del Mundo choca con el Agente: ¿Cómo evolucionan las carteras desde Web2 hasta Web3 hacia la Cartera Agéntica?

El Mundial de la FIFA es un escenario ideal para observar la evolución de las carteras digitales. Eventos como los mercados de predicción en Polymarket ofrecen una entrada ligera a las interacciones en cadena para los usuarios. Un cambio más significativo y temprano es la integración de Agentes de IA en las carteras, lo que podría transformar la forma en que los usuarios interactúan con el mundo web3. Por ejemplo, imToken ha comenzado a explorar la incorporación de Agentes de IA en escenarios prácticos durante el Mundial. Sus agentes en la web y en Discord permiten a los usuarios participar en mercados de predicción de manera más natural, guiándolos sin problemas de vuelta a la cadena de bloques desde entornos como Discord o páginas web. Esto representa una versión inicial de la "Cartera Agéntica", donde la cartera web3 del futuro podría no limitarse a una aplicación, sino ser una "forma de cartera de IA" omnipresente. El cambio fundamental reside en que la cartera evoluciona de ser un simple menú de funciones a convertirse en un "intérprete de intenciones". Los usuarios ya no necesitan saber exactamente qué acción técnica realizar; pueden expresar su intención en lenguaje natural, y el Agente la desglosa en una ruta de acciones en cadena, que la cartera ejecuta. Este enfoque es especialmente adecuado para eventos masivos como el Mundial, donde los usuarios tienen un contexto claro y un deseo natural de expresar opiniones y realizar apuestas. La iniciativa "Agent Pay" de Mastercard, lanzada en junio, subraya que esta tendencia trasciende el ámbito web3. Define cómo los Agentes de IA confiables pueden participar en pagos con autorización del usuario, abordando cuestiones de identificación, autorización y verificación dentro de la red de pagos. Esto refleja los mismos desafíos que enfrentan las carteras web3: cómo permitir que la IA actúe de manera eficiente pero dentro de límites seguros y controlados por el usuario. Por lo tanto, la pregunta central para la Cartera Agéntica no es cuántas tareas puede automatizar la IA, sino cómo garantizar que el usuario comprenda y controle lo que el Agente está haciendo. La cartera debe traducir operaciones complejas en términos comprensibles, gestionando autorizaciones claras, límites de gasto, alcance de acción y mecanismos de pausa o revocación. La exploración de imToken en el contexto del Mundial es un paso inicial en esta dirección, demostrando cómo la cartera puede facilitar interacciones a partir de la intención del usuario, manteniendo siempre la claridad y el control fundamentales.

marsbitHace 1 hora(s)

Cuando la Copa del Mundo choca con el Agente: ¿Cómo evolucionan las carteras desde Web2 hasta Web3 hacia la Cartera Agéntica?

marsbitHace 1 hora(s)

Diálogo con el inversor Zheng Di: Experimento de venta de criptomonedas de MicroStrategy, economía de IA y oportunidades en el mercado estadounidense

**Resumen: Diálogo con el inversor Didier Zheng: El experimento de venta de criptomonedas de MicroStrategy, la economía de la IA y las oportunidades en el mercado bursátil estadounidense** En un reciente podcast, el inversor en tecnologías de vanguardia Didier (Didier) Zheng analizó la caída del bitcoin, los cambios en la estrategia financiera de MicroStrategy, el auge de las acciones estadounidenses impulsado por la IA y el futuro de la industria cripto. **MicroStrategy y la presión de venta:** Zheng argumenta que la reciente caída del bitcoin se debe principalmente a la expectativa del mercado de que MicroStrategy podría vender pequeñas cantidades de forma recurrente para cubrir los dividendos de sus acciones preferentes, manteniendo así su principio de "neutralidad de bitcoin por acción". Esto crea una presión estructural, aunque no necesariamente desencadena una "espiral de la muerte" a menos que se combinen con nuevos shocks macroeconómicos. **La IA y el token como nueva fuerza laboral:** La discusión se centra en cómo la IA está reestructurando la economía. Zheng ve los *tokens* como la nueva "fuerza laboral" digital, reemplazando progresivamente tareas humanas en la ejecución. Esto impulsa la rentabilidad corporativa y beneficia a la cadena de suministro de la IA (semiconductores, centros de datos), lo cual es el motor fundamental del rally en el mercado bursátil estadounidense. La era de la "economía de las máquinas" acaba de comenzar. **CEX y la migración a acciones estadounidenses:** Para Zheng, la integración de acciones tradicionales (como las estadounidenses) por parte de los exchanges de criptomonedas (CEX) es un movimiento natural hacia activos con valor real y liquidez, dado el limitado número de activos cripto nativos con fundamentos sólidos. No cree que esto perjudique al ecosistema a largo plazo, sino que acerca activos del mundo real a la cadena. Además, sugiere que los traders de cripto pueden encontrar en el mercado bursátil estilos de inversión similares (ej. *meme stocks* que reemplazan a las *meme coins*). **Panorama macro y futuro:** Zheng se muestra cauteloso a corto plazo debido a posibles ajustes en el mercado y la incertidumbre política (elecciones en EE.UU.), pero mantiene una visión optimista a largo plazo sobre la IA y su convergencia con blockchain. Subraya la necesidad de mecanismos de redistribución (ej. un "impuesto a la IA") para evitar una desigualdad extrema en la era de la automatización. La industria cripto, en su opinión, está pasando de una fase especulativa a una más institucional e industrial.

marsbitHace 2 hora(s)

Diálogo con el inversor Zheng Di: Experimento de venta de criptomonedas de MicroStrategy, economía de IA y oportunidades en el mercado estadounidense

marsbitHace 2 hora(s)

$GCOIN de Playnance se lista en KoinBX en medio del rápido crecimiento en India

Playnance, el ecosistema web3 de iGaming basado en blockchain, anunció el 18 de junio que su token nativo, $GCOIN, se ha listado en el intercambio KoinBX. Esta medida busca facilitar el acceso a una de las comunidades de más rápido crecimiento de la plataforma, particularmente en India, donde más de 130 socios del programa "Be the Boss" se han unido, creando comunidades con miles de jugadores activos. A través del modelo "Be the Boss", los participantes pueden crear y gestionar sus propias comunidades de juego, recibiendo incentivos por su actividad. Pini Peter, CEO de Playnance, destacó que India se ha convertido en uno de los mercados más comprometidos. Un ejemplo es el socio Dr. Nicolas, quien ha ganado más de 57.000 dólares en los últimos meses y valora la oportunidad de construir una comunidad propia. El token $GCOIN es el centro de este ecosistema, actuando como token de utilidad para recompensar la participación y alinear incentivos entre jugadores y "Bosses". Su listado en KoinBX forma parte de la estrategia de expansión global de Playnance, que busca aumentar la utilidad y accesibilidad de $GCOIN combinando propiedad comunitaria, participación gamificada e incentivos en blockchain. Fundada en 2020, Playnance procesa alrededor de un millón de transacciones diarias y desarrolla productos en cadena no custodiados con el objetivo de atraer a usuarios convencionales (Web2) hacia entornos blockchain, simplificando la experiencia del usuario sin perder transparencia.

TheNewsCryptoHace 2 hora(s)

$GCOIN de Playnance se lista en KoinBX en medio del rápido crecimiento en India

TheNewsCryptoHace 2 hora(s)

Trading

Spot
Futuros
活动图片