Por | Letra AI
El campo de los videos de IA ha estado un poco frío recientemente. Seedance 2.0 se enfrentó a controversias de derechos de autor y OpenAI cerró Sora, lo que llenó de nubes este sector.
Fue en ese momento cuando Alibaba presentó un caballo negro.
En abril de 2026, HappyHorse-1.0 llegó a la cima del ranking de Artificial Analysis, superando a rivales como ByteDance y Kuaishou en las categorías de generación de video a partir de texto y de imagen a video (sin audio).
Zhang Di regresó a Alibaba en noviembre de 2025 para asumir el cargo de director del Laboratorio de Vida Futura del Grupo Taotian, reportando directamente a Zheng Bo, CTO de Alimama.
Es decir, desde su regreso hasta que se dio a conocer, Zhang Di solo tardó unos 5 meses.
La clave es que HappyHorse, al igual que Qwen de Alibaba, tiene una versión open source disponible para uso comercial.
¿Qué posición tiene Qwen ahora en Alibaba? Es la base central del modelo de gran lenguaje universal a nivel grupal de Alibaba, el portador absoluto del núcleo de la estrategia de IA. Todo lo que hace Alibaba actualmente se está organizando en torno a Qwen.
Por lo tanto, el significado de HappyHorse para Alibaba podría ser mucho más que un modelo para presumir tecnología en rankings.
Sin embargo, antes de entender las ideas de Alibaba, deberíamos hablar primero sobre quién es Zhang Di.
01 De Alibaba a Kuaishou y de vuelta a Alibaba
Zhang Di se graduó en Informática de la Universidad de Shanghai Jiao Tong, con un programa continuo de licenciatura y maestría. Se unió a Alibaba en 2010 después de graduarse y durante mucho tiempo se encargó de la arquitectura de ingeniería de big data y aprendizaje automático de Alimama.
Alimama se dedica a la publicidad, recomendación, búsqueda y conversión, respaldadas por datos a gran escala, distribución a gran escala y sistemas de ingeniería complejos. Estas cosas pueden no sonar tan llamativas como los grandes modelos, pero fueron precisamente el lugar donde más tarde las empresas de internet chinas formaron talento en IA.
Muchas de las personas que realmente pueden convertir los modelos en productos no provienen puramente de laboratorios. Ellos ya habían pasado antes por la experiencia de sistemas como búsqueda, recomendación, publicidad y distribución de contenido.
Te lo explico con unos ejemplos. El CEO de Google, Sundar Pichai, comenzó trabajando en la barra de búsqueda y la recomendación de contenido de YouTube. El CEO de Microsoft, Satya Nadella, comenzó en Microsoft desarrollando el motor de búsqueda Bing y el sistema publicitario de Microsoft.
Porque estos sistemas procesan diariamente el comportamiento masivo de usuarios y también exigen que los modelos funcionen de manera estable en negocios reales. No permiten que los ingenieros hagan un demo bonito; te obligan a crear algo realmente útil, y además a sopesar constantemente entre latencia, coste, efecto y retroalimentación.
La década de Zhang Di en Alibaba transcurrió, en general, en un entorno así. En aquel entonces, el exterior aún no llamaba a todo "modelo grande", pero Alibaba ya tenía internamente un campo de entrenamiento centrado en datos, algoritmos e ingeniería.
En 2020, Zhang Di dejó Alibaba y se fue a Kuaishou.
En ese momento, las plataformas de短视频 (vídeos cortos) ya habían pasado de la competencia por el tráfico a la competencia tecnológica. Zhang Di ocupó sucesivamente los cargos de Vicepresidente de Tecnología y responsable del equipo de modelos grandes y tecnología multimedia en Kuaishou, y más tarde dirigió el desarrollo de la arquitectura subyacente y la aplicación práctica del modelo grande Kling.
El significado de Kling para Kuaishou fue muy importante.
Kling permitió a Kuaishou pasar de ser una "plataforma de distribución de contenido" a un "proveedor de infraestructura de producción de contenido", construyendo un ciclo completo de "generación de ideas - producción de video - distribución con un clic - monetización del tráfico - iteración de datos".
En abril de 2025, Kuaishou estableció la División de IA Kling y la ascendió a un departamento de primer nivel de la empresa, reportando directamente al CEO Cheng Yixiao, al mismo nivel que el negocio principal de短视频 (vídeos cortos).
Por eso, cuando se unió brevemente a Bilibili en septiembre de 2025 y regresó a Alibaba dos meses después, este movimiento difícilmente podía verse como un simple flujo de talento ordinario.
Bilibili necesita tecnología de video, Alibaba también necesita tecnología de video, solo que la necesidad de Alibaba es más compleja.
Kuaishou hace generación de video, básicamente es distribución. Pero si Alibaba hace generación de video, detrás hay muchos más eslabones involucrados: comercio electrónico, publicidad, transmisiones en vivo, servicios en la nube y comerciantes en el extranjero.
Como se mencionó anteriormente, después de regresar a Alibaba en noviembre de 2025, Zhang Di asumió el cargo de director del "Laboratorio de Vida Futura" del Grupo Taotian, con nivel P11.
Con este arreglo, el sabor de Alibaba sigue siendo fuerte. No colocó el modelo de video simplemente en un departamento de investigación pura; su posición está, en cambio, más cerca de Taotian, un lugar de transacción real.
En otras palabras, HappyHorse, desde su concepción, es un producto que enfatiza la implementación práctica y está vinculado al ecosistema existente de Alibaba.
Cinco meses después, apareció HappyHorse.
Esta velocidad es realmente rápida. Alibaba le dio a Zhang Di un nuevo escenario comercial y un equipo, y él volvió a abrir la ruta del modelo de video.
No entró en el video de IA desde cero, ni simplemente fue contratado externamente en Alibaba.
Su trayectoria profesional es como una línea que da un rodeo y vuelve. Primero aprendió en Alibaba cómo funcionan los sistemas comerciales a gran escala, luego fue a Kuaishou a convertir la generación de video en un producto, y luego regresó a Alibaba para colocar esta capacidad en una máquina comercial aún mayor.
Muchas empresas compiten por el talento en modelos grandes, pero las personas realmente escasas suelen ser aquellas que pueden entender simultáneamente el modelo, el negocio y la organización.
Hay muchas personas que solo saben entrenar modelos, y muchas que solo saben hablar de estrategia. Lo difícil es que alguien sepa dónde se atascará cada paso, desde la ruta tecnológica inicial de un modelo, pasando por el diseño de la arquitectura, el entrenamiento y inferencia, la salida del producto, hasta que finalmente sea utilizado por comerciantes y usuarios.
HappyHorse volvió a poner a Zhang Di en primer plano, y también le dio a la narrativa de IA relativamente dispersa de Alibaba en los últimos años una entrada de personaje más concreta.
02 Cómo un modelo open source derrotó a los gigantes closed source
El punto que realmente llamó la atención de HappyHorse es que ganó demasiado repentinamente.
En la pista de generación de video, en el extranjero están Runway, Pika, Luma, Veo de Google; en China, Seedance de ByteDance, Kling de Kuaishou. Alibaba no estaba en la lista.
Por eso, cuando HappyHorse encabezó la lista por primera vez, la gente prefería creer que era un modelo desarrollado por una startup, antes que creer que era un modelo de Alibaba.
HappyHorse se encuentra en el primer nivel tanto en la pista de texto a video como en la de imagen a video, con una puntuación Elo de 1333 para texto a video y 1392 para imagen a video.
La lista de Artificial Analysis en sí cambia constantemente con las pruebas ciegas de los usuarios, y las puntuaciones de las páginas también se actualizan posteriormente, pero确实 (ciertamente) superó en las pruebas de preferencia de usuarios a una serie de modelos closed source que se hicieron famosos antes.
Esto es bastante anormal. Generalmente, la generación de video es una de las direcciones que más consume dinero, datos y potencia de cálculo.
Los grandes fabricantes closed source pueden ocultar los datos, los detalles del modelo, los sistemas de inferencia y la experiencia del producto dentro de su propia plataforma, haciendo iteraciones internas continuas.
Los modelos open source, en cambio, enfrentan más limitaciones现实 (reales): sus parámetros deben poder ser públicos, la inferencia debe poder ejecutarse, la comunidad debe poder reproducirlos, y el efecto还必须 (debe además) resistir las comparaciones横向 (horizontales).
Por eso, antes de que apareciera HappyHorse, la mayoría de los modelos de video open source eran juguetes; los videos que generaban no eran lo suficientemente estables y los personajes a menudo sufrían desplazamientos (drift).
HappyHorse tiene 15 mil millones de parámetros, una arquitectura Transformer de 40 capas con autoatención unificada, y modela conjuntamente los tokens de texto, video y audio en una misma secuencia.
Este enfoque es muy similar al de Qwen, lo que explica por qué Zhang Di sacó HappyHorse en solo 5 meses: es muy probable que reutilizara los métodos de entrenamiento multimodal nativo de alta calidad heredados de Qwen.
Modelos de generación de video no nativamente multimodales como Sora, a menudo presentan problemas como la boca del personaje moviéndose y el sonido yendo con retraso. Y a veces la expresión del personaje es muy rica, pero el tono no es el correcto. El personaje también podría actuar antes de que se emita el sonido.
La razón por la que HappyHorse tiene una puntuación alta es que resolvió este problema mediante multimodalidad nativa.
HappyHorse es nativamente compatible con la sincronización de labios en múltiples idiomas como inglés, mandarín, cantonés, japonés, coreano, alemán, francés, etc. La tasa de error de palabras también se comparó con modelos open source similares.
¿Por qué Zhang Di hizo esto? Mi理解 (entendimiento) es que si Alibaba quiere que esta tecnología de generación de video entre en publicidad, comercio electrónico, series cortas, educación y transmisiones en vivo, no puede depender solo de imágenes bonitas.
Tiene que poder hablar, tener配音 (doblaje), hacer que el sonido y la imagen sean simultáneamente coherentes.
Otro punto clave es el coste y la velocidad.
HappyHorse tarda unos 38 segundos en generar un video 1080p de 5 segundos en una sola GPU H100, y utiliza la tecnología de destilación DMD-2 para comprimir los pasos de eliminación de ruido a 8 pasos.
Este es un obstáculo insuperable para la comercialización de la generación de video. No importa lo bueno que sea el modelo, si el coste de generar un video corto es demasiado alto y la espera es demasiado larga, es difícil que entre en el flujo de trabajo diario de los comerciantes.
Los comerciantes no esperarán medio día por cada producto, ni pagarán costes demasiado altos por docenas de materiales de prueba.
Por lo tanto, el significado de HappyHorse no es solo "poder generar", sino que también intenta comprimir la velocidad de generación y el coste de inferencia a un rango utilizable.
Para los desarrolladores, open source significa que pueden alojarlo por sí mismos, hacer fine-tuning, integrarlo en sus propios productos. Para la plataforma, open source también trae más retroalimentación de la comunidad.
El progreso de un modelo closed source depende principalmente del equipo interno de la empresa; un modelo open source será sometido por los desarrolladores a todo tipo de pruebas extrañas, los problemas se exponen rápidamente y las direcciones de mejora también aumentan.
El campo de video de Artificial Analysis utiliza votaciones de preferencia de usuarios; muchas veces no solo se mira un indicador técnico específico, sino también qué video prefieren los usuarios entre dos.
Por supuesto, Zhang Di aún no puede ser demasiado arrogante; llegar a la cima de la lista una vez no equivale a liderar para siempre.
Los competidores no se quedarán quietos. La victoria de HappyHorse ahora es solo una prueba pública, no toda la guerra.
Si HappyHorse es solo un modelo que puede encabezar listas, su significado es limitado. Pero si puede convertirse en la base de generación de video utilizada conjuntamente por los negocios de Alibaba Cloud y Taotian, se convertirá en una entrada.
Por lo tanto, lo más interesante de que HappyHorse derrote a los gigantes closed source no es solo la领先 (liderazgo) en puntuación. Lo que realmente merece atención es que le permitió a Alibaba encontrar una forma de volver a entrar en la mesa de juego de la generación de video.
No hizo primero una APP para usuarios finales (C端), ni solo hizo demostraciones internas, sino que directamente tomó el modelo open source y lo sometió a la检验 (prueba) de toda la industria.
Esta victoria puede que no dure mucho, pero Zhang Di hizo que el exterior cambiara su juicio sobre Alibaba en los modelos de generación de video.
La nueva pregunta se convirtió en: ¿dónde planea Alibaba utilizar esta capacidad?
03 El significado de HappyHorse para Alibaba
El punto de aplicación más directo de HappyHorse es el comercio electrónico.
En el pasado, cuando se hablaba de video de IA, lo más fácil era pensar en cine, series cortas, anuncios espectaculares, herramientas para creadores. Ciertamente, estos son mercados grandes y reales, pero están a cierta distancia del negocio principal de Alibaba.
La ventaja de Alibaba no está en hacer su propia comunidad de video, ni en que los usuarios comunes abran una APP de video de IA todos los días para pasar el tiempo. El lugar donde Alibaba realmente tiene ventaja es que tiene la concentración más densa de China de productos, comerciantes, sistemas de transacción y publicidad.
Por eso mucha gente se preocupa de que HappyHorse naciera en el "Laboratorio de Vida Futura" del Grupo Taotian.
Taotian se enfrenta diariamente a cómo venden los comerciantes, cómo se ven los productos, por qué hacen clic los usuarios y por qué realizan pedidos. Al colocar HappyHorse aquí, naturalmente la gente piensa: ¿puede mejorar la eficiencia de producción de contenido de productos? ¿Puede mejorar la conversión? ¿Puede ayudar a la plataforma a hacer más negocios?
Para un comerciante普通 (ordinario), el contenido de video siempre ha sido un problema.
Para grabar un video de producto de 30 segundos, necesitas encontrar un escenario, un modelo, iluminación, edición,配音 (doblaje). Las grandes marcas pueden contratar un equipo; los pequeños y medianos comerciantes la mayoría de las veces tienen que arreglárselas solos.
Muchos puntos de venta de productos no son complejos; el problema es que nadie los graba. Parecen muy普通 (ordinarios) sobre un fondo blanco; una vez que entran en un escenario concreto, los usuarios se dan cuenta de para qué pueden usarse.
Hace un tiempo en el extranjero, la bomba de fuentes solar se vendió como loco. Originalmente era solo un accesorio pequeño para jardines, y su efecto era más o menos así. Pero después de ser empaquetada en videos de IA como baños para pájaros, estanques de peces y juguetes de agua con fuentes geniales en bañeras infantiles, todos se volvieron locos por comprarla.
La IA no cambió el producto en sí, pero sí la forma en que los usuarios lo entienden. Transformó la "descripción de funciones" en "escenario de uso".
Esto正好 (justo) golpea el punto doloroso del contenido de comercio electrónico.
Si la página del producto está llena de parámetros, es posible que el usuario no tenga paciencia para leerla; si el presentador habla durante mucho tiempo, es posible que el usuario no lo crea. Pero un video de十几秒 (diez y pocos segundos), si puede aclarar el escenario, la eficiencia de conversión puede ser mucho mayor.
Lo más importante es que el video de IA se puede generar por lotes. Los comerciantes pueden generar versiones infantiles, familiares, festivas, al aire libre para un mismo producto, o也可以 (también pueden) generar不同 (diferentes) idiomas,不同 (diferentes) personajes,不同 (diferentes) escenarios para不同 (diferentes) países.
Esto tiene un significado para Alibaba mayor que simplemente hacer una herramienta de generación de video. Tanto Taobao como Tmall tienen una gran cantidad de comerciantes, y también una gran cantidad de datos de productos y retroalimentación de transacciones.
Si una herramienta de video de IA solo sabe generar imágenes bonitas, pronto se convertirá en un software de material; si puede saber en qué escenario es más probable que se haga clic en este producto, qué copywriting es más likely que带来 (traiga) añadir al carrito, qué primeros segundos del video son más likely que retengan al usuario, se acercará a ser parte de un sistema operativo de comercio electrónico.
Lo que Alibaba tiene de más compared con otras empresas de modelos de generación de video es precisamente este ciclo de retroalimentación cerrado.
Imágenes de productos, páginas de detalles, evaluaciones, preguntas y respuestas, palabras de búsqueda, tasa de clics, tasa de añadido al carrito, motivos de devolución, tiempo de permanencia en la transmisión en vivo... estas cosas parecen fragmentadas, pero son todo combustible para entrenar la capacidad de contenido de comercio electrónico.
Si HappyHorse se conecta a esta retroalimentación, puede evolucionar de "ayudar a los comerciantes a generar un video" a "ayudar a los comerciantes a generar un video con más probabilidades de vender".
Para Taotian, puede hacer videos de imagen principal, cortometrajes de escenarios de productos, fragmentos de transmisiones en vivo, presentadores virtuales y material de marketing.
En el pasado, cuando un comerciante lanzaba un nuevo producto,可能 (posiblemente) solo subía unas pocas imágenes, como mucho grababa un video corto tosco. En el futuro, puede entregar al sistema la imagen del producto, los puntos de venta, las evaluaciones y las etiquetas de audiencia, dejar que el sistema genere múltiples versiones de videos, y luego usar datos reales de投放 (colocación/publicidad) y成交 (transacción) para筛选 (filtrar) y seleccionar el más efectivo.
Si este proceso funciona sin problemas, la oferta de contenido de la plataforma aumentará significativamente, y el umbral de contenido para los pequeños y medianos comerciantes también disminuirá.
Sin embargo, la venta de videos de IA también conlleva riesgos. Puede放大 (amplificar) los puntos de venta, pero también puede放大 (amplificar) las ilusiones. Una bomba de fuentes en un video de IA喷 (chorrea) muy alto, pero en la realidad no alcanza ese efecto.
La oportunidad de Alibaba no debería ser permitir que los comerciantes sueñen con la IA; el enfoque debe estar en los parámetros del producto, el material fotografiado en实拍 (situación real), las evaluaciones de compradores y la审核 (revisión) de la plataforma, para que el contenido generado tenga límites.
A finales de marzo, OpenAI anunció el cierre de la aplicación independiente Sora y sus API的相关 (relacionadas). La razón es现实 (real): la generación de video consume demasiado dinero, la retención de usuarios no puede sostener el coste, OpenAI debe devolver la potencia de cálculo a la codificación, servicios empresariales y robótica.
Sora cayó en la cuenta comercial.
ByteDance también se encontró con problemas en otro frente. Aunque Seedance 2.0 también tiene un efecto impresionante, debido a problemas de derechos de autor, ByteDance suspendió el lanzamiento global de Seedance 2.0.
Cuanto más fuerte se entrena el modelo, más容易 (fácil) es caer en el pantano de los derechos de autor, derechos de imagen y datos de entrenamiento.
Al ver ahora a HappyHorse, creado por el equipo de Zhang Di, tiene un escenario comercial. Y el material del que dispone Alibaba – imágenes de productos, material de comerciantes, videos reales y retroalimentación de transacciones – es天然 (naturalmente) más suitable para una generación controlada que la propiedad intelectual cinematográfica.
Por lo tanto, el valor de HappyHorse no está solo en la lista. Le encontró un punto de aterrizaje más estable al video de IA.







