Texto | Letras AI
Según informaciones, el modelo de generación de vídeo Seedance 2.1 de ByteDance se lanzará próximamente, y se espera que su efecto de generación mejore en un 20% con respecto a la versión 2.0. ByteDance declaró a Letras AI que esta información es falsa.
Aunque Seedance 2.1 puede que no se lance próximamente, es cierto que Seedance 2.0 ha ganado mucha popularidad en el extranjero.
La razón es que el fin de semana pasado, un artículo titulado "Chinese AI groups pull ahead of US rivals in video generation race" (Los grupos de IA chinos se adelantan a sus rivales estadounidenses en la carrera de generación de vídeo) se ha vuelto viral en el extranjero.
Tomando como base principal Seedance 2.0 y Kling 3.0, el artículo llega a una conclusión sorprendente: "China no solo está por delante de Estados Unidos en el campo de la generación de vídeo con IA, sino que esta ventaja se mantendrá para siempre".
Esta afirmación suena un poco contraintuitiva y se parece más a un halago a la IA china. Después de todo, en los últimos años, la industria de la IA siempre ha sido Silicon Valley quien lanza primero un producto, y luego aparecen productos similares en China, algo que hemos visto todos.
Pero después de leer las opiniones de los medios extranjeros, me di cuenta de que realmente había pensado de manera demasiado simplista. En el campo de la generación de vídeo con IA en China, realmente estamos por delante de Estados Unidos.
El artículo entrevista específicamente a varios emprendedores estadounidenses de IA y a productores de cine que utilizan tecnología de generación de vídeo con IA, y el resultado es que todos coinciden en que las herramientas de IA de vídeo chinas ya han superado completamente a sus homólogas estadounidenses.
Lo más crucial es que esta ventaja no es una ventaja tecnológica temporal, sino una ventaja integral, desde los datos hasta la aplicación práctica, cada eslabón está por delante.
No solo eso, esta ventaja es del tipo "inabarcable". Es decir, esta posición de liderazgo se mantendrá indefinidamente.
¿Se ha hecho realidad el "liderazgo abrumador"?
¿Por qué la IA china siempre estará por delante de la IA estadounidense?
Un argumento del artículo es que, en el campo de la generación de vídeo con IA, la brecha a nivel algorítmico se está reduciendo rápidamente.
Actualmente, las diferencias en la arquitectura tecnológica entre las empresas ya son "insignificantes". Las rutas tecnológicas subyacentes como Transformer, los modelos de difusión y los mecanismos de atención espacio-temporal ya son relativamente transparentes.
Por lo tanto, la cuestión clave es quién posee datos de entrenamiento de mayor calidad y en mayor cantidad.
Esto choca precisamente con el punto fuerte de ByteDance y Kuaishou. Douyin y Kuaishou son, de por sí, una de las mayores máquinas de producción de vídeo del mundo.
Lo más importante es que estos datos vienen con anotaciones completas del comportamiento del usuario.
Qué vídeos reciben likes, se guardan o se comparten, qué vídeos tienen una alta tasa de reproducción completa, los datos del backend lo muestran claramente.
Además, estas anotaciones no requieren etiquetado manual, son generadas naturalmente por el comportamiento real de los usuarios. Este tipo de datos de alta calidad con anotaciones son algo que ni siquiera se puede comprar fácilmente en el mercado.
En contraste, OpenAI y Anthropic no tienen acumulación de datos de vídeo.
Al lanzar Sora, OpenAI dependía principalmente de datos de vídeo públicos obtenidos mediante rastreo web y de material cinematográfico parcialmente autorizado.
El problema es que los vídeos públicos en Internet suelen ser de calidad desigual, con mucho contenido repetido, de baja calidad e incluso contenido reprocesado con marcas de agua o publicidad.
Por lo tanto, durante el proceso de entrenamiento, a menudo se obtienen resultados mediocres con mucho esfuerzo.
En la plataforma global de evaluación Artificial Analysis, Seedance 2.0 de ByteDance, Kling 3.0 de Kuaishou y HappyHorse de Alibaba, estas tres herramientas chinas, ocupan los primeros puestos en las listas de generación de vídeo a partir de texto e imagen.
Esta lista es generada por votación de usuarios reales, lo que significa que todos consideran que el contenido generado por estas tres IA de vídeo es atractivo.
Aunque Google tiene tanto YouTube como fuente de datos y el modelo de generación de vídeo Veo 3.
El problema de Google radica en que tiene demasiadas restricciones. Además, los vídeos en YouTube suelen superar los 5 minutos de duración, pero las GPU actuales aún no pueden manejar vídeos tan largos y de tan alta definición como datos de entrenamiento, lo que provoca fallos durante el entrenamiento del modelo.
Esto hace que la recepción de Veo 3 en el mercado no haya sido muy buena, siendo inferior a modelos chinos de generación de vídeo con IA como Seedance 2.0 y Kling 3.0.
Ben Chiang, fundador de Director AI, declaró: "Hemos probado la mayoría de los modelos estadounidenses, pero su rendimiento en generación de vídeo no es lo suficientemente bueno". Por eso, actualmente utiliza principalmente herramientas chinas como Kling, Seedance 2.0 y Conch para crear.
El cineasta independiente de IA George Won dijo: "Seedance 2.0 es una herramienta que cambia las reglas del juego. Puede manejar ángulos y velocidades de cámara agresivas sin perder detalles faciales de los personajes o el contraste de luz y sombra. La mayoría de los modelos de IA comienzan a temblar o desviarse durante movimientos rápidos".
Además, esta ventaja de datos permite que el producto se "autorrefuerce".
ByteDance ya ha integrado Seedance 2.0 en herramientas de creación como Jianying, por lo que también recibe diariamente datos de retroalimentación de más de 50 millones de vídeos generados.
De esta manera, ByteDance puede saber "este vídeo satisface al usuario, este otro no".
Cada vez que recibe tal retroalimentación, la dirección de desarrollo del próximo producto Seedance se vuelve un poco más clara.
Este ciclo continuo, a gran escala y en escenarios reales de retroalimentación tampoco es comparable con el entorno de laboratorio de OpenAI o Anthropic.
Incluso con más recursos, es difícil establecer un volante de datos similar en poco tiempo.
La tecnología se puede alcanzar, los algoritmos se pueden imitar, pero la acumulación de ecosistema y datos requiere tiempo, una base de usuarios y un ciclo de producto completo.
Escenarios de aplicación
Para que las empresas desarrollen vídeo con IA, debe haber un "propósito".
La ventaja de datos es solo el punto de partida. Lo que realmente convierte la tecnología en competitividad es encontrar escenarios de aplicación que generen ingresos. Con escenarios de aplicación, las empresas tienen la motivación para desarrollar la generación de vídeo con IA.
En esta dimensión, ByteDance y Kuaishou también superan a la IA estadounidense.
El primer escenario de aplicación a gran escala es el vídeo para comercio electrónico.
En el pasado, el coste de producir un vídeo profesional para un producto alcanzaba varios miles de yuanes. Incluía fotógrafo, iluminador, alquiler de local, gastos de modelo, edición posterior, etc.
Para la mayoría de los pequeños y medianos comerciantes, una tienda común de Taobao puede tener cientos de productos; filmar vídeos para todos costaría al menos varios cientos de miles de yuanes.
La tecnología de generación de vídeo con IA ha cambiado esta situación.
Vincent Yang, CEO de la empresa de infraestructura de vídeo Firework, declaró: "Un minorista nos pidió crear 100.000 vídeos para sus páginas de producto. Sin IA, esto sería completamente inviable en términos de coste. Ahora, cada producto puede tener su propio vídeo, incluso se pueden personalizar múltiples versiones para diferentes clientes".
Los datos muestran que las páginas de producto con vídeo tienen una tasa de conversión entre un 30% y un 80% mayor que las páginas solo con texto e imágenes. Además, Douyin y Kuaishou son, en sí mismos, una de las mayores plataformas de comercio electrónico en directo y venta mediante vídeos cortos en China.
Una vez generado el vídeo con IA, se puede publicar directamente al salir por la puerta.
El modelo HappyHorse de Alibaba también identifica claramente el vídeo para comercio electrónico como su escenario de aplicación central. Admite la generación por lotes de vídeos cortos de exhibición de productos y vídeos de presentación por presentadores virtuales. Un comerciante puede subir imágenes del producto y una descripción textual simple, y el sistema generará automáticamente múltiples versiones de vídeos promocionales, cada una dirigida a diferentes públicos objetivo, utilizando diferentes discursos y formas de presentación.
El segundo escenario es la publicidad.
El ciclo de producción de los anuncios televisivos tradicionales (TVC) es demasiado largo.
Un anuncio de marca de 30 segundos, desde la planificación creativa hasta la filmación y producción, a menudo requiere varias semanas.
Con un modelo de generación de vídeo, se pueden generar docenas de versiones diferentes de ideas publicitarias en minutos.
El tercer escenario son los minidramas.
Los minidramas con IA experimentaron un crecimiento explosivo en 2026. Los datos muestran que en marzo de 2026, el número de minidramas con IA en emisión aumentó un 138% en comparación con enero, superando con creces la velocidad de producción de contenido cinematográfico tradicional.
Mediante la generación de vídeo con IA, un equipo pequeño o incluso un creador individual puede producir un minidrama en unos pocos días.
Y no termina ahí. La plataforma de minidramas Hongguo de ByteDance también ha integrado la función "buscar productos similares mediante imagen".
Esta función es fácil de entender: mientras ves un minidrama, si te interesa la vestimenta de un personaje, los muebles de una escena o un coche aparcado, puedes hacer clic directamente en la imagen, y el sistema recomendará productos similares para comprarlos al instante.
Equivale a convertir el minidrama en un escenario comercial que puede generar conversiones.
En contraste, en el mercado estadounidense, aunque existen plataformas de contenido como Netflix y YouTube, no hay aplicación ni conversión.
Las herramientas de vídeo con IA estadounidenses se quedan más en la fase de experimentación creativa, y su único escenario comercial de aplicación es la suscripción de miembros.
Además, en cuanto a funcionalidad del producto, también son más adecuados los modelos chinos de generación de vídeo para la aplicación comercial.
Seedance 2.0 puede colocar múltiples fotos de material, vídeos y sonido en un mismo vídeo de IA, algo que Sora no puede hacer, ya que solo puede generar vídeos especificando una imagen y texto al modelo.
Esto no se debe a que la tecnología de Sora no sea lo suficientemente buena, sino a que carece de un ecosistema comercial completo para aprovechar estas capacidades técnicas.
La brecha de capacidad de cálculo
Pero la IA de vídeo china también enfrenta un obstáculo insalvable: la capacidad de cálculo.
Los principales actores de IA estadounidenses consideran la capacidad de cálculo como oro, acaparando toda la capacidad de cálculo disponible en el mercado.
Los acuerdos recientes de capacidad de cálculo de Anthropic superan en total los 10 gigavatios.
Esta cifra incluye alquilar toda la capacidad de cálculo del centro de datos SpaceX Colossus 1, que abarca 220,000 GPU de Nvidia; un acuerdo de 5 gigavatios con Amazon; y acuerdos de 3.5 gigavatios con Google y Broadcom.
OpenAI hace lo mismo.
Mediante una colaboración profunda con Microsoft, OpenAI obtuvo acceso a cientos de miles de GPU de gama alta, y Microsoft construyó específicamente múltiples centros de datos a gran escala para OpenAI.
En comparación, aunque las empresas chinas han logrado avances significativos en la optimización de la eficiencia algorítmica, aún existe una brecha en la escala absoluta de capacidad de cálculo.
Según estadísticas de medios extranjeros, la brecha de capacidad de cálculo de IA entre China y EE. UU. era aproximadamente de 3 veces en 2023, y para principios de 2026 se había ampliado a unas 8 veces.
Además de la capacidad de cálculo, la IA china enfrenta otros desafíos.
El primero son los derechos de autor.
Tomando Seedance 2.0 como ejemplo, aproximadamente un mes después de su lanzamiento, seis grandes estudios de Hollywood, incluidos Disney, Warner Bros., Paramount, Skydance y Netflix, enviaron conjuntamente una carta de cese y desistimiento a ByteDance, alegando que Seedance 2.0 había utilizado a gran escala material cinematográfico protegido por derechos de autor sin autorización durante la fase de entrenamiento.
Posteriormente, ByteDance suspendió urgentemente el plan de lanzamiento global de Seedance 2.0 previsto para mediados de marzo.
Si has estado usando Seedance 2.0 desde febrero hasta ahora, notarás que los personajes de propiedad intelectual que antes se podían generar ya no están disponibles, y en su lugar solo se pueden usar imágenes de "personas comunes".
El segundo es que el umbral de comercialización se está elevando.
La IA de generación de vídeo estadounidense, representada por Sora, a menudo rechaza solicitudes de generación debido a sus términos de uso, mientras que las herramientas chinas son más permisivas y también más baratas.
Pero esto también trae "dolores de cabeza felices" a las empresas de IA chinas.
Seedance 2.0 ha experimentado un aumento explosivo en la demanda desde febrero, y algunos usuarios ya han encontrado límites de cuota y tiempos de espera más largos.
Según medios extranjeros, ByteDance ha adoptado un enfoque más comercializado para algunos clientes empresariales estadounidenses, exigiendo un pago anticipado de aproximadamente 2 millones de dólares a cambio de acceso al modelo y cuotas de uso.
La situación es similar en Kuaishou; están separando el negocio de Kling y posiblemente impulsarán su cotización independiente en el futuro.
Esto indica que Kling es un negocio independiente, con una historia de crecimiento más fuerte que la matriz de Kuaishou.
Cuanto mayor sea la historia de crecimiento, más claras deben ser las cuentas.
Sin embargo, el coste del vídeo con IA es algo más alto. El poder de cálculo consumido en segundo plano para generar un vídeo de unos segundos es mucho mayor que para generar un texto.
Cuanto mayor sea la calidad del vídeo generado y mayor su duración, mayor será el coste de inferencia.
Muchos modelos de generación de vídeo son así: al principio son muy baratos, incluso gratuitos, pero una vez que los usuarios acuden en masa, pronto comienzan los límites, las colas de espera y los aumentos de precio.
No es que las empresas no quieran aumentar la capacidad, es que los terratenientes tampoco tienen excedentes.
Por lo tanto, lo que la IA de vídeo china debe enfrentar a continuación no es solo "si puede o no crear un buen modelo", sino "si puede o no convertir un buen modelo en un buen negocio".
Si el precio es demasiado bajo, cuanto más rápido crezcan los usuarios, mayores serán las pérdidas; si el precio es demasiado alto y no hay usuarios, entonces no vale la pena.
El tercero es la brecha generacional en la capacidad del modelo.
En última instancia, la capacidad de generación de vídeo se basa en modelos de lenguaje.
Por muy impresionante que sea un modelo de generación de vídeo, necesita capacidad de comprensión del lenguaje como base para entender las indicaciones del usuario. Luego necesita capacidad de razonamiento para comprender las relaciones lógicas de escenas y personajes, y mantener la coherencia del contenido generado.
Según evaluaciones de medios extranjeros, ChatGPT 5.5 de OpenAI y Mythos de Anthropic llevan una ventaja de 9 meses a 1 año sobre las empresas de IA chinas.
Esta brecha generacional se manifiesta en múltiples aspectos, como la capacidad de razonamiento, la comprensión del contexto, el diálogo de múltiples turnos y el procesamiento de tareas complejas.
Aunque China está por delante de la IA estadounidense en campos verticales como la generación de vídeo con IA, aún se puede sentir una brecha comparativamente notable en los modelos de lenguaje general.
En resumen, el liderazgo de la IA china en el campo de la generación de vídeo es real y tangible, pero no está exento de preocupaciones. La brecha en capacidad de cálculo y modelos base sigue siendo una espada de Damocles. Pero al menos por ahora, finalmente no tenemos que seguir admirando la espalda de Silicon Valley.








