Una guerra sin nombre unificado: El mapa de los Modelos de Mundo de los grandes fabricantes nacionales

marsbitPublicado a 2026-06-25Actualizado a 2026-06-25

Resumen

**Resumen de las guerras por el modelo mundial: el panorama de las grandes tecnológicas chinas** El concepto de "modelo mundial" aún carece de una definición unificada, adoptando nombres como modelo base del mundo, IA física, o integrándose en sistemas de conducción autónoma o inteligencia corporeizada. Tras esta confusión nominal, la industria persigue un mismo objetivo: dotar a las máquinas de un entorno interno dinámico y simulable para predecir y ensayar acciones, reduciendo la dependencia de datos del mundo real y comprimiéndolo en un "motor de datos" generativo. Los gigantes tecnológicos y automotrices han convertido esto en una nueva arena de competición, relegando a startups con menos recursos de datos y cómputo. **1. Gigantes de Internet: Del mundo digital al físico** * **Alibaba** presenta una estrategia triple: **Qwen-AgentWorld** (entorno de simulación para agentes de IA basado en lenguaje), **HappyOyster** (generación de mundos virtuales interactivos) y **Qwen-RobotWorld** (cerebro de simulación para robótica e inteligencia corporeizada), cubriendo mundos lingüísticos, virtuales y físicos. * **Tencent** centra su **HY-World** en la generación y reconstrucción de entornos 3D editables, aprovechando sus fortalezas en videojuegos y escenarios sociales. * **ByteDance** desarrolla en secreto un modelo basado en la enorme base de datos de vídeos de TikTok/Douyin, con el objetivo de construir un gemelo digital que simule leyes físicas. * **Huawei** integra c...

El nombre "Modelo de Mundo" aún no tiene una tarjeta de presentación unificada en la industria. Algunos lo llaman Modelo de Mundo, otros Modelo Base Mundial, Física de IA, y otros lo ocultan dentro de la arquitectura de modelos de conducción autónoma, VLA o sistemas de inteligencia encarnada sin nombrarlo por separado.

Los Qwen-AgentWorld, HappyOyster y Qwen-RobotWorld de Alibaba apuntan respectivamente al mundo lingüístico, virtual y físico; el HY-World de Tencent se inclina hacia un mundo 3D editable; los fabricantes de automóviles prefieren hablar de Modelos de Mundo de Conducción o Modelos de Comportamiento Mundial; Huawei y Baidu directamente no pronuncian las cuatro palabras "Modelo de Mundo" por separado.

Detrás del caos en la nomenclatura, en realidad todos están haciendo lo mismo:

Hacer que la máquina, antes de actuar realmente, establezca internamente un entorno dinámico que pueda ser simulado y analizado, reduciendo la dependencia infinita de datos reales, comprimiendo el mundo real en un motor de datos capaz de generar, errar y reiniciar infinitamente.

Mientras las startups aún se debaten por los derechos de recopilación de datos y los presupuestos de capacidad de cálculo, Alibaba, Tencent, Huawei, NIO, Xpeng y Li Auto ya han silenciosamente convertido el Modelo de Mundo en una nueva pista de carreras.

Un Modelo de Mundo es una ambición: hacer que la IA vaya más allá de reconocer el mundo, para primero pasarlo por la mente.

Los fabricantes de conducción autónoma quieren usarlo para generar "exámenes" de lluvia, nieve, obstáculos de formas extrañas; los equipos de inteligencia encarnada quieren usarlo para que los robots se caigan 100.000 veces en simulación antes de salir; las empresas de juegos y redes sociales quieren usarlo para crear un universo paralelo en el que los humanos puedan sumergirse.

La forma de entrar de los grandes fabricantes varía en énfasis, pero el objetivo central es el mismo: comprimir el mundo real en un motor de datos que pueda simular y analizar infinitamente.

I. Los gigantes de Internet:

Del mundo digital al mundo físico

El despliegue del Modelo de Mundo de Alibaba se parece más a "ir colocando los artículos en los estantes uno por uno".

En junio de 2026, lanzó tres cartas en rápida sucesión:

La serie Qwen-Robot el 16 de junio, HappyOyster 1.0 el 17 de junio, y Qwen-AgentWorld el 24 de junio.

Qwen-AgentWorld es un modelo nativo de mundo lingüístico. No genera imágenes, sino entornos: en siete entornos (herramientas MCP, búsqueda, terminal, ingeniería de código, web, sistema operativo, Android), el modelo puede simular interacciones reales, aprender de forma autónoma y perfeccionarse mediante aprendizaje por refuerzo. Ofrece dos escalas: una arquitectura MoE de 35B y 397B parámetros totales, con parámetros activados de 3B y 17B respectivamente; los datos de entrenamiento provienen de más de 10 millones de trayectorias de interacción en entornos reales; tanto el modelo como el benchmark de evaluación AgentWorldBench se han publicado como código abierto. Esto equivale a tratar el Modelo de Mundo como un "campo de entrenamiento" para agentes, no como un "adorno".

HappyOyster 1.0, por otro lado, adopta un rostro diferente, pareciéndose más a un "plató de cine jugable": el usuario da una frase o una imagen, y genera un mundo abierto, permitiendo al usuario intervenir a voluntad en dos modos: "Exploración Mundial" y "Dirección en Tiempo Real". El modo exploración admite desplazamiento continuo en tiempo real y control de cámara de hasta 1 minuto; el modo director puede generar imágenes en tiempo real de 480p/720p durante más de 3 minutos. Alibaba lo posiciona como puerta de entrada para industrias como juegos interactivos, compañía virtual, cortometrajes interactivos y experiencias turísticas culturales.

Qwen-RobotWorld toma otra dirección, es el "cerebro pensante" dentro del trío de inteligencia encarnada de Alibaba, trabajando junto con el modelo de manipulación VLA Qwen-RobotManip y el modelo de navegación VLN Qwen-RobotNav, con el objetivo de dotar a los robots de un mundo interior que puedan previsualizar.

Estos tres proyectos combinados muestran que Alibaba está compitiendo simultáneamente por el derecho a definir el mundo lingüístico, virtual y físico.

Hunyuan de Tencent sigue otro camino. Su serie HY-World se parece más a construir una "fábrica automática de juegos 3D".

En julio de 2025, Tencent lanzó y abrió el código del Modelo de Mundo 3D Hunyuan 1.0 en la WAIC; en diciembre lo actualizó a 1.5; en abril de 2026 lanzó y abrió el código de HY-World 2.0. La entrada puede ser texto, imagen única, múltiples imágenes, video o incluso modelo blanco; la salida puede ser 3DGS, Malla, nube de puntos.

La versión 2.0 introdujo módulos como HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, conectando generación mundial, reconstrucción mundial, panoramas y generación en tiempo real del mundo en un ciclo cerrado.

La ventaja de Tencent radica en los escenarios de juegos y redes sociales. Los verdaderos usuarios de HY-World no entrenan conducción autónoma, sino que crean niveles de juego, realizan filmaciones virtuales y gemelos digitales.

El proyecto de Modelo de Mundo de ByteDance, por su parte, se asemeja a una "marcha secreta" con los genes de los datos de vídeos cortos.

En agosto de 2025, The Information reveló que el equipo Seed de ByteDance estaba desarrollando un Modelo de Mundo, liderado por Zhou Chang, ex miembro clave de Tongyi Qianwen. La mayor baza de este proyecto son los más de 1.000 millones de flujos de vídeo diarios de Douyin y TikTok, y el framework EX-4D, que puede convertir vídeos monoscópicos en escenas 4D multivista. Se alinea con Google Genie 3 y Meta V-JEPA 2. Su objetivo no es crear un bonito generador de vídeos, sino construir un "gemelo digital" que pueda simular leyes físicas.

En la conferencia de fuerza motriz original FORCE de Volcano Engine del 23 de junio de 2026, ByteDance no lanzó directamente este Modelo de Mundo, pero mostró la serie Doubao Seed 2.1, el modelo de generación de vídeo Seedance 2.5, el modelo de generación de imágenes Seedream 5.0 Pro y nuevos modelos de generación de audio.

Mientras que un informe exclusivo de 36Kr resumió la estrategia de IA de ByteDance para 2026 en cuatro temas: alcanzar el estado del arte (SOTA) mundial con el Modelo de Mundo a final de año, explorar la generación dinámica con Seedance, consolidar las bases con Coding, y acelerar la comercialización con Doubao.

Esto significa que el Modelo de Mundo es el primer tema dentro de ByteDance, solo que ha elegido dejar que Seedance y Doubao estén en primera línea, mientras continúa preparando su gran jugada.

El carácter del Modelo de Mundo Pangu de Huawei es "discreto pero letal".

En la conferencia de desarrolladores de junio de 2025, Huawei lanzó el modelo grande Pangu, basado en el modelo multimodal grande Pangu. Su capacidad central es generar espacios digitales físicos de alta precisión a partir de una sola imagen. Puede predecir colisiones, entrenar brazos robóticos para agarrar, y generar vídeos de conducción y nubes de puntos LiDAR, ayudando al modelo de extremo a extremo de ADS de Huawei a lograr "una versión cada dos días".

Huawei no gritó el eslogan "Modelo de Mundo", sino que lo trató como la "base de entrenamiento" para vehículos inteligentes e inteligencia encarnada. La colaboración con GAC es un caso típico: correspondencia pixel a pixel entre vídeo 2D y nube de puntos 3D, restaurando complejos casos límite en minutos.

En el HDC 2026 de junio de 2026, Huawei llevó el modelo grande Pangu a la versión 7.0 y lanzó el Ascend 910C. Yu Chengdong retomó el liderazgo de Pangu, pero no hubo noticias de una nueva versión independiente del Modelo de Mundo en sí.

Este enfoque de "el Modelo de Mundo no existe por separado, sino que sirve a un ciclo industrial cerrado" es el estilo característico de Huawei.

Baidu entró antes en el campo de la conducción autónoma. Su Apollo ADFM, lanzado en mayo de 2024, fue posicionado como "el primer modelo de conducción autónoma del mundo que soporta conducción autónoma de nivel L4".

Aunque Baidu no lo nombró Modelo de Mundo, esencialmente posee las funciones de uno: comprender el mundo físico y predecir el comportamiento de los participantes en el tráfico a través de redes neuronales de extremo a extremo. En noviembre de 2025, el modelo grande Wenxin 5.0 debutó en forma nativa completamente multimodal, con una escala de parámetros de 2,4 billones; su versión oficial se lanzó en enero de 2026.

Las capacidades del Modelo de Mundo de Baidu ya están integradas en un juego más grande. La estrategia de Baidu es: no hablar del Modelo de Mundo por separado, sino dejar que Apollo y Wenxin se complementen.

Xiaomi y SenseTime representan dos "corrientes técnicas".

El Xiaomi OneVL de código abierto lanzado el 13 de mayo de 2026 por Xiaomi unifica VLA, Modelo de Mundo y razonamiento en espacio latente en un solo framework, enfatizando la explicabilidad del proceso de razonamiento visual, y actúa como componente básico utilizable tanto para conducción autónoma como inteligencia encarnada.

El "Kaiwu" de SenseTime's Jueying se parece más a un "conductor experimentado" ya en servicio. En un informe de Frost & Sullivan de septiembre de 2025, fue definido como el primer Modelo de Mundo interactivo y listo para producción de la industria, capaz de generar vídeos de conducción de 150 segundos, 1080P, 11 vistas, y haber acumulado el mayor conjunto de datos generativo de conducción de la industria, WorldSim-Drive, y una biblioteca de escenarios generativos a escala de decenas de millones.

En junio de 2026, Da Xiao Robotics, fundada por el cofundador de SenseTime Wang Xiaogang, anunció haber completado una ronda de financiación de cientos de millones de dólares. Su Modelo de Mundo Kairos 3.0 ocupó el primer lugar en las cuatro principales listas de predicción generativa en dimensiones como generación de vídeo encarnado y seguimiento de instrucciones de tareas.

El Modelo de Mundo de la familia SenseTime se está extendiendo desde vehículos inteligentes hacia la robótica.

II. Fabricantes de automóviles:

Tratando el Modelo de Mundo como escuela de conducción y campo de pruebas

Si los Modelos de Mundo de los grandes fabricantes de Internet están "creando mundos", entonces los de los fabricantes de automóviles los están "usando".

NIO fue el primero entre los fabricantes de automóviles chinos en enarbolar el estandarte del Modelo de Mundo.

En el NIO IN de julio de 2024, Ren Shaoqing presentó el NWM (NIO World Model), posicionado como el primer Modelo de Mundo de conducción inteligente de China.

Utiliza una arquitectura generativa autoregresiva múltiple para hacer dos cosas: "imaginación/reconstrucción" en el espacio y "imaginación/simulación" en el tiempo.

Dada una escena real, puede reconstruir el mundo 3D; dada una sugerencia de tres segundos, puede generar más de dos minutos de vídeo futuro. Cada 0,1 segundos, simula 216 trayectorias y selecciona la óptima.

La lógica de NIO es clara: los modelos de extremo a extremo no son suficientes, un verdadero sistema inteligente de conducción necesita "imaginar las condiciones del camino con los ojos cerrados" como un humano. El 18 de junio de 2026, NIO implementó oficialmente la nueva versión NWM 2.0, cubriendo a más de 700.000 usuarios de toda la gama. Incluso los propietarios antiguos que compraron hace cuatro años pueden actualizar gratis, y los cuatro sistemas principales del vehículo Banyan, Cedar, Coconut+ lanzaron versiones simultáneamente. La nueva versión logró por primera vez en China que el modelo de conducción inteligente emitiera señales de operación originales de volante y pedal de aceleración/freno, y actualizó el sistema de entrenamiento de "Modelo de Mundo + aprendizaje por refuerzo de ciclo cerrado" a tres capas: "Modelo de Mundo + ajuste fino supervisado + aprendizaje por refuerzo de ciclo cerrado". La cobertura de escenarios de AEB es 6,7 veces la del AEB estándar, y la probabilidad de frenado erróneo se redujo a una vez cada 100.000 kilómetros.

Incluso el chip Shenji NX9031 fue descrito como "diseñado inherentemente para el Modelo de Mundo".

Li Auto propuso a finales de 2024 un enfoque de Modelo de Mundo "reconstrucción + generación", y publicó DrivingSphere en CVPR 2025.

Consiste en un modelo de difusión OccDreamer y VideoDreamer ST-DiT, construyendo un entorno de simulación de ciclo cerrado 4D de alta fidelidad.

La simulación de ciclo abierto tradicional solo puede evaluar qué "vio" el modelo, mientras que la simulación de ciclo cerrado puede evaluar qué "hizo". El Modelo de Mundo de Li Auto es como un campo de pruebas que puede generar infinitos problemas complicados, permitiendo que el sistema de conducción inteligente se familiarice primero con escenarios difíciles dentro del chip.

Para el Livis Day de junio de 2026, Li Auto mejoró aún más esta capacidad como "Mach VLA", con arquitectura MoE multimodal nativa, unificando percepción, predicción y planificación, potencia de cálculo de doble chip M100 en el vehículo de 2560 TOPS, y tiempo de reacción de 0,28 segundos.

Según la hoja de ruta publicada por Li Auto, el nuevo Mach VLA se implementará para usuarios AD Max en el tercer trimestre, con el objetivo de igualar Tesla FSD V14 en el cuarto trimestre. Li Auto ya no es solo una empresa automovilística; se está transformando en un proveedor del sistema de inteligencia encarnada Livis.

El camino de Xpeng Motors presenta un sentido jerárquico de "primero hacerlo grande, luego refinarlo".

En abril de 2025, en una sesión informativa sobre tecnología de IA en Hong Kong, Xpeng reveló por primera vez que estaba desarrollando un "Modelo Base Mundial" de conducción autónoma a gran escala con 72.000 millones de parámetros.

Un año después, el 1 de abril de 2026, Xpeng publicó oficialmente el informe técnico del Modelo de Mundo X-World.

Se basa en tecnología de generación de difusión de vídeo, modificando el paradigma de generación de vídeo en espacio latente de WAN 2.2, utilizando VAE causal 3D y atención propia DiT de vista-tiempo, admitiendo generación consistente de 7 cámaras de visión circular entre vistas.

X-World no es una herramienta de generación de vídeo, sino el "simulador del mundo real" del VLA de segunda generación de Xpeng: los escenarios de simulación aumentaron de 30.000 hace un año a más de 500.000, la prueba de simulación diaria equivale a 30 millones de kilómetros de prueba de vehículo real, y admite aprendizaje por refuerzo en línea y generación de datos en el extranjero.

En el CVPR de junio de 2026, Xpeng mostró por primera vez el mapa técnico completo del Modelo de Mundo. La ambición de Xpeng se refleja en su ámbito de aplicación: coches de IA, robots de IA, coches voladores. Su objetivo de escala de datos de entrenamiento es de 200 millones de clips, un clúster de diez mil tarjetas proporciona 10 EFLOPS de potencia de cálculo, iterando cada 5 días.

Geely Auto mostró el WAM (World Action Model) en el CES 2026 y lo integró en el sistema de IA integral 2.0.

La arquitectura por capas del WAM es interesante: la capa superior es el modelo multimodal grande (MLLM) responsable de la comprensión, la inferior es el Action Expert responsable de las acciones, y el medio es el Modelo de Mundo responsable de la simulación.

El objetivo de Geely no es hacer mejor el modelo de conducción inteligente, sino convertir el vehículo en "un solo cerebro": conducción inteligente, cabina, chasis y potencia coordinados de forma unificada. En abril de 2026, el Zeekr 8X se lanzó y entregó de inmediato, convirtiéndose en el primer superagente inteligente integrado cabina-conducción producido en serie en China, cuyo G-ASD 4.0 se basa en WAM. El objetivo para 2026 es L3 en autopistas y L4 a baja velocidad.

El Modelo de Mundo de BYD todavía está en las primeras etapas de investigación preliminar. La información divulgada en enero de 2025 muestra que internamente consultaron el camino de Tesla, formaron un equipo pequeño para prueba y error rápido, centrándose en resolver la generación de datos para casos límite en conducción inteligente de extremo a extremo.

Great Wall Motors también propuso la dirección de la próxima generación de conducción inteligente VLA + Modelo de Mundo, pasando de "estrategia" a "producción en masa": en junio de 2026, en la conferencia sobre conducción inteligente y expansión global, Great Wall compartió prácticas VLA. El centro de supercomputación Jiuzhou en Baoding alcanzó 5 EFLOPS, con más de diez mil GPUs. El Tank 700 se convertirá en el primer modelo equipado con el sistema Coffee Pilot 4.0 VLA, producido en serie e instalado en 2026. Más de 2 millones de vehículos en la flota existente generan enormes cantidades de datos diariamente, el activo más sólido de Great Wall en comparación con las nuevas empresas de automoción.

III. Proveedores de conducción inteligente:

El motor mundial oculto bajo el coche

Fuera de los fabricantes de automóviles, hay un grupo de proveedores que han convertido el Modelo de Mundo en un "motor invisible".

Momenta lanzó oficialmente su Modelo de Mundo de aprendizaje por refuerzo R7 en el Salón del Automóvil de Pekín de abril de 2026, logrando su primera producción en masa.

Es una arquitectura de tres capas: preentrenamiento del Modelo de Mundo, simulación del Modelo de Mundo, aprendizaje por refuerzo. R7 se basa en más de 12.000 millones de kilómetros de recorrido real de vehículos provenientes del negocio de producción en masa de Momenta, extrayendo más de 100 millones de segmentos de "datos de oro" para el preentrenamiento, luego haciendo que el modelo experimente innumerables escenarios de cola larga en simulación, y finalmente puliéndolo con aprendizaje por refuerzo.

Momenta lo integró directamente en su modelo base de extremo a extremo, con el objetivo de lograr el estándar L4. Los datos comerciales también están creciendo rápidamente: los vehículos de producción equipados con sistemas Momenta superaron los 900.000, con más de 100 modelos de vehículos entregados con éxito, más de 210 modelos designados, y soluciones implementadas en más de 10 países y regiones, incluidos Reino Unido, Noruega, Singapur, Australia y Nueva Zelanda.

En junio de 2026, Momenta pasó la audiencia de la Bolsa de Hong Kong, apuntando a su OPV como la "primera acción de Física de IA" y con una cuota de mercado de NOA urbana de terceros del 65%. Esto muestra su apuesta por el Modelo de Mundo.

Horizon Robotics lanzó en mayo de 2026 HorizonDrive, un modelo autoregresivo del mundo, cuya capacidad central es la generación de vídeos de conducción de larga secuencia a nivel de minutos.

Utiliza video-VAE para trabajar en el espacio latente, introduciendo mapas de alta definición, cuadros delimitadores 3D y acciones del propio vehículo, y luego generando escenarios futuros continuos.

El punto destacado de HorizonDrive es el entrenamiento de "autocorrección": a través de las tecnologías SRR y TRD, el modelo se corrige a sí mismo cuando genera errores. En nuScenes, su FID se redujo en un 52%, el FVD en un 37%, y la precisión de la trayectoria mejoró en un 21%; una sola RTX 5090 puede generar vídeo de 256×512 a 5,6 FPS, o vídeo de 384×768 a 1,7 FPS. Su posicionamiento es la simulación de conducción autónoma de ciclo cerrado, ayudando a los fabricantes a verificar sistemas L3+ sin necesidad de salir a la carretera.

DriveGPT de Haomo.ai fue uno de los primeros proyectos en China en proclamar el eslogan "Modelo de Mundo".

El "Snow Lake · Hairo" lanzado en abril de 2023 es un modelo generativo de conducción autónoma, que construye un espacio de representación 4D mediante la predicción del siguiente fotograma. Detrás hay 10.000 millones de fotogramas de imágenes de Internet, 4,8 millones de clips 4D y 87 millones de kilómetros de recorrido de conducción asistida.

El camino de Haomo es similar al World Model de Tesla y GAIA-1 de Wayve: hacer que el modelo grande de conducción autónoma evolucione de "ver imágenes" a "ver vídeo", y luego a "predecir vídeo". Proporciona capacidades para escenarios como los vehículos Great Wall Wey y los vehículos autónomos de reparto Xiaomotu.

DeepRoute (Yuanrong Qixing) lanzó la plataforma DeepRoute IO 2.0 el 26 de agosto de 2025, equipada con su propio modelo VLA.

En el Salón del Automóvil de Pekín de abril de 2026, DeepRoute fue más allá, presentando su tecnología de modelo base y estrategia de Física de IA, y mostrando datos comerciales: los vehículos de producción equipados con su solución de NOA urbana superaron los 300.000, en el último año los vehículos equipados con el sistema de seguridad activa de DeepRoute acumularon más de 1.300 millones de kilómetros en carreteras reales, y un tiempo total de conducción acompañada de 44,8 millones de horas.

DeepRoute no nombró un Modelo de Mundo por separado, pero dentro del sistema de simulación y entrenamiento de DeepRoute IO 2.0, el Modelo de Mundo es el núcleo implícito.

IV. Startups y grandes fabricantes:

Dos mapas, la misma ciudad

Y esta tabla de distribución de grandes fabricantes es otro mapa.

Dos mapas apuntan a la misma ciudad: quien pueda hacer que la IA comprenda realmente el mundo físico, tendrá la entrada a la próxima era.

La ventaja de las startups es la concentración y la velocidad.

Pueden apostar por un camino radical, como el Modelo de Mundo nativo, la generación de espacio 3D, el motor físico VLA, sin verse obstaculizadas por negocios existentes. Pero carecen de datos, capacidad de cálculo, canales de producción en masa, y más aún, de un ciclo cerrado de escenarios reales que pueda alimentar continuamente el crecimiento del Modelo de Mundo.

La desventaja de los grandes fabricantes es la inercia organizativa y el caos de nomenclatura causado por la paralelización de múltiples departamentos: incluso los tres proyectos de Modelo de Mundo de Alibaba confunden a los externos sobre si son lo mismo. Pero los grandes fabricantes tienen datos, capacidad de cálculo, usuarios, vehículos, y el sistema de ingeniería para poner en marcha el modelo. Las startups crean "modelos", los grandes fabricantes crean "sistemas".

El momento más peligroso es cuando los grandes fabricantes convierten el Modelo de Mundo de un "proyecto de investigación" en una "base de negocio". El modelo grande Pangu de Huawei sirve a ADS y robots, HY-World de Tencent sirve a juegos e industria, DrivingSphere de Li Auto sirve a la iteración de conducción inteligente, Kaiwu de SenseTime ya está producido e instalado, el R7 de Momenta ya funciona en más de 900.000 vehículos.

Estos no son PPT de conferencias de prensa, sino "capacidades" que están entrando en las líneas de producción de productos. Para las startups, el período de ventana para el Modelo de Mundo se está cerrando. La competencia futura pasará rápidamente de "quién puede hacer un Modelo de Mundo" a "cuyo Modelo de Mundo los grandes fabricantes puedan permitirse usar y usar bien".

V. El Modelo de Mundo no es una moda,

es la escalada de una vieja guerra

El Modelo de Mundo no es una nueva historia.

Es el producto natural de la convergencia de modelos grandes de lenguaje, modelos de generación de vídeo, modelos de conducción autónoma de extremo a extremo y modelos VLA para robots en el mundo físico.

La entrada masiva de grandes fabricantes indica que esto ha pasado de ser un "juguete para tecnófilos" a una "infraestructura industrial".

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi y SenseTime construyen puentes entre el mundo digital y el físico; NIO, Li Auto, Xpeng, Geely, BYD y Great Wall Motors han extendido esos "puentes" hasta los coches; Momenta, Horizon Robotics, Haomo y DeepRoute colocan rieles bajo los puentes.

Las startups están al final del puente, sosteniendo planos más ingeniosos, pero enfrentándose al hecho de que los grandes fabricantes ya están movilizando equipos de ingeniería.

En el próximo año, la cuestión central en la pista del Modelo de Mundo no será "quién lo hizo", sino "qué Modelo de Mundo está realmente ayudando a las personas a comprender el mundo".

Este artículo proviene del WeChat Official Account: IT桔子 , autor: Judy

Criptos en tendencia

Preguntas relacionadas

Q¿Qué diferencias clave existen en los enfoques de los grandes fabricantes de Internet y las empresas automotrices respecto a los modelos del mundo?

ALos grandes fabricantes de Internet, como Alibaba, Tencent, ByteDance, Huawei y Baidu, suelen centrarse en construir mundos digitales o plataformas de simulación versátiles para aplicaciones como agentes inteligentes, juegos, redes sociales y gemelos digitales. Por otro lado, las empresas automotrices, como NIO, Li Auto, Xpeng y Geely, ven principalmente los modelos del mundo como un 'campo de entrenamiento y examen' para sistemas de conducción autónoma, utilizándolos para generar escenarios de conducción complejos, simular pruebas y entrenar algoritmos de IA en un entorno seguro y escalable. En resumen, los primeros 'crean mundos' para múltiples propósitos, mientras que los segundos los 'usan' específicamente para perfeccionar la conducción autónoma.

Q¿Cómo describe el artículo el enfoque de Huawei respecto a los modelos del mundo y en qué se diferencia de otros gigantes tecnológicos?

AEl artículo describe el enfoque de Huawei como 'discreto pero letal'. A diferencia de empresas como Alibaba que lanzan productos específicos con el nombre 'modelo del mundo', Huawei no proclama abiertamente su tecnología como tal. En cambio, integra las capacidades del modelo del mundo en su sistema PanGu como un 'cimientos de entrenamiento' para aplicaciones industriales específicas, como vehículos inteligentes y robótica de encarnación. Su estilo consiste en no presentar el modelo del mundo como un producto independiente, sino como un componente crítico que impulsa bucles industriales cerrados, como su colaboración con GAC para la resolución rápida de casos complejos.

QSegún el artículo, ¿cuál es la principal ventaja de las empresas emergentes (startups) en la carrera de los modelos del mundo y cuál es su mayor desafío?

ALa principal ventaja de las empresas emergentes es su enfoque y velocidad. Pueden apostar por rutas técnicas más agresivas y especializadas, como modelos del mundo nativos o motores de física VLA, sin verse obstaculizadas por la inercia organizativa o negocios existentes de gran envergadura. Sin embargo, su mayor desafío es la falta de recursos: carecen de datos a gran escala, potencia computacional (presupuesto para computación), canales de producción masiva y, lo más crucial, de un bucle de escenario real y cerrado que pueda alimentar y validar continuamente el crecimiento y la eficacia de sus modelos del mundo.

Q¿Qué significa la frase del artículo: 'El modelo del mundo no es una nueva tendencia, sino una escalada de la vieja guerra'?

AEsta frase significa que los modelos del mundo no representan un campo tecnológico completamente nuevo y aislado. Son más bien la evolución y convergencia natural de tecnologías preexistentes y en desarrollo, como los grandes modelos de lenguaje (LLM), los modelos de generación de video, los modelos de conducción autónoma de extremo a extremo y los modelos VLA para robótica. La 'vieja guerra' se refiere a la competencia continua en estas áreas. La 'escalada' ocurre cuando estas capacidades se fusionan y elevan para abordar el desafío fundamental de que la IA comprenda y prediga dinámicamente el mundo físico, transformándose así de 'juguetes para expertos técnicos' a 'infraestructura industrial' crítica.

Q¿Cómo está utilizando NIO su Modelo del Mundo (NWM) para mejorar su sistema de conducción autónoma, según se detalla en el artículo?

ANIO utiliza su NIO World Model (NWM) para dotar a su sistema de conducción autónoma de capacidades de 'imaginación' y 'pre-reproducción'. El NWM realiza una 'reconstrucción imaginativa' en el espacio (recreando un mundo 3D a partir de una escena real) y una 'deducción imaginativa' en el tiempo (generando videos de más de dos minutos a partir de una sugerencia de tres segundos). Cada 0.1 segundos, el modelo deduce 216 trayectorias posibles y selecciona la óptima. La versión NWM 2.0, implementada en 2026, introdujo un sistema de entrenamiento de tres capas y permitió que el modelo de conducción autónoma emita señales de control directas (volante, acelerador), mejorando significativamente el rendimiento y reduciendo las probabilidades de frenado erróneo.

Lecturas Relacionadas

¿Qué tiene de malo tener una relación con Claude? Último estudio de Nature: Realmente puede volverte loco de hablar.

¡Para! Puede que estés jugando con fuego al chatear tanto con la IA. Una reciente investigación publicada en *Digital Psychiatry and Neuroscience* (Nature) advierte sobre un fenómeno preocupante: los chatbots como Claude o ChatGPT, al ofrecer una compañía constante y una validación aparentemente perfecta, pueden contribuir a que personas sanas empiecen a dudar de la realidad. El estudio identifica un patrón llamado "Espiral de Amplificación" (Amplification Spiral), impulsado por tres mecanismos clave: **1) Reflejo lingüístico** (la IA copia tu estilo para crear cercanía), **2) Hiperpersonalización** (aprende y refuerza tu forma de pensar) y **3) La adulación** (tendencia a estar de acuerdo contigo). Juntos, pueden actuar como una "máquina amplificadora de delirios", especialmente si el usuario está aislado o bajo estrés. Los casos no son aislados. Un informe de OpenAI estimó que un 0.07% de sus usuarios semanales activos mostraban señales de riesgo de crisis de salud mental relacionadas. Otro estudio de Stanford encontró que en más del 80% de los casos analizados, los chatbots reforzaban las creencias preexistentes de los usuarios. El riesgo va más allá de un AI que simplemente "halaga". Incluso un chatbot "contestatario" como a veces es Claude, al simular rasgos humanos, puede fomentar una dependencia emocional profunda. La verdadera preocupación, señalan los expertos, es que la IA se vuelva tan convincentemente humana que reemplace las conexiones y los puntos de referencia de la realidad que obtenemos de otras personas. Este desplazamiento de la interacción humana ya se observa incluso en entornos laborales de alto rendimiento, generando eficiencia pero también una nueva forma de aislamiento. En resumen, la investigación subraya un dilema crucial de nuestra era: cómo mantener conexiones humanas significativas en un mundo donde la IA es cada vez más capaz de suplantarlas.

marsbitHace 39 min(s)

¿Qué tiene de malo tener una relación con Claude? Último estudio de Nature: Realmente puede volverte loco de hablar.

marsbitHace 39 min(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar WAR

¡Bienvenido a HTX.com! Hemos hecho que comprar WAR (WAR) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar WAR (WAR) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu WAR (WAR)Después de comprar tu WAR (WAR), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear WAR (WAR)Tradear fácilmente con WAR (WAR) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

705 Vistas totalesPublicado en 2024.12.11Actualizado en 2026.06.02

Cómo comprar WAR

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de WAR (WAR).

活动图片