Una guerra sin nombre unificado: El mapa de los Modelos de Mundo de los grandes fabricantes nacionales

marsbit发布于2026-06-25更新于2026-06-25

文章摘要

**Resumen de las guerras por el modelo mundial: el panorama de las grandes tecnológicas chinas** El concepto de "modelo mundial" aún carece de una definición unificada, adoptando nombres como modelo base del mundo, IA física, o integrándose en sistemas de conducción autónoma o inteligencia corporeizada. Tras esta confusión nominal, la industria persigue un mismo objetivo: dotar a las máquinas de un entorno interno dinámico y simulable para predecir y ensayar acciones, reduciendo la dependencia de datos del mundo real y comprimiéndolo en un "motor de datos" generativo. Los gigantes tecnológicos y automotrices han convertido esto en una nueva arena de competición, relegando a startups con menos recursos de datos y cómputo. **1. Gigantes de Internet: Del mundo digital al físico** * **Alibaba** presenta una estrategia triple: **Qwen-AgentWorld** (entorno de simulación para agentes de IA basado en lenguaje), **HappyOyster** (generación de mundos virtuales interactivos) y **Qwen-RobotWorld** (cerebro de simulación para robótica e inteligencia corporeizada), cubriendo mundos lingüísticos, virtuales y físicos. * **Tencent** centra su **HY-World** en la generación y reconstrucción de entornos 3D editables, aprovechando sus fortalezas en videojuegos y escenarios sociales. * **ByteDance** desarrolla en secreto un modelo basado en la enorme base de datos de vídeos de TikTok/Douyin, con el objetivo de construir un gemelo digital que simule leyes físicas. * **Huawei** integra c...

El nombre "Modelo de Mundo" aún no tiene una tarjeta de presentación unificada en la industria. Algunos lo llaman Modelo de Mundo, otros Modelo Base Mundial, Física de IA, y otros lo ocultan dentro de la arquitectura de modelos de conducción autónoma, VLA o sistemas de inteligencia encarnada sin nombrarlo por separado.

Los Qwen-AgentWorld, HappyOyster y Qwen-RobotWorld de Alibaba apuntan respectivamente al mundo lingüístico, virtual y físico; el HY-World de Tencent se inclina hacia un mundo 3D editable; los fabricantes de automóviles prefieren hablar de Modelos de Mundo de Conducción o Modelos de Comportamiento Mundial; Huawei y Baidu directamente no pronuncian las cuatro palabras "Modelo de Mundo" por separado.

Detrás del caos en la nomenclatura, en realidad todos están haciendo lo mismo:

Hacer que la máquina, antes de actuar realmente, establezca internamente un entorno dinámico que pueda ser simulado y analizado, reduciendo la dependencia infinita de datos reales, comprimiendo el mundo real en un motor de datos capaz de generar, errar y reiniciar infinitamente.

Mientras las startups aún se debaten por los derechos de recopilación de datos y los presupuestos de capacidad de cálculo, Alibaba, Tencent, Huawei, NIO, Xpeng y Li Auto ya han silenciosamente convertido el Modelo de Mundo en una nueva pista de carreras.

Un Modelo de Mundo es una ambición: hacer que la IA vaya más allá de reconocer el mundo, para primero pasarlo por la mente.

Los fabricantes de conducción autónoma quieren usarlo para generar "exámenes" de lluvia, nieve, obstáculos de formas extrañas; los equipos de inteligencia encarnada quieren usarlo para que los robots se caigan 100.000 veces en simulación antes de salir; las empresas de juegos y redes sociales quieren usarlo para crear un universo paralelo en el que los humanos puedan sumergirse.

La forma de entrar de los grandes fabricantes varía en énfasis, pero el objetivo central es el mismo: comprimir el mundo real en un motor de datos que pueda simular y analizar infinitamente.

I. Los gigantes de Internet:

Del mundo digital al mundo físico

El despliegue del Modelo de Mundo de Alibaba se parece más a "ir colocando los artículos en los estantes uno por uno".

En junio de 2026, lanzó tres cartas en rápida sucesión:

La serie Qwen-Robot el 16 de junio, HappyOyster 1.0 el 17 de junio, y Qwen-AgentWorld el 24 de junio.

Qwen-AgentWorld es un modelo nativo de mundo lingüístico. No genera imágenes, sino entornos: en siete entornos (herramientas MCP, búsqueda, terminal, ingeniería de código, web, sistema operativo, Android), el modelo puede simular interacciones reales, aprender de forma autónoma y perfeccionarse mediante aprendizaje por refuerzo. Ofrece dos escalas: una arquitectura MoE de 35B y 397B parámetros totales, con parámetros activados de 3B y 17B respectivamente; los datos de entrenamiento provienen de más de 10 millones de trayectorias de interacción en entornos reales; tanto el modelo como el benchmark de evaluación AgentWorldBench se han publicado como código abierto. Esto equivale a tratar el Modelo de Mundo como un "campo de entrenamiento" para agentes, no como un "adorno".

HappyOyster 1.0, por otro lado, adopta un rostro diferente, pareciéndose más a un "plató de cine jugable": el usuario da una frase o una imagen, y genera un mundo abierto, permitiendo al usuario intervenir a voluntad en dos modos: "Exploración Mundial" y "Dirección en Tiempo Real". El modo exploración admite desplazamiento continuo en tiempo real y control de cámara de hasta 1 minuto; el modo director puede generar imágenes en tiempo real de 480p/720p durante más de 3 minutos. Alibaba lo posiciona como puerta de entrada para industrias como juegos interactivos, compañía virtual, cortometrajes interactivos y experiencias turísticas culturales.

Qwen-RobotWorld toma otra dirección, es el "cerebro pensante" dentro del trío de inteligencia encarnada de Alibaba, trabajando junto con el modelo de manipulación VLA Qwen-RobotManip y el modelo de navegación VLN Qwen-RobotNav, con el objetivo de dotar a los robots de un mundo interior que puedan previsualizar.

Estos tres proyectos combinados muestran que Alibaba está compitiendo simultáneamente por el derecho a definir el mundo lingüístico, virtual y físico.

Hunyuan de Tencent sigue otro camino. Su serie HY-World se parece más a construir una "fábrica automática de juegos 3D".

En julio de 2025, Tencent lanzó y abrió el código del Modelo de Mundo 3D Hunyuan 1.0 en la WAIC; en diciembre lo actualizó a 1.5; en abril de 2026 lanzó y abrió el código de HY-World 2.0. La entrada puede ser texto, imagen única, múltiples imágenes, video o incluso modelo blanco; la salida puede ser 3DGS, Malla, nube de puntos.

La versión 2.0 introdujo módulos como HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, conectando generación mundial, reconstrucción mundial, panoramas y generación en tiempo real del mundo en un ciclo cerrado.

La ventaja de Tencent radica en los escenarios de juegos y redes sociales. Los verdaderos usuarios de HY-World no entrenan conducción autónoma, sino que crean niveles de juego, realizan filmaciones virtuales y gemelos digitales.

El proyecto de Modelo de Mundo de ByteDance, por su parte, se asemeja a una "marcha secreta" con los genes de los datos de vídeos cortos.

En agosto de 2025, The Information reveló que el equipo Seed de ByteDance estaba desarrollando un Modelo de Mundo, liderado por Zhou Chang, ex miembro clave de Tongyi Qianwen. La mayor baza de este proyecto son los más de 1.000 millones de flujos de vídeo diarios de Douyin y TikTok, y el framework EX-4D, que puede convertir vídeos monoscópicos en escenas 4D multivista. Se alinea con Google Genie 3 y Meta V-JEPA 2. Su objetivo no es crear un bonito generador de vídeos, sino construir un "gemelo digital" que pueda simular leyes físicas.

En la conferencia de fuerza motriz original FORCE de Volcano Engine del 23 de junio de 2026, ByteDance no lanzó directamente este Modelo de Mundo, pero mostró la serie Doubao Seed 2.1, el modelo de generación de vídeo Seedance 2.5, el modelo de generación de imágenes Seedream 5.0 Pro y nuevos modelos de generación de audio.

Mientras que un informe exclusivo de 36Kr resumió la estrategia de IA de ByteDance para 2026 en cuatro temas: alcanzar el estado del arte (SOTA) mundial con el Modelo de Mundo a final de año, explorar la generación dinámica con Seedance, consolidar las bases con Coding, y acelerar la comercialización con Doubao.

Esto significa que el Modelo de Mundo es el primer tema dentro de ByteDance, solo que ha elegido dejar que Seedance y Doubao estén en primera línea, mientras continúa preparando su gran jugada.

El carácter del Modelo de Mundo Pangu de Huawei es "discreto pero letal".

En la conferencia de desarrolladores de junio de 2025, Huawei lanzó el modelo grande Pangu, basado en el modelo multimodal grande Pangu. Su capacidad central es generar espacios digitales físicos de alta precisión a partir de una sola imagen. Puede predecir colisiones, entrenar brazos robóticos para agarrar, y generar vídeos de conducción y nubes de puntos LiDAR, ayudando al modelo de extremo a extremo de ADS de Huawei a lograr "una versión cada dos días".

Huawei no gritó el eslogan "Modelo de Mundo", sino que lo trató como la "base de entrenamiento" para vehículos inteligentes e inteligencia encarnada. La colaboración con GAC es un caso típico: correspondencia pixel a pixel entre vídeo 2D y nube de puntos 3D, restaurando complejos casos límite en minutos.

En el HDC 2026 de junio de 2026, Huawei llevó el modelo grande Pangu a la versión 7.0 y lanzó el Ascend 910C. Yu Chengdong retomó el liderazgo de Pangu, pero no hubo noticias de una nueva versión independiente del Modelo de Mundo en sí.

Este enfoque de "el Modelo de Mundo no existe por separado, sino que sirve a un ciclo industrial cerrado" es el estilo característico de Huawei.

Baidu entró antes en el campo de la conducción autónoma. Su Apollo ADFM, lanzado en mayo de 2024, fue posicionado como "el primer modelo de conducción autónoma del mundo que soporta conducción autónoma de nivel L4".

Aunque Baidu no lo nombró Modelo de Mundo, esencialmente posee las funciones de uno: comprender el mundo físico y predecir el comportamiento de los participantes en el tráfico a través de redes neuronales de extremo a extremo. En noviembre de 2025, el modelo grande Wenxin 5.0 debutó en forma nativa completamente multimodal, con una escala de parámetros de 2,4 billones; su versión oficial se lanzó en enero de 2026.

Las capacidades del Modelo de Mundo de Baidu ya están integradas en un juego más grande. La estrategia de Baidu es: no hablar del Modelo de Mundo por separado, sino dejar que Apollo y Wenxin se complementen.

Xiaomi y SenseTime representan dos "corrientes técnicas".

El Xiaomi OneVL de código abierto lanzado el 13 de mayo de 2026 por Xiaomi unifica VLA, Modelo de Mundo y razonamiento en espacio latente en un solo framework, enfatizando la explicabilidad del proceso de razonamiento visual, y actúa como componente básico utilizable tanto para conducción autónoma como inteligencia encarnada.

El "Kaiwu" de SenseTime's Jueying se parece más a un "conductor experimentado" ya en servicio. En un informe de Frost & Sullivan de septiembre de 2025, fue definido como el primer Modelo de Mundo interactivo y listo para producción de la industria, capaz de generar vídeos de conducción de 150 segundos, 1080P, 11 vistas, y haber acumulado el mayor conjunto de datos generativo de conducción de la industria, WorldSim-Drive, y una biblioteca de escenarios generativos a escala de decenas de millones.

En junio de 2026, Da Xiao Robotics, fundada por el cofundador de SenseTime Wang Xiaogang, anunció haber completado una ronda de financiación de cientos de millones de dólares. Su Modelo de Mundo Kairos 3.0 ocupó el primer lugar en las cuatro principales listas de predicción generativa en dimensiones como generación de vídeo encarnado y seguimiento de instrucciones de tareas.

El Modelo de Mundo de la familia SenseTime se está extendiendo desde vehículos inteligentes hacia la robótica.

II. Fabricantes de automóviles:

Tratando el Modelo de Mundo como escuela de conducción y campo de pruebas

Si los Modelos de Mundo de los grandes fabricantes de Internet están "creando mundos", entonces los de los fabricantes de automóviles los están "usando".

NIO fue el primero entre los fabricantes de automóviles chinos en enarbolar el estandarte del Modelo de Mundo.

En el NIO IN de julio de 2024, Ren Shaoqing presentó el NWM (NIO World Model), posicionado como el primer Modelo de Mundo de conducción inteligente de China.

Utiliza una arquitectura generativa autoregresiva múltiple para hacer dos cosas: "imaginación/reconstrucción" en el espacio y "imaginación/simulación" en el tiempo.

Dada una escena real, puede reconstruir el mundo 3D; dada una sugerencia de tres segundos, puede generar más de dos minutos de vídeo futuro. Cada 0,1 segundos, simula 216 trayectorias y selecciona la óptima.

La lógica de NIO es clara: los modelos de extremo a extremo no son suficientes, un verdadero sistema inteligente de conducción necesita "imaginar las condiciones del camino con los ojos cerrados" como un humano. El 18 de junio de 2026, NIO implementó oficialmente la nueva versión NWM 2.0, cubriendo a más de 700.000 usuarios de toda la gama. Incluso los propietarios antiguos que compraron hace cuatro años pueden actualizar gratis, y los cuatro sistemas principales del vehículo Banyan, Cedar, Coconut+ lanzaron versiones simultáneamente. La nueva versión logró por primera vez en China que el modelo de conducción inteligente emitiera señales de operación originales de volante y pedal de aceleración/freno, y actualizó el sistema de entrenamiento de "Modelo de Mundo + aprendizaje por refuerzo de ciclo cerrado" a tres capas: "Modelo de Mundo + ajuste fino supervisado + aprendizaje por refuerzo de ciclo cerrado". La cobertura de escenarios de AEB es 6,7 veces la del AEB estándar, y la probabilidad de frenado erróneo se redujo a una vez cada 100.000 kilómetros.

Incluso el chip Shenji NX9031 fue descrito como "diseñado inherentemente para el Modelo de Mundo".

Li Auto propuso a finales de 2024 un enfoque de Modelo de Mundo "reconstrucción + generación", y publicó DrivingSphere en CVPR 2025.

Consiste en un modelo de difusión OccDreamer y VideoDreamer ST-DiT, construyendo un entorno de simulación de ciclo cerrado 4D de alta fidelidad.

La simulación de ciclo abierto tradicional solo puede evaluar qué "vio" el modelo, mientras que la simulación de ciclo cerrado puede evaluar qué "hizo". El Modelo de Mundo de Li Auto es como un campo de pruebas que puede generar infinitos problemas complicados, permitiendo que el sistema de conducción inteligente se familiarice primero con escenarios difíciles dentro del chip.

Para el Livis Day de junio de 2026, Li Auto mejoró aún más esta capacidad como "Mach VLA", con arquitectura MoE multimodal nativa, unificando percepción, predicción y planificación, potencia de cálculo de doble chip M100 en el vehículo de 2560 TOPS, y tiempo de reacción de 0,28 segundos.

Según la hoja de ruta publicada por Li Auto, el nuevo Mach VLA se implementará para usuarios AD Max en el tercer trimestre, con el objetivo de igualar Tesla FSD V14 en el cuarto trimestre. Li Auto ya no es solo una empresa automovilística; se está transformando en un proveedor del sistema de inteligencia encarnada Livis.

El camino de Xpeng Motors presenta un sentido jerárquico de "primero hacerlo grande, luego refinarlo".

En abril de 2025, en una sesión informativa sobre tecnología de IA en Hong Kong, Xpeng reveló por primera vez que estaba desarrollando un "Modelo Base Mundial" de conducción autónoma a gran escala con 72.000 millones de parámetros.

Un año después, el 1 de abril de 2026, Xpeng publicó oficialmente el informe técnico del Modelo de Mundo X-World.

Se basa en tecnología de generación de difusión de vídeo, modificando el paradigma de generación de vídeo en espacio latente de WAN 2.2, utilizando VAE causal 3D y atención propia DiT de vista-tiempo, admitiendo generación consistente de 7 cámaras de visión circular entre vistas.

X-World no es una herramienta de generación de vídeo, sino el "simulador del mundo real" del VLA de segunda generación de Xpeng: los escenarios de simulación aumentaron de 30.000 hace un año a más de 500.000, la prueba de simulación diaria equivale a 30 millones de kilómetros de prueba de vehículo real, y admite aprendizaje por refuerzo en línea y generación de datos en el extranjero.

En el CVPR de junio de 2026, Xpeng mostró por primera vez el mapa técnico completo del Modelo de Mundo. La ambición de Xpeng se refleja en su ámbito de aplicación: coches de IA, robots de IA, coches voladores. Su objetivo de escala de datos de entrenamiento es de 200 millones de clips, un clúster de diez mil tarjetas proporciona 10 EFLOPS de potencia de cálculo, iterando cada 5 días.

Geely Auto mostró el WAM (World Action Model) en el CES 2026 y lo integró en el sistema de IA integral 2.0.

La arquitectura por capas del WAM es interesante: la capa superior es el modelo multimodal grande (MLLM) responsable de la comprensión, la inferior es el Action Expert responsable de las acciones, y el medio es el Modelo de Mundo responsable de la simulación.

El objetivo de Geely no es hacer mejor el modelo de conducción inteligente, sino convertir el vehículo en "un solo cerebro": conducción inteligente, cabina, chasis y potencia coordinados de forma unificada. En abril de 2026, el Zeekr 8X se lanzó y entregó de inmediato, convirtiéndose en el primer superagente inteligente integrado cabina-conducción producido en serie en China, cuyo G-ASD 4.0 se basa en WAM. El objetivo para 2026 es L3 en autopistas y L4 a baja velocidad.

El Modelo de Mundo de BYD todavía está en las primeras etapas de investigación preliminar. La información divulgada en enero de 2025 muestra que internamente consultaron el camino de Tesla, formaron un equipo pequeño para prueba y error rápido, centrándose en resolver la generación de datos para casos límite en conducción inteligente de extremo a extremo.

Great Wall Motors también propuso la dirección de la próxima generación de conducción inteligente VLA + Modelo de Mundo, pasando de "estrategia" a "producción en masa": en junio de 2026, en la conferencia sobre conducción inteligente y expansión global, Great Wall compartió prácticas VLA. El centro de supercomputación Jiuzhou en Baoding alcanzó 5 EFLOPS, con más de diez mil GPUs. El Tank 700 se convertirá en el primer modelo equipado con el sistema Coffee Pilot 4.0 VLA, producido en serie e instalado en 2026. Más de 2 millones de vehículos en la flota existente generan enormes cantidades de datos diariamente, el activo más sólido de Great Wall en comparación con las nuevas empresas de automoción.

III. Proveedores de conducción inteligente:

El motor mundial oculto bajo el coche

Fuera de los fabricantes de automóviles, hay un grupo de proveedores que han convertido el Modelo de Mundo en un "motor invisible".

Momenta lanzó oficialmente su Modelo de Mundo de aprendizaje por refuerzo R7 en el Salón del Automóvil de Pekín de abril de 2026, logrando su primera producción en masa.

Es una arquitectura de tres capas: preentrenamiento del Modelo de Mundo, simulación del Modelo de Mundo, aprendizaje por refuerzo. R7 se basa en más de 12.000 millones de kilómetros de recorrido real de vehículos provenientes del negocio de producción en masa de Momenta, extrayendo más de 100 millones de segmentos de "datos de oro" para el preentrenamiento, luego haciendo que el modelo experimente innumerables escenarios de cola larga en simulación, y finalmente puliéndolo con aprendizaje por refuerzo.

Momenta lo integró directamente en su modelo base de extremo a extremo, con el objetivo de lograr el estándar L4. Los datos comerciales también están creciendo rápidamente: los vehículos de producción equipados con sistemas Momenta superaron los 900.000, con más de 100 modelos de vehículos entregados con éxito, más de 210 modelos designados, y soluciones implementadas en más de 10 países y regiones, incluidos Reino Unido, Noruega, Singapur, Australia y Nueva Zelanda.

En junio de 2026, Momenta pasó la audiencia de la Bolsa de Hong Kong, apuntando a su OPV como la "primera acción de Física de IA" y con una cuota de mercado de NOA urbana de terceros del 65%. Esto muestra su apuesta por el Modelo de Mundo.

Horizon Robotics lanzó en mayo de 2026 HorizonDrive, un modelo autoregresivo del mundo, cuya capacidad central es la generación de vídeos de conducción de larga secuencia a nivel de minutos.

Utiliza video-VAE para trabajar en el espacio latente, introduciendo mapas de alta definición, cuadros delimitadores 3D y acciones del propio vehículo, y luego generando escenarios futuros continuos.

El punto destacado de HorizonDrive es el entrenamiento de "autocorrección": a través de las tecnologías SRR y TRD, el modelo se corrige a sí mismo cuando genera errores. En nuScenes, su FID se redujo en un 52%, el FVD en un 37%, y la precisión de la trayectoria mejoró en un 21%; una sola RTX 5090 puede generar vídeo de 256×512 a 5,6 FPS, o vídeo de 384×768 a 1,7 FPS. Su posicionamiento es la simulación de conducción autónoma de ciclo cerrado, ayudando a los fabricantes a verificar sistemas L3+ sin necesidad de salir a la carretera.

DriveGPT de Haomo.ai fue uno de los primeros proyectos en China en proclamar el eslogan "Modelo de Mundo".

El "Snow Lake · Hairo" lanzado en abril de 2023 es un modelo generativo de conducción autónoma, que construye un espacio de representación 4D mediante la predicción del siguiente fotograma. Detrás hay 10.000 millones de fotogramas de imágenes de Internet, 4,8 millones de clips 4D y 87 millones de kilómetros de recorrido de conducción asistida.

El camino de Haomo es similar al World Model de Tesla y GAIA-1 de Wayve: hacer que el modelo grande de conducción autónoma evolucione de "ver imágenes" a "ver vídeo", y luego a "predecir vídeo". Proporciona capacidades para escenarios como los vehículos Great Wall Wey y los vehículos autónomos de reparto Xiaomotu.

DeepRoute (Yuanrong Qixing) lanzó la plataforma DeepRoute IO 2.0 el 26 de agosto de 2025, equipada con su propio modelo VLA.

En el Salón del Automóvil de Pekín de abril de 2026, DeepRoute fue más allá, presentando su tecnología de modelo base y estrategia de Física de IA, y mostrando datos comerciales: los vehículos de producción equipados con su solución de NOA urbana superaron los 300.000, en el último año los vehículos equipados con el sistema de seguridad activa de DeepRoute acumularon más de 1.300 millones de kilómetros en carreteras reales, y un tiempo total de conducción acompañada de 44,8 millones de horas.

DeepRoute no nombró un Modelo de Mundo por separado, pero dentro del sistema de simulación y entrenamiento de DeepRoute IO 2.0, el Modelo de Mundo es el núcleo implícito.

IV. Startups y grandes fabricantes:

Dos mapas, la misma ciudad

Y esta tabla de distribución de grandes fabricantes es otro mapa.

Dos mapas apuntan a la misma ciudad: quien pueda hacer que la IA comprenda realmente el mundo físico, tendrá la entrada a la próxima era.

La ventaja de las startups es la concentración y la velocidad.

Pueden apostar por un camino radical, como el Modelo de Mundo nativo, la generación de espacio 3D, el motor físico VLA, sin verse obstaculizadas por negocios existentes. Pero carecen de datos, capacidad de cálculo, canales de producción en masa, y más aún, de un ciclo cerrado de escenarios reales que pueda alimentar continuamente el crecimiento del Modelo de Mundo.

La desventaja de los grandes fabricantes es la inercia organizativa y el caos de nomenclatura causado por la paralelización de múltiples departamentos: incluso los tres proyectos de Modelo de Mundo de Alibaba confunden a los externos sobre si son lo mismo. Pero los grandes fabricantes tienen datos, capacidad de cálculo, usuarios, vehículos, y el sistema de ingeniería para poner en marcha el modelo. Las startups crean "modelos", los grandes fabricantes crean "sistemas".

El momento más peligroso es cuando los grandes fabricantes convierten el Modelo de Mundo de un "proyecto de investigación" en una "base de negocio". El modelo grande Pangu de Huawei sirve a ADS y robots, HY-World de Tencent sirve a juegos e industria, DrivingSphere de Li Auto sirve a la iteración de conducción inteligente, Kaiwu de SenseTime ya está producido e instalado, el R7 de Momenta ya funciona en más de 900.000 vehículos.

Estos no son PPT de conferencias de prensa, sino "capacidades" que están entrando en las líneas de producción de productos. Para las startups, el período de ventana para el Modelo de Mundo se está cerrando. La competencia futura pasará rápidamente de "quién puede hacer un Modelo de Mundo" a "cuyo Modelo de Mundo los grandes fabricantes puedan permitirse usar y usar bien".

V. El Modelo de Mundo no es una moda,

es la escalada de una vieja guerra

El Modelo de Mundo no es una nueva historia.

Es el producto natural de la convergencia de modelos grandes de lenguaje, modelos de generación de vídeo, modelos de conducción autónoma de extremo a extremo y modelos VLA para robots en el mundo físico.

La entrada masiva de grandes fabricantes indica que esto ha pasado de ser un "juguete para tecnófilos" a una "infraestructura industrial".

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi y SenseTime construyen puentes entre el mundo digital y el físico; NIO, Li Auto, Xpeng, Geely, BYD y Great Wall Motors han extendido esos "puentes" hasta los coches; Momenta, Horizon Robotics, Haomo y DeepRoute colocan rieles bajo los puentes.

Las startups están al final del puente, sosteniendo planos más ingeniosos, pero enfrentándose al hecho de que los grandes fabricantes ya están movilizando equipos de ingeniería.

En el próximo año, la cuestión central en la pista del Modelo de Mundo no será "quién lo hizo", sino "qué Modelo de Mundo está realmente ayudando a las personas a comprender el mundo".

Este artículo proviene del WeChat Official Account: IT桔子 , autor: Judy

热门币种推荐

相关问答

Q¿Qué diferencias clave existen en los enfoques de los grandes fabricantes de Internet y las empresas automotrices respecto a los modelos del mundo?

ALos grandes fabricantes de Internet, como Alibaba, Tencent, ByteDance, Huawei y Baidu, suelen centrarse en construir mundos digitales o plataformas de simulación versátiles para aplicaciones como agentes inteligentes, juegos, redes sociales y gemelos digitales. Por otro lado, las empresas automotrices, como NIO, Li Auto, Xpeng y Geely, ven principalmente los modelos del mundo como un 'campo de entrenamiento y examen' para sistemas de conducción autónoma, utilizándolos para generar escenarios de conducción complejos, simular pruebas y entrenar algoritmos de IA en un entorno seguro y escalable. En resumen, los primeros 'crean mundos' para múltiples propósitos, mientras que los segundos los 'usan' específicamente para perfeccionar la conducción autónoma.

Q¿Cómo describe el artículo el enfoque de Huawei respecto a los modelos del mundo y en qué se diferencia de otros gigantes tecnológicos?

AEl artículo describe el enfoque de Huawei como 'discreto pero letal'. A diferencia de empresas como Alibaba que lanzan productos específicos con el nombre 'modelo del mundo', Huawei no proclama abiertamente su tecnología como tal. En cambio, integra las capacidades del modelo del mundo en su sistema PanGu como un 'cimientos de entrenamiento' para aplicaciones industriales específicas, como vehículos inteligentes y robótica de encarnación. Su estilo consiste en no presentar el modelo del mundo como un producto independiente, sino como un componente crítico que impulsa bucles industriales cerrados, como su colaboración con GAC para la resolución rápida de casos complejos.

QSegún el artículo, ¿cuál es la principal ventaja de las empresas emergentes (startups) en la carrera de los modelos del mundo y cuál es su mayor desafío?

ALa principal ventaja de las empresas emergentes es su enfoque y velocidad. Pueden apostar por rutas técnicas más agresivas y especializadas, como modelos del mundo nativos o motores de física VLA, sin verse obstaculizadas por la inercia organizativa o negocios existentes de gran envergadura. Sin embargo, su mayor desafío es la falta de recursos: carecen de datos a gran escala, potencia computacional (presupuesto para computación), canales de producción masiva y, lo más crucial, de un bucle de escenario real y cerrado que pueda alimentar y validar continuamente el crecimiento y la eficacia de sus modelos del mundo.

Q¿Qué significa la frase del artículo: 'El modelo del mundo no es una nueva tendencia, sino una escalada de la vieja guerra'?

AEsta frase significa que los modelos del mundo no representan un campo tecnológico completamente nuevo y aislado. Son más bien la evolución y convergencia natural de tecnologías preexistentes y en desarrollo, como los grandes modelos de lenguaje (LLM), los modelos de generación de video, los modelos de conducción autónoma de extremo a extremo y los modelos VLA para robótica. La 'vieja guerra' se refiere a la competencia continua en estas áreas. La 'escalada' ocurre cuando estas capacidades se fusionan y elevan para abordar el desafío fundamental de que la IA comprenda y prediga dinámicamente el mundo físico, transformándose así de 'juguetes para expertos técnicos' a 'infraestructura industrial' crítica.

Q¿Cómo está utilizando NIO su Modelo del Mundo (NWM) para mejorar su sistema de conducción autónoma, según se detalla en el artículo?

ANIO utiliza su NIO World Model (NWM) para dotar a su sistema de conducción autónoma de capacidades de 'imaginación' y 'pre-reproducción'. El NWM realiza una 'reconstrucción imaginativa' en el espacio (recreando un mundo 3D a partir de una escena real) y una 'deducción imaginativa' en el tiempo (generando videos de más de dos minutos a partir de una sugerencia de tres segundos). Cada 0.1 segundos, el modelo deduce 216 trayectorias posibles y selecciona la óptima. La versión NWM 2.0, implementada en 2026, introdujo un sistema de entrenamiento de tres capas y permitió que el modelo de conducción autónoma emita señales de control directas (volante, acelerador), mejorando significativamente el rendimiento y reduciendo las probabilidades de frenado erróneo.

你可能也喜欢

BNB链在52亿美元代币化股票交易推进中超越Solana

**BNB链在代币化股票交易量上超越Solana** **关键数据:** * BNB链累计代币化股票交易量达到52亿美元(主要由Ondo Finance贡献,占51.2亿美元),超过了Solana的45亿美元。 * **重要提示**:需区分BNB链的“代币化股票累计交易量”与Solana的“代币化股票累计转移量”这两个不同指标。 **核心内容:** BNB链在代币化股票这一新兴赛道上的交易活动已超过Solana。这一数据来源于Ondo Global Markets仪表板和DefiLlama的RWA指数。该变化反映了市场风险偏好的潜在转移,是观察当前资本流向和市场结构的信号之一,而非决定性的市场结论。 **对交易者的意义:** 代币化股票等现实世界资产产品已成为链上的重要叙事,关乎结算、准入和市场基础设施。BNB链在交易量指标上的领先显示了当前交易活动的聚集点。这类动态往往会波及相关交易领域,例如影响山寨币情绪、塑造机构头寸等,在市场流动性较薄时,其二次效应尤为重要。 **需要留意的关键点:** 加密货币市场极易将单一数据点快速放大为普遍叙事。正确的解读应更审慎:这是一个**信号**,而非**保证**。交易量数据的变化本身并不直接等同于长期持有者信心丧失或网络出现问题,其价值在于帮助理解市场参与者的头寸、信心和动机。 **后续关注点:** 下一步需观察后续数据流、链上指标、未平仓合约等是否能持续验证这一趋势。若持续,则可能成为一个更稳固的市场主题;若迅速消退,则可能只是短期头寸调整。在当前市场环境下,需结合更广泛的流动性、宏观条件和衍生品状况来综合解读这一信号。

bitcoinist6分钟前

BNB链在52亿美元代币化股票交易推进中超越Solana

bitcoinist6分钟前

交易

现货

热门文章

如何购买WAR

欢迎来到HTX.com!我们已经让购买WAR(WAR)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买WAR(WAR)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的WAR(WAR)购买完您的WAR(WAR)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易WAR(WAR)在HTX的现货市场轻松交易WAR(WAR)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

774人学过发布于 2024.12.11更新于 2026.06.02

如何购买WAR

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对WAR(WAR)币价的意见。

活动图片