El Modelo del Mundo es el concepto más candente y a la vez más confuso para el público general en el mundo de la IA actual. Algunos dicen que es la capacidad de la IA para soñar, otros que es el simulador para la conducción autónoma, y otros más que es el cerebro del robot.
Fei-Fei Li, Yann LeCun, OpenAI, Google DeepMind, NVIDIA, e incluso empresas nacionales como Alibaba, Tencent, Huawei y los fabricantes de automóviles, cada uno tiene su propia definición.
Este artículo intenta explicar de manera sencilla:
¿Qué problema intenta resolver el Modelo del Mundo? ¿Por qué estos académicos y grandes compañías están obsesionados con él? Y, ¿por qué este concepto, incluso antes de tener un nombre unificado, ya se ha convertido en un campo de batalla imprescindible para la industria?
一、Entendiendo en una frase: Permitir que la IA "ensaye" el mundo en una "caja de arena mental"
Imagina que estás en una esquina preparándote para cruzar la calle.
Tus ojos ven la luz verde, los vehículos, los peatones, y tu cerebro construye en milésimas de segundo una mini escena: Si camino ahora, ¿ese coche acelerará? ¿Esa persona en bicicleta girará de repente?
No has salido realmente, sino que primero has repasado varias posibilidades en tu mente.
Los psicólogos llaman a esta capacidad "modelo mental", mientras que los investigadores de IA la llaman "modelo del mundo".
En otras palabras, un modelo del mundo es una "caja de arena mental" dentro de la máquina.
No se trata simplemente de reconocer qué hay en una imagen, sino de poder predecir qué sucederá a continuación y realizar pruebas y errores repetidas sin actuar realmente.
Para la conducción autónoma, puede generar exámenes virtuales con lluvias torrenciales, nevadas intensas u obstáculos atípicos; para los robots, puede permitir que un robot humanoide se caiga cien mil veces en un mundo simulado antes de salir a la calle; para las empresas de videojuegos y cine, podría ser un universo paralelo de exploración infinita.
En 2026, la frecuencia con la que el término "modelo del mundo" aparecía en reportajes tecnológicos ya superaba su claridad de definición.
Alibaba desarrolló Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld, apuntando respectivamente al mundo del lenguaje, al mundo virtual y al mundo físico; el HY-World 2.0 de Tencent enfatiza mundos 3D editables; NIO, XPeng, Li Auto prefieren hablar de "modelo del mundo de conducción" o "modelo de comportamiento del mundo"; Huawei y Baidu incluso rara vez usan este término por separado en sus materiales públicos.
La confusión en la nomenclatura hace que este concepto parezca un cajón de sastre en el que cabe todo.
Pero detrás de todas las denominaciones hay un núcleo común:
Permitir que la máquina, antes de actuar realmente, establezca internamente un entorno deducible y analizable. Este entorno puede ser píxeles, estructura tridimensional, parámetros físicos o estados abstractos. El objetivo es reducir la dependencia infinita de datos reales, comprimiendo el mundo real en un motor de datos capaz de generar infinitamente, cometer errores infinitos y reiniciar infinitamente.
El hecho de que el nombre no esté unificado precisamente indica que los modelos del mundo se encuentran en una etapa temprana de transición de concepto académico a infraestructura industrial.
二、Origen del pensamiento: Un psicólogo de la Segunda Guerra Mundial y varios pioneros de la IA
2.1 Kenneth Craik: La primera persona en hablar de un "pequeño modelo mental"
El pensamiento detrás del modelo del mundo precede al aprendizaje profundo en más de medio siglo. En 1943, el psicólogo escocés Kenneth Craik, en su libro "La naturaleza de la explicación", propuso que el cerebro humano construye "modelos a pequeña escala" de la realidad para predecir y comprender eventos externos.
Craik tenía solo 31 años en ese momento, era académico en el laboratorio de psicología de la Universidad de Cambridge y durante la Segunda Guerra Mundial también realizó investigación psicológica aplicada en el Reino Unido.
Dos años después de la publicación de su libro, murió en un accidente de bicicleta a la edad de 33 años.
Pero esta idea perduró: los humanos no necesitan replicar completamente el mundo, solo un modelo interno suficientemente útil para ensayar antes de actuar.
Este punto de vista es casi idéntico al núcleo de los modelos del mundo de la IA actual. La máquina tampoco necesita recordar cada detalle del mundo, sino aprender las reglas que lo rigen y deducir el futuro cuando sea necesario.
Después de Craik, en la década de 1980, el psicólogo británico Philip Johnson-Laird sistematizó aún más este pensamiento, demostrando que gran parte del razonamiento humano consiste realmente en manipular "modelos mentales" internos. Fue profesor durante mucho tiempo en Princeton y Cambridge, siendo una figura importante en el campo de la ciencia cognitiva.
2.2 Marvin Minsky: Quien quería dar a las máquinas un marco de sentido común
El campo de la inteligencia artificial también hizo eco temprano. En la década de 1960, Marvin Minsky en el MIT propuso la "teoría de los marcos".
Fue cofundador del Laboratorio de IA del MIT, ganador del Premio Turing en 1969, y a menudo considerado uno de los fundadores de la disciplina de la inteligencia artificial.
La teoría de los marcos intentaba capturar el sentido común humano sobre el mundo utilizando marcos de conocimiento estructurado:
Para entrar por una puerta primero hay que buscar el pomo, en un restaurante suele haber mesas y sillas, los objetos caen por la gravedad.
Lo que Minsky quería hacer es precisamente lo que los modelos del mundo aún no han logrado hoy: dar a la máquina una base de conocimiento de sentido común sobre el mundo, estructurada y deducible.
2.3 David Ha y Jürgen Schmidhuber: Devolviendo el modelo del mundo a la corriente principal del aprendizaje profundo
El campo del aprendizaje por refuerzo se acercó al mismo objetivo desde otro camino.
En 2018, el artículo de David Ha y Jürgen Schmidhuber presentado en NeurIPS, "Recurrent World Models Facilitate Policy Evolution", reintrodujo el término "modelo del mundo" en la corriente principal del aprendizaje profundo.
David Ha trabajaba entonces en Google Brain, convirtiéndose posteriormente en investigador independiente. Su estilo de trabajo es más orientado a la ingeniería, siendo hábil en crear demos impresionantes con arquitecturas sencillas.
Jürgen Schmidhuber es cofundador del laboratorio suizo de IA IDSIA, uno de los inventores de la red LSTM (memoria a largo corto plazo), y es conocido en el campo de la IA por sus opiniones directas e independientes. A veces se le llama el "padre de la IA moderna", aunque este título es controvertido, su influencia académica es innegable.
Su arquitectura era muy sencilla:
Usar VAE para comprimir imágenes de alta dimensión en vectores latentes de baja dimensión, usar RNN para aprender el cambio temporal de estos vectores, y luego usar un controlador simple para entrenar la política en la "imaginación".
El agente primero sueña en el modelo del mundo aprendido, y luego transfiere la política al entorno real.
Este artículo fue seleccionado para presentación oral en NeurIPS, inspiró directamente la serie Dreamer posterior y convirtió el "modelo del mundo" de un concepto psicológico en un objetivo de ingeniería dentro del aprendizaje profundo.
三、El modelo del mundo según los académicos
3.1 Yann LeCun: No solo generar videos, sino entender la física
Yann LeCun es francés, profesor en la Universidad de Nueva York y científico jefe de IA en Meta.
Es uno de los inventores de las redes neuronales convolucionales (CNN), y en 2018 recibió conjuntamente el Premio Turing con Geoffrey Hinton (mentor doctoral de Fei-Fei Li) y Yoshua Bengio, siendo conocidos como los "tres gigantes del aprendizaje profundo".
LeCun siempre ha sido crítico con el enfoque de los actuales modelos de lenguaje grandes, argumentando que solo predecir la siguiente palabra no puede producir inteligencia real.
En 2022, en un artículo titulado "A Path Towards Autonomous Machine Intelligence", propuso que la inteligencia real necesita un modelo del mundo predecible y configurable.
El objetivo no es generar texto o imágenes, sino entender las leyes del mundo físico y predecir las consecuencias de las acciones. Incluso criticó que seguir ampliando modelos de lenguaje grandes es una "tontería", argumentando que el núcleo de la inteligencia está en aprender la estructura física del mundo real.
JEPA es el vehículo técnico de esta línea. JEPA significa Joint Embedding Predictive Architecture (Arquitectura de Predicción de Incrustación Conjunta).
A diferencia de predecir el siguiente fotograma en el espacio de píxeles, JEPA simula el cambio del estado del mundo en un espacio de representación abstracto.
Poniendo un ejemplo: un modelo de generación de video está pintando el siguiente cuadro, mientras que JEPA está "sintiendo" en su mente lo que sucederá a continuación.
El I-JEPA de 2023, el V-JEPA de 2024, el LeJEPA de 2025 y el LeWorldModel de 2026 constituyen un sistema en evolución continua.
LeCun también introdujo el concepto de "sistema 1 / sistema 2": el sistema 1 es la reacción rápida intuitiva, el sistema 2 es invocar el modelo del mundo para un razonamiento y planificación deliberados y profundos.
Los últimos trabajos teóricos incluso demuestran que, bajo ciertas condiciones, las representaciones aprendidas por JEPA pueden establecer una correspondencia lineal con variables físicas reales, es decir, el modelo aprende la estructura física en un sentido matemático, no solo un codificación útil.
3.2 Fei-Fei Li: Clasificando los modelos del mundo con el ciclo "acción-observación"
Fei-Fei Li es profesora de ciencias de la computación en la Universidad de Stanford, y creadora principal del conjunto de datos ImageNet. ImageNet impulsó la revolución del aprendizaje profundo en 2012, por lo que también se la conoce como la "madrina de la IA".
Fue científica jefe de AI en Google Cloud, y en 2023 fundó World Labs, enfocándose en la inteligencia espacial y los modelos del mundo 3D. En 2024, recibió múltiples honores por promover la democratización de la IA y sus aplicaciones en campos como la medicina, siendo una de las científicas chinas más influyentes en el campo de la IA actual.
En junio de 2026, Fei-Fei Li y el equipo de World Labs publicaron un artículo ampliamente compartido que intentaba establecer una taxonomía para el confuso concepto de modelo del mundo.
Citó el POMDP (Proceso de Decisión de Markov Parcialmente Observable) del aprendizaje por refuerzo.
Este concepto suena complejo, pero en realidad describe un ciclo muy simple: el agente toma una acción, la acción cambia el estado del mundo, el agente obtiene una observación y luego toma la siguiente acción basándose en esa observación.
Señaló que todos los sistemas llamados modelos del mundo son esencialmente proyecciones de este ciclo en diferentes direcciones, cada tipo solo produce un fragmento del ciclo.
En base a esto, clasificó los modelos del mundo en tres tipos.
El primer tipo es el renderizador, que produce observaciones, es decir, píxeles para ser vistos por el ojo humano. Los ejemplos típicos son los modelos de generación de video y Google Genie 3, cuyo objetivo de optimización es la fidelidad visual.
El segundo tipo es el simulador, que produce estados, es decir, representaciones fieles del mundo a nivel geométrico, físico y dinámico. Los ejemplos típicos son NVIDIA Omniverse y Marble de World Labs, cuyo objetivo de optimización es la precisión estructural.
El tercer tipo es el planificador, que produce acciones, es decir, responde "qué hacer después" dada una observación y un objetivo. Los ejemplos típicos son VLA y World Action Models.
Fei-Fei Li cree que estas tres capacidades dependen fundamentalmente del mismo tipo de conocimiento, y la tendencia final es converger hacia un modelo del mundo unificado.
3.3 FIB-Lab de la Universidad de Tsinghua: Solo dos tipos de modelos del mundo, entender el mundo o predecir el futuro
FIB-Lab de la Universidad de Tsinghua es un equipo que investiga a largo plazo la inteligencia artificial general, la inteligencia encarnada y el aprendizaje robótico. FIB suele entenderse como laboratorio relacionado con "Inteligencia y Cerebro Futuro", afiliado al Instituto de Industria Inteligente de la Universidad de Tsinghua.
Este equipo ha publicado numerosas revisiones y artículos en el campo de los modelos del mundo y la robótica, siendo una de las fuerzas importantes en la investigación nacional de esta dirección.
En 2026, publicaron la revisión "Understanding World or Predicting Future: A Comprehensive Survey of World Models", dividiendo el campo de otra manera.
Dividieron la función central de los modelos del mundo en dos grandes categorías: entender el mundo y predecir el futuro.
Entender el mundo enfatiza la construcción de representaciones implícitas del entorno externo para apoyar la toma de decisiones, representado por la serie Dreamer y el conocimiento del mundo basado en modelos de lenguaje grandes.
Predecir el futuro enfatiza la generación explícita de estados futuros, típico de modelos de generación de video o entornos 3D como Sora, Genie 3, Cosmos.
La ventaja de esta clasificación es que está más cerca de la práctica de ingeniería: el primero sirve al aprendizaje por refuerzo y la toma de decisiones, el segundo a la generación y simulación.
3.4 OpenWorldLib de la Universidad de Pekín: Creando una caja de herramientas estandarizada para modelos del mundo
En abril de 2026, la Universidad de Pekín junto con instituciones como Kuaishou lanzaron OpenWorldLib. La Universidad de Pekín es un centro importante de investigación básica en IA en China, con instituciones como el Laboratorio Clave del Ministerio de Educación para la Percepción e Inteligencia de Máquinas; Kuaishou es un gigante chino de los videos cortos que ha invertido mucho en modelos grandes y generación multimodal en los últimos años.
El lanzamiento conjunto de OpenWorldLib muestra que tanto el mundo académico como el industrial han comenzado a darse cuenta de que los modelos del mundo necesitan estándares unificados y componentes reutilizables.
OpenWorldLib intentó por primera vez dar una definición estandarizada de modelo del mundo: un modelo o marco centrado en la percepción, con capacidad de interacción y memoria a largo plazo, utilizado para comprender y predecir el mundo complejo.
Criticaron que equiparar el modelo del mundo simplemente con "predecir el siguiente fotograma" es demasiado estrecho, argumentando que un verdadero modelo del mundo debe reflejar una comprensión real de las leyes físicas.
OpenWorldLib dividió el modelo del mundo en cinco módulos centrales: operador, síntesis, razonamiento, representación, memoria, coordinados por un módulo de pipeline unificado.
Este marco se asemeja más a una caja de herramientas, con el objetivo de permitir que diferentes equipos de investigación combinen módulos como si fueran piezas de Lego.
四、El modelo del mundo según las grandes empresas
4.1 OpenAI: Sora es un "simulador del mundo"
OpenAI es una de las compañías de IA más influyentes a nivel mundial en la actualidad. Es conocida por sus modelos de lenguaje grandes de la serie GPT y ChatGPT. En 2024, tras el lanzamiento de Sora, volvió a despertar la atención global sobre la generación de video y la simulación del mundo.
En febrero de 2024, OpenAI publicó el informe técnico de Sora, titulado directamente "Video Generation Models as World Simulators", posicionando explícitamente los modelos de generación de video como simuladores del mundo. Sora no depende de modelado 3D explícito o motores físicos, sino que entrena un modelo generativo en grandes conjuntos de datos de video, permitiendo que emerjan espontáneamente capacidades como consistencia 3D, consistencia a largo plazo, persistencia de objetos e interacción simple con el mundo.
OpenAI considera que la expansión a gran escala de los modelos de generación de video es un camino muy prometedor para construir un simulador universal del mundo físico.
Pero las limitaciones de Sora también son evidentes: no puede simular con precisión procesos físicos básicos como la rotura de vidrio, aparecen inconsistencias en muestras largas, los objetos pueden aparecer de forma incontrolada. Por lo tanto, es más una declaración de dirección que una definición madura.
4.2 Google DeepMind: Genie 3 es un modelo del mundo universal, interactivo y en tiempo real
Google DeepMind se formó después de que Google adquiriera la compañía británica de IA DeepMind en 2014, siendo Demis Hassabis su cofundador y CEO.
DeepMind ha desarrollado sistemas emblemáticos como AlphaGo y AlphaFold, siendo uno de los centros de investigación de vanguardia en IA a nivel mundial. Demis Hassabis es científico informático, neurocientífico y diseñador de videojuegos, interesado desde hace tiempo en la inteligencia artificial general.
En agosto de 2025, Google DeepMind lanzó Genie 3, definido oficialmente como el "primer modelo del mundo realista, interactivo y en tiempo real".
Puede generar entornos 3D explorables basándose en descripciones de texto simples, con una tasa de fotogramas de 20-24 fps, soportando control de personajes, eventos mundiales indicables y memoria interactiva de hasta un minuto. Genie 3 utiliza un enfoque autorregresivo para generar fotograma a fotograma, se ancla al mundo real utilizando datos de Google Maps Street View y se posiciona como un hito clave hacia la AGI.
4.3 NVIDIA: Cosmos es el "modelo fundacional del mundo" para la IA física
NVIDIA fue fundada por Jensen Huang, Chris Malachowsky y Curtis Priem en 1993, con Jensen Huang como CEO desde hace mucho tiempo. La compañía comenzó con chips gráficos GPU y, en la última década, debido a la demanda explosiva de potencia computacional para el entrenamiento de IA, se ha convertido en el proveedor central de infraestructura para la IA a nivel mundial.
Jensen Huang ha planteado frecuentemente en los últimos años juicios como "IA física" y "la próxima ola de la IA es la robótica", y NVIDIA también ha seguido lanzando plataformas de software y hardware para robótica, conducción autónoma y simulación.
En enero de 2025, NVIDIA lanzó Cosmos, posicionado como una "plataforma de modelo fundacional del mundo". No es un único modelo, sino una serie de modelos de video con conciencia física que pueden predecir y generar estados futuros de entornos virtuales, divididos en tres niveles: Nano, Super, Ultra, entrenados con 20 millones de horas de datos del mundo real.
La ambición de Cosmos es convertirse en la infraestructura subyacente para la IA física, sirviendo escenarios como robótica, conducción autónoma, simulación industrial, etc.
NVIDIA también lo ha hecho de código abierto, permitiendo su uso comercial.
4.4 Grandes empresas nacionales: Aunque no lo llamen modelo del mundo, también están trabajando en ello
Las empresas nacionales rara vez dan definiciones filosóficas en sus materiales públicos, sino que se centran directamente en productos y escenarios.
Los tres productos de Alibaba cubren respectivamente la simulación del mundo del lenguaje, la generación del mundo virtual y el mundo físico robótico;
El HY-World 2.0 de Tencent se centra en mundos 3D editables; el modelo del mundo Seed de ByteDance apunta a alcanzar el nivel SOTA de Genie 3 a fin de año;
La versión de conducción inteligente del modelo grande PanGu de Huawei enfatiza el aprendizaje de leyes físicas y la simulación de ciclo cerrado; el ADFM de Baidu Apollo integra capacidades de modelo del mundo en el modelo grande de conducción autónoma; el OneVL de Xiaomi intenta unificar VLA con el modelo del mundo.
Entre los fabricantes de automóviles, el NWM de NIO, el modelo del mundo de reconstrucción más generación de Li Auto, el X-World de XPeng, el WAM de Geely, la investigación previa de BYD, el VLA más modelo del mundo de Great Wall, todos tienen como uso central el entrenamiento de conducción inteligente de extremo a extremo y la generación de escenarios de cola larga.
五、Tres líneas técnicas: Pintar, calcular mentalmente, construir con bloques
Desde una perspectiva de ingeniería, actualmente hay aproximadamente tres líneas técnicas principales para los modelos del mundo, que pueden entenderse con tres metáforas.
La primera es la línea de "pintar", es decir, los modelos de video generativo. Sora, Genie 3, Cosmos, Kuailing, Pika pertenecen a esta categoría. La capacidad central es generar fotogramas futuros en el espacio de píxeles, con la ventaja de un fuerte realismo visual y un bajo umbral de datos, siendo fácilmente comprensible para el público general. La desventaja es la débil consistencia física; si se observa durante mucho tiempo, se notan deformaciones de objetos, fallos en la gravedad y líneas de tiempo confusas.
La segunda es la línea de "calcular mentalmente", representada por el JEPA de LeCun y el modelo del mundo RNN de Ha & Schmidhuber. La idea central es no predecir píxeles, sino predecir representaciones abstractas. La ventaja es la alta eficiencia y un aprendizaje más estable de la estructura física; la desventaja es la pobre interpretabilidad del espacio de representación y los largos ciclos de implementación en ingeniería. Se parece más a la intuición de un atleta humano: no necesita reproducir la acción fotograma a fotograma en su mente, puede predecir el punto de caída de la pelota por sensación corporal.
La tercera es la línea de "construir con bloques", representada por NVIDIA Omniverse, World Labs Marble y el HY-World de Tencent. La idea central es generar directamente entornos tridimensionales con atributos geométricos, físicos y dinámicos. La ventaja es la precisión y controlabilidad, la capacidad de edición y verificación; la desventaja es la escasez de datos, el alto costo computacional y la limitada capacidad de generalización. Se parece más al software CAD de un ingeniero, que puede medir con precisión y ajustar repetidamente, pero aún está lejos del mundo natural.
Las tres líneas tienen actualmente sus respectivos territorios, pero los límites se están desdibujando. Los modelos de generación de video comienzan a incorporar restricciones físicas, los simuladores 3D introducen capacidades generativas, y la arquitectura JEPA comienza a fusionarse con VLA para formar WAM. El modelo del mundo unificado que predice Fei-Fei Li es precisamente el resultado de la fusión de estas tres.
六、World Action Model: De "ver el mundo" a "actuar sobre él"
En mayo de 2026, el equipo OpenMOSS de la Universidad de Fudan, junto con múltiples instituciones, publicó una revisión sobre WAM, proponiendo formalmente el paradigma de World Action Models.
OpenMOSS de Fudan es uno de los equipos nacionales que promovió más temprano el ecosistema de código abierto para modelos grandes, y la serie de modelos Mooss tiene un alto reconocimiento en la comunidad china.
La definición central de WAM es: la predicción del estado futuro y la generación de acciones deben aprenderse conjuntamente dentro de la misma política, no entrenando primero un VLA y luego acoplando un modelo del mundo como asistente.
Comparando de manera simple: VLA es "ver la imagen, entender la instrucción y luego realizar la acción"; el modelo del mundo es "saber el estado actual y la acción, poder imaginar el siguiente fotograma"; WAM es "ver la imagen, entender la instrucción, y al mismo tiempo imaginar el siguiente fotograma y realizar la acción".
Estos tres unidos son la capacidad de "unidad entre conocimiento y acción" que realmente necesita un robot.
WAM se divide en dos arquitecturas: Cascaded y Joint.
Cascaded primero genera el fotograma futuro y luego decodifica la acción, es fácil de implementar en ingeniería pero tiene alta latencia y los errores se propagan fácilmente. Joint utiliza un único modelo para producir simultáneamente el futuro y la acción, teóricamente más robusto pero con un diseño complejo del objetivo de entrenamiento.
Jim Fan de NVIDIA incluso declaró en la conferencia Sequoia AI Ascent de 2026 que "VLA está muerto, los modelos de acción del mundo son el futuro". Jim Fan es científico investigador senior en NVIDIA, responsable del equipo GEAR, y su campo de investigación abarca robótica, simulación e inteligencia encarnada.
Aunque esta declaración es controvertida, muestra la popularidad de esta dirección.
七、Estructura industrial: Se ha formado una estructura de tres capas
La cadena industrial del modelo del mundo está pasando de artículos y demos a una infraestructura por capas. Puede imaginarse como construir una casa: algunos extraen mineral y producen acero, otros fabrican paneles prefabricados, y otros construyen viviendas, centros comerciales y fábricas sobre ellos.
La capa superior es la de soporte básico, incluyendo recolección de datos de alta precisión, servicios de computación y hardware de sensores.
La recolección de datos implica mapas de alta precisión, escaneo espacial, captura de video, teleoperación, etc.; los servicios de computación se centran en GPU y servidores en la nube; el hardware de sensores incluye lidar, cámaras, IMU, etc. NVIDIA, con sus GPU, ocupa una posición de dominio implícita en esta capa, ya que casi todo el entrenamiento de modelos del mundo depende de su potencia computacional.
El costo es el punto crítico en esta capa: entrenar un modelo del mundo con cientos de miles de millones de parámetros requiere miles de GPU, y el costo de un solo entrenamiento puede alcanzar millones de dólares.
La capa media es la de plataforma tecnológica, dividida en plataformas de tipo general y de tipo vertical.
Las plataformas de tipo general ofrecen capacidades universales entre industrias, representadas por NVIDIA Omniverse, Shangtang OpenDILab, Huawei PanGu, y la serie Tongyi de Alibaba. Las plataformas de tipo vertical se centran en industrias específicas, como modelos del mundo para conducción autónoma, construcción, inteligencia encarnada. Las empresas de plataforma están ocupando una posición dominante a través de la integración ecológica, y se espera que para 2030 puedan ocupar más del 50% del mercado de la cadena industrial.
La capa inferior es la de aplicación en escenarios, cubriendo campos como conducción autónoma, inteligencia encarnada, construcción inteligente, entretenimiento y juegos, servicios espaciales, simulación médica, predicción climática, etc.
Se considera que los sectores automotriz, electrónico y médico contribuyen actualmente con más del 60% de los ingresos de la industria. La conducción autónoma es el escenario de aplicación más maduro; casi todos los fabricantes de automóviles principales ya han incorporado el modelo del mundo en el núcleo de su proceso de I+D; la inteligencia encarnada es la dirección emergente más prometedora, y la proporción de robots industriales que utilizan modelos del mundo para entrenamiento auxiliar ya supera el 60%.
八、Por qué la falta de unificación conceptual es algo bueno
La confusión en el concepto de modelo del mundo a menudo hace que el exterior piense que es una moda creada por especulación.
Pero desde una perspectiva histórica de la industria, la falta de unificación conceptual suele ser la norma en las primeras etapas de una revolución tecnológica.
Al inicio de la computación en la nube hubo debates entre IaaS, PaaS, SaaS; al inicio del big data, entre Hadoop, NoSQL y almacenes de datos; al inicio de la inteligencia artificial, incluso entre simbolismo, conexionismo y conductismo. Las diferencias en la nomenclatura reflejan el proceso por el cual diferentes grupos abordan un mismo problema complejo desde diferentes ángulos.
Las diferencias actuales en el modelo del mundo son esencialmente debates sobre en qué forma debe comprimirse el "mundo".
Los que trabajan en generación de video piensan que el mundo es una secuencia de píxeles; los que trabajan en motores 3D piensan que el mundo es geometría y física; los que trabajan en conducción autónoma piensan que el mundo son reglas de tráfico y comportamientos de conducción; los que trabajan en robótica piensan que el mundo son las consecuencias de las acciones.
Cada forma de compresión corresponde a diferentes datos, potencia computacional y escenarios de aplicación. En las primeras etapas de la industria, esta divergencia es necesaria, permite que diferentes enfoques prueben y fallen en paralelo.
Pero bajo la divergencia, el objetivo ya está convergiendo.
Ya sea el JEPA de LeCun, el ciclo POMDP de Fei-Fei Li, la generación de video de Sora, la interacción 3D de Genie 3, o los diversos productos de las grandes empresas nacionales, todos apuntan finalmente a la misma capacidad: dar a la máquina un mundo interno deducible, analizable y generalizable, para que pueda actuar en el mundo real de manera más segura, eficiente y universal.
Los modelos de lenguaje han dotado a las máquinas de la capacidad de hablar sobre el mundo, mientras que los modelos del mundo intentan dotarlas de la capacidad de entender, imaginar, razonar e interactuar con el mundo.
El concepto se unificará, pero eso será después de que se establezca el panorama. Antes de eso, la confusión en la nomenclatura es precisamente una señal de que el modelo del mundo ha entrado en el campo de batalla principal.
Este artículo proviene del WeChat público "IT桔子" (ID: itjuzi521), autor: Judy






