El 3 de junio de 2026, el equipo de World Labs, junto con la profesora de Stanford Li Fei-Fei, publicó un artículo de análisis conceptual, con un título tan directo que apenas tiene adornos: "Una taxonomía funcional para los modelos del mundo". La primera frase del artículo pincha una complicidad de la industria: "'Modelo del mundo' es hoy uno de los términos más importantes y más abusados en el campo de la inteligencia artificial".
El trasfondo de esta frase es conocido para cualquiera que haya seguido la industria de la IA.
En febrero de 2024, OpenAI lanzó el modelo de generación de videos Sora, cuyo informe técnico llevaba el titular "Video generation models as world simulators". Jim Fan, director de robótica de NVIDIA, dejó en LinkedIn un comentario que luego fue citado repetidamente: Sora es esencialmente un "modelo del mundo que solo permite la 'no operación' como acción única". Por otro lado, según informes públicos, el equipo de IA de Tesla ha referido en múltiples ocasiones en público al componente de predicción interno de su sistema de conducción autónoma total como "modelo del mundo" o "simulador del mundo". Motores de videojuegos, herramientas de generación 3D, modelos de inteligencia corporeizada... todo tipo de productos y tecnologías se han metido en el mismo cajón con la misma etiqueta.
Un generador de videos, una red predictiva para coches autónomos, un modelo de control de robots, un motor de física... ¿qué tienen en común? Casi nada. Pero a todos se les llama "modelo del mundo".
Este desorden conceptual que lleva más de dos años, por fin alguien intenta sistematizarlo y aclararlo. El equipo de Li Fei-Fei esta vez no lanzó un nuevo modelo, no publicó un nuevo *benchmark*, no demostró ninguna funcionalidad de producto. Hicieron algo más básico: volver a la fuente teórica del proceso de decisión de Markov parcialmente observable, y reducir todos los sistemas llamados "modelo del mundo" del mercado a tres proyecciones funcionales diferentes de un mismo ciclo cognitivo.
Las tres proyecciones son: renderizador, simulador, planificador. En el marco de clasificación de World Labs, Sora y modelos similares de generación de video pertenecen al renderizador.
Por qué un término puede abarcar significados tan contradictorios
Para entender el origen de esta confusión, hay que preguntarse algo más básico: cuando una empresa dice "estamos haciendo un modelo del mundo", ¿qué está diciendo exactamente?
Para OpenAI, el objetivo de Sora es "entender y representar el mundo físico en video". Según su informe técnico, Sora, al aprender los patrones estadísticos en enormes cantidades de datos de video, puede generar escenas que se ajustan al sentido común visual: una taza que cae al suelo se rompe, un avión de papel lanzado vuela, una persona camina alternando las piernas. Estas escenas parecen "entender la física".
Para Tesla, el "modelo del mundo" es la red neuronal dentro del sistema FSD que predice la trayectoria de los participantes en la carretera durante los próximos segundos. Necesita generar posiciones 3D, velocidades y orientaciones precisas para que el módulo de planificación de ruta calcule decisiones de conducción seguras. Este modelo no necesita generar píxeles, genera vectores y distribuciones de probabilidad.
Para una empresa de robótica, el "modelo del mundo" es el mecanismo de simulación interna que permite a un brazo robótico prever: "si empujo esta taza 5 cm a la izquierda, ¿caerá?". Necesita entender las propiedades de los objetos, la mecánica del contacto y la estabilidad, y genera evaluaciones de viabilidad de acciones.
Los objetivos de los tres tipos de empresas son completamente diferentes. La empresa de generación de video se preocupa por la fidelidad de los píxeles; la de coches autónomos, por la precisión de la predicción del estado físico; la de robótica, por la capacidad de inferir las consecuencias de las acciones. Todos hacen "modelo del mundo", pero no están haciendo ni remotamente lo mismo.
World Labs señala en el artículo el núcleo del problema: estos sistemas comparten la etiqueta porque cada uno captura una faceta de "entender el mundo". Pero cada uno solo realiza un eslabón del ciclo cognitivo completo, y el lenguaje de marketing, los medios y la narrativa de inversión los empaquetan como el modelo completo.
Otro impulsor de la confusión es la fuerza del propio término. "Modelo del mundo" tiene un aura de gran narrativa, suena más prometedor que "modelo de generación de video" o "modelo de predicción de video", y soporta mejor las altas valoraciones y las historias de financiación. Cuando la capacidad técnica no puede igualar las expectativas públicas, es inevitable que el concepto se convierta en una herramienta de promoción.
Volviendo a los años 60, ¿cómo debería ser un 'modelo del mundo' completo?
El marco de clasificación de World Labs se basa en una base teórica aparentemente antigua: el proceso de decisión de Markov parcialmente observable (POMDP).
Este marco describe el ciclo completo de interacción entre un agente y su entorno. El agente está en un estado del entorno, ejecuta una acción, la acción cambia el estado del entorno, el agente recibe una observación parcial a través de sensores, la observación actualiza su estado interno, y la cognición actualizada impulsa la siguiente acción. Ciclo tras ciclo.
En este marco, la funcionalidad completa de un "modelo del mundo" debería incluir tres eslabones: generar una observación a partir de un estado (los píxeles, nubes de puntos, etc., que ven los ojos o captan los sensores), deducir el siguiente estado a partir de una acción y el estado actual (predecir el cambio físico), y generar una acción a partir de observaciones y un objetivo (planificación de decisiones).
Los modelos de lenguaje aprenden patrones estadísticos de secuencias de texto. Los modelos del mundo aprenden patrones estadísticos del espacio y el tiempo. Cómo se refleja la luz en diferentes superficies, cómo se mueven los objetos bajo la gravedad, cómo se transfiere la energía tras una colisión de cuerpos rígidos... estos son los patrones que debe capturar un modelo del mundo.
El equipo de World Labs señala en el artículo que todos los sistemas actualmente llamados "modelo del mundo" son, en realidad, solo la proyección de uno de esos eslabones funcionales del ciclo completo. Algunos sistemas solo hacen el renderizado "de estado a observación", otros solo hacen la deducción de estado "de acción a siguiente estado", otros solo hacen la planificación "de observación a acción". Cada uno toma un arco del ciclo, pero se le pone la etiqueta del círculo completo.
El valor de este marco analítico es que proporciona un sistema de coordenadas para comparar más allá del lenguaje de marketing. No importa cómo una empresa envuelva su producto, basta con ponerlo en el ciclo POMDP, ver qué entrada recibe, qué salida genera y qué eslabón le falta, para que sus límites queden expuestos.
Renderizador, simulador, planificador: los límites de las tres proyecciones
En la taxonomía de World Labs, la primera categoría se define como "renderizador". Su objetivo central es generar una salida de píxeles de alta fidelidad orientada a la percepción visual humana. La entrada es una representación de un estado del entorno (puede ser una descripción de texto, parámetros de escena 3D o una codificación implícita), la salida son fotogramas continuos.
El renderizador optimiza el realismo visual, no la precisión física. El artículo de World Labs deja claro: un edificio generado por un renderizador podría estar "tambaleante", porque no resuelve realmente ecuaciones de mecánica estructural; el salpicado de un líquido puede parecer realista, pero el volumen, caudal o fuerza de impacto pueden no corresponderse con cantidades físicas reales. Por tanto, estos modelos no pueden usarse para diseño arquitectónico, entrenamiento de robots o tareas que requieran una simulación físicamente precisa.
Genie 3 de Google, varios modelos de texto a video, y casi todas las herramientas de generación de video con IA pertenecen a esta categoría. Sora, por supuesto, también.
La segunda es el "simulador". Su objetivo central no es generar imágenes para que las vea una persona, sino generar un estado siguiente preciso que pueda usarse para cálculos posteriores. La entrada es el estado actual del entorno y fuerzas externas (o acciones); la salida es el siguiente estado que sigue fielmente las leyes físicas y geométricas del mundo real. El estado generado por un simulador puede usarse para análisis de tensiones, cálculo de consumo energético, detección de colisiones, o como entrada para un renderizador y generar visualizaciones. Pero su valor central está en la capacidad de cálculo del estado mismo.
NVIDIA Omniverse es el ejemplo típico de este tipo de sistemas. No es un modelo nativo de IA, sino una plataforma de gemelo digital que fusiona motores de física tradicionales con cálculo acelerado por IA. World Labs evalúa en el artículo que el simulador es el puente entre renderizado y planificación, pero la principal barrera es la escasez de datos de anotación física 3D de alta calidad. Según estimaciones del artículo, los datos para entrenar estos modelos son varios órdenes de magnitud menores que los datos de video disponibles en Internet.
La tercera es el "planificador". Su entrada son datos de observación (imágenes de cámara, nubes de puntos de LiDAR, lecturas de sensores táctiles, etc.) y una instrucción de objetivo; su salida es qué acción ejecutar a continuación. Los modelos VLA (Visión-Lenguaje-Acción) y los World Action Models pertenecen a esta categoría.
Las diferencias entre las tres categorías no son matices de enfoque técnico, sino una división funcional fundamental. El renderizador genera píxeles para ver, el simulador genera estados para calcular, el planificador genera acciones para ejecutar. Un sistema puede tener múltiples capacidades, pero cuando la mayoría de los sistemas llamados "modelo del mundo" esencialmente solo renderizan, equiparar "renderizar" con "entender el mundo" es un grave desajuste cognitivo.
Un debate de dos años: ¿Sora es o no es un modelo del mundo?
En febrero de 2024, OpenAI lanzó Sora, y el título de su informe técnico decía directamente "Video generation models as world simulators". Esta elección de palabras provocó inmediatamente un intenso debate en la academia y la comunidad de desarrolladores.
Los partidarios argumentaban que los videos generados por Sora mostraban coherencia 3D espacial, persistencia de objetos y cierta comprensión intuitiva de las interacciones físicas. Una hamburguesa mordida muestra la marca de los dientes, un perro corriendo en la nieve levanta copos; estos detalles parecen indicar que el modelo aprendió algunas leyes físicas.
El argumento central de los detractores proviene de la definición clásica de modelo del mundo en el campo del aprendizaje por refuerzo: un modelo del mundo debe poder predecir la transición de estados basada en acciones. Es decir, dado un estado actual y una acción de entrada, el modelo debería generar el siguiente estado tras esa acción. Sora no puede hacer eso. El usuario no puede decirle a Sora "empuja esa taza desde la izquierda" y luego observar si la taza cae, hacia dónde, adónde vuelan los fragmentos.
El comentario de Jim Fan captó con precisión esta contradicción: "Sora es esencialmente un modelo del mundo, solo que permite la 'no operación' como única acción". Es decir, Sora sí predice cambios en el entorno a lo largo del tiempo, pero ese proceso de cambio no está sujeto a ninguna intervención externa, solo puede desarrollarse a lo largo de la cadena causal inherente a los datos de video. No está haciendo una deducción interactiva, está continuando una secuencia de observación pasiva.
En el subreddit r/MachineLearning, muchos investigadores de aprendizaje por refuerzo expresaron críticas más agudas: un sistema que no puede predecir transiciones de estado basadas en acciones no puede llamarse modelo del mundo, solo modelo de predicción de video.
El marco de clasificación de World Labs ofrece una respuesta casi definitiva a este debate. En el ciclo POMDP, la acción es la entrada clave que impulsa la transición de estado; un sistema al que le falta esta entrada es solo la proyección del eslabón de "generación de observación" del ciclo cognitivo completo. Sora es un renderizador, no un modelo del mundo completo, y mucho menos un simulador del mundo.
Pero esto no significa que Sora no tenga valor. El renderizador resuelve un problema diferente: cómo generar imágenes que cumplan las expectativas visuales humanas. Este problema es extremadamente difícil por sí mismo y tiene un enorme valor comercial. El problema es que empaquetar la capacidad de renderizado como capacidad de "entender el mundo" puede engañar a los responsables técnicos y a los inversores, haciéndoles creer que estos modelos ya tienen capacidad de deducción física o interacción corporeizada.
El valor industrial de clarificar conceptos
Aclarar los límites de la definición de "modelo del mundo" no es un mero ejercicio académico. Afecta directamente a la selección técnica, las decisiones de inversión y el nivel de comprensión pública sobre las capacidades de la IA.
Para una empresa manufacturera que evalúe usar un "modelo del mundo" para entrenamiento de robots, aclarar si ese modelo es un renderizador, simulador o planificador es un paso necesario para evitar errores de millones de dólares. Un modelo que solo genera videos, por realistas que sean, no puede sustituir el cálculo preciso de fuerzas, trayectorias y consecuencias de colisiones.
Para las firmas de inversión, distinguir las tres proyecciones significa identificar con mayor precisión la posición en la pila tecnológica de un proyecto. Una startup que se autodenomine "modelo del mundo" cuyo producto es esencialmente un renderizador, compite con empresas de generación de video, no con plataformas de gemelos digitales o modelos de control de robots. Esto determina directamente cómo estimar el tamaño de mercado y qué empresas comparar.
Para la academia, una clasificación clara es un prerrequisito para establecer *benchmarks* comparables. Si el término "modelo del mundo" continúa siendo tan vago, los investigadores no podrán definir qué cuenta como mejora o avance, y la revisión por pares se basará en ambigüedades.
World Labs señala también que aclarar conceptos no busca crear divisiones. La dirección futura será la fusión de las tres proyecciones. Un modelo que realmente entienda las propiedades físicas de una taza debería poder renderizar su apariencia visual, simular su proceso físico al ser empujada, y planificar cómo un brazo robótico la agarra de forma estable. Pero hasta que la tecnología llegue ahí, reconocer los límites actuales es más significativo que especular sobre la fusión.
Según las estimaciones del artículo de World Labs, simuladores y tecnologías de gemelo digital como NVIDIA Omniverse apuntan a un mercado potencial de más de un billón de dólares en áreas como fábricas, almacenes y cadena de suministro. Esta cifra proviene de los propios fabricantes. Respecto a cuándo el mercado alcanzará realmente esa escala, dependerá de si los simuladores superan el cuello de botella de la escasez de datos físicos 3D de alta calidad.
Para la industria de la IA en su etapa actual, quizás la lección más importante sea simple: generar videos realistas no es igual a entender el mundo físico; que a algo se le llame modelo del mundo no significa que realmente esté simulando el mundo. Atravesar el lenguaje de marketing, examinar qué entrada recibe un sistema, qué resultados genera y qué eslabón le falta en el ciclo POMDP, es la forma más honesta de juzgar los límites de su capacidad técnica.







