Autor: Fei-Fei Li
Compilación: Jiayang
“Modelo del mundo” es probablemente el concepto más popular y confuso en el campo de la IA desde 2025. Cuando salió Sora, OpenAI lo llamó un simulador del mundo; Genie, que te permite moverte en las imágenes generadas, también se llama modelo del mundo; las empresas de robótica dicen que están haciendo modelos del mundo, NVIDIA dice que Omniverse es la infraestructura para los modelos del mundo, e incluso los motores de juegos se han sumado a esta narrativa. Todos usan la misma palabra, pero cada uno habla de algo completamente diferente.
Hoy, Fei-Fei Li publicó un nuevo artículo en su Substack personal, aclarando este concepto. Primero vuelve al diagrama clásico de los libros de texto de aprendizaje por refuerzo (el ciclo POMDP: agente → acción → estado → observación → agente) y luego señala: las cosas que ahora se llaman “modelo del mundo” son en realidad tres proyecciones diferentes de este ciclo cerrado. El que emite píxeles (observaciones) es el renderizador; el que emite estados es el simulador; el que emite acciones es el planificador. El criterio de clasificación es muy sencillo: depende de qué parte del ciclo cierra.

(Fuente: MIT Technology Review)
Ella concluye que, de los tres, el renderizador es el más maduro comercialmente pero tiene un límite (que algo se vea bien no significa que sea físicamente correcto), el planificador es el más emocionante pero el más alejado de un despliegue real (la brecha entre una demostración de laboratorio y la usabilidad real sigue siendo enorme), y el simulador es el eslabón clave infravalorado. Porque el simulador trabaja a nivel de geometría, física y dinámica, pudiendo proyectarse hacia arriba como píxeles para consumo humano, o hacia abajo para deducir las consecuencias de las acciones para uso de robots. Dominar la simulación significa tener al mismo tiempo la base para la renderización y la planificación; lo contrario no es cierto.
Este artículo es también el manifiesto del producto de World Labs. Su Marble ya está emitiendo al mismo tiempo splats gaussianos y mallas de colisión, intentando unificar el renderizador y el simulador en un solo modelo. Al final del artículo se describe una meta final: un modelo base unificado del mundo, capaz de cambiar libremente entre renderización, simulación y planificación según las necesidades posteriores. Que esta visión se haga realidad o no es otra cuestión, pero como marco analítico, la triple división de renderizador/simulador/planificador quizás sí ayude a atravesar parte del ruido actual en torno al concepto de “modelo del mundo”.
Traducción completa a continuación.
“El mundo es la totalidad de los hechos.” — Wittgenstein, *Tractatus Logico-Philosophicus*, 1921
El mundo no está hecho de palabras.
En un artículo anterior, propusimos que la inteligencia espacial es la próxima frontera de la IA, y que los modelos del mundo son el camino hacia ella. Aquí, el equipo de World Labs y yo queremos profundizar un paso más: de las muchas cosas hoy denominadas “modelos del mundo”, ¿qué módulos funcionales constituyen realmente esta capacidad? ¿Y para qué sirve cada uno?
Los modelos de lenguaje han dotado a las máquinas de un poderoso control sobre conceptos, vocabulario y razonamiento, pero el mundo físico, ya sea virtual o real, funciona sobre una base completamente diferente. Los modelos de lenguaje aprenden la estructura estadística del texto; los modelos del mundo aprenden la estructura estadística del espacio y el tiempo: cómo cae la luz sobre una superficie, cómo se ve un jardín desde un ángulo nunca captado por una cámara, cómo responden los objetos a las fuerzas y siguen las leyes de la física.
Esto convierte a “modelo del mundo” en uno de los términos más importantes y, a la vez, más abusados en el campo actual de la IA. La visión por computadora, la robótica, el aprendizaje por refuerzo y la IA generativa afirman estar construyendo modelos del mundo, pero cada uno se refiere a algo radicalmente distinto. Un modelo de vídeo que genera llamas espléndidas pero físicamente imposibles, un modelo de lenguaje que improvisa un juego jugable, un motor físico que simula fielmente el proceso de combustión, todos reciben el mismo nombre.
Los antiguos griegos nunca pudieron ponerse de acuerdo sobre de qué estaba hecho el mundo, ya fuera fuego, agua o átomos indivisibles, porque “el mundo” nunca fue una sola cosa. Siempre fue un sustituto que un pensador usaba para razonar sobre cierta totalidad. La IA hereda el mismo problema, y justo cuando el campo más necesita precisión.
El ciclo detrás de la taxonomía
Para aclarar este caos, se puede empezar con un diagrama más antiguo que todas las tecnologías anteriores. Todos los libros de texto de aprendizaje por refuerzo, incluido el clásico de Sutton y Barto, han utilizado durante décadas variantes del mismo gráfico para describir cómo un agente interactúa con el mundo. El nombre formal es Proceso de Decisión de Markov Parcialmente Observable (POMDP), y la definición original del término “modelo del mundo” pertenece a esta tradición.
Un agente (puede ser una persona, un robot o un sistema de software) ejecuta una acción. Esa acción cambia el estado del mundo. Pero el agente nunca ve el estado directamente; lo que recibe es una observación: los fotones que llegan a la retina, las lecturas de los sensores, los píxeles en un fotograma de vídeo. La nueva observación guía una nueva acción, y así sucesivamente.
La palabra “estado” necesita desglosarse, porque su significado cambia en diferentes campos. Aquí no hablamos del estado del químico, ni de la diferencia entre sólido, líquido y gaseoso. Aquí hablamos del estado del físico y el robótico: la descripción completa de todo lo que ocurre en el mundo en un momento dado, incluyendo cada objeto, cada posición, cada velocidad, cada propiedad. El estado es la realidad subyacente del mundo, en principio completa, pero siempre inobservable directamente para cualquier agente dentro de él. La observación es la perspectiva parcial de ese agente sobre esa realidad. La acción es la respuesta del agente en consecuencia.
Este ciclo (agente → acción → estado → observación → agente) es precisamente la estructura que da su significado técnico al término “modelo del mundo”. La frase en sí es más antigua, remontándose a la propuesta de Kenneth Craik en 1943 de que la mente razona ejecutando “modelos a pequeña escala” de la realidad, y a finales de los 80 y principios de los 90, el concepto se introdujo en el campo de las redes neuronales. Este ciclo también explica lo que la gente quiere decir hoy cuando usa el término. Las diversas cosas ahora llamadas modelos del mundo son, en realidad, diferentes proyecciones del mismo ciclo, cada una emitiendo una parte diferente de él.
Tres funciones de los modelos del mundo
El primer tipo de modelo del mundo es el **renderizador**. El renderizador emite **observaciones**, concretamente píxeles destinados al ojo humano, y la métrica de calidad más importante es la fidelidad visual. Un modelo de vídeo que convierte un prompt de texto en tomas aéreas de calidad cinematográfica es un renderizador; sistemas interactivos como Genie 3 de Google o el propio RTFM de World Labs también son renderizadores, generan imágenes en tiempo real basándose en la entrada del usuario. Este tipo de modelo no tiene una comprensión explícita de la estructura tridimensional. Genera lo que un observador vería, no cómo son las cosas en sí. Un edificio en una toma aérea puede parecer perfecto desde el aire, pero intente caminar por la ciudad debajo y se derrumbará.
El segundo tipo es el **simulador**. El simulador emite **estados**: una representación del mundo fiel en términos de geometría, física o dinámica, sobre la que tanto humanos como programas informáticos pueden calcular e interactuar. El contrato del renderizador es puramente visual; el del simulador es estructural, exige que la geometría se sostenga, que la física siga las leyes de Newton, que la dinámica se comporte como dictan las leyes físicas. El simulador sirve a dos tipos de usuarios. Profesionales como arquitectos, diseñadores, cineastas y desarrolladores de videojuegos necesitan precisión más allá de la credibilidad visual. Programas informáticos como agentes de aprendizaje por refuerzo, controladores robóticos o vehículos autónomos usan el simulador como campo de entrenamiento, interactuando con el mundo a gran escala, probando escenarios que en la realidad serían peligrosos, caros o directamente imposibles de ejecutar.
El tercer tipo es el **planificador**. El planificador emite **acciones**. Dada una observación y un objetivo, el planificador responde a la pregunta: ¿qué debe hacer el agente a continuación? En muchos sentidos, el planificador es el proceso inverso del renderizador. El renderizador toma acciones como entrada y produce observaciones; el planificador toma observaciones como entrada y produce acciones, cerrando así el ciclo percepción-acción. Los modelos visual-lenguaje-acción (VLA), los sistemas basados en modelos y la nueva ola de Modelos de Acción del Mundo (World Action Models) son diferentes intentos de planificación: permitir que un sistema decida qué debe hacer un robot en un mundo no estructurado.
Estas tres categorías cubren la mayor parte del trabajo que actualmente se está implementando, y su distinción es útil en la práctica. Pero no están fundamentalmente separadas. Comparten el mismo conocimiento subyacente sobre cómo funciona el mundo: geometría, física, dinámica. Un modelo que puede renderizar una taza desde cualquier ángulo debería, en principio, poder también simular qué pasa si la taza es empujada y planificar que una mano la recoja. Cada vez más investigaciones interesantes están difuminando intencionadamente los límites entre estas tres.

Diagrama | Tres tipos de modelos del mundo (Fuente: Substack)
Por qué la simulación es el eslabón clave
De las tres categorías, el simulador recibe la menor atención pública, pero es la más importante de las tres. Este artículo quiere corregir esa asimetría.
El **renderizador** es actualmente el más maduro comercialmente. Numerosos productos de imagen-a-vídeo o texto-a-vídeo se están expandiendo rápidamente en los mercados de consumo y empresarial. El modelo Nano Banana de Google lleva capacidades de generación de imágenes a nivel de renderizador a cientos de millones de usuarios potenciales. La tecnología es real, y el mercado también. Sin embargo, el objetivo de optimización del renderizador es la credibilidad visual, no la precisión física, y este límite es importante. Su salida es hermosa, pero no se puede usar para diseñar un edificio o entrenar un robot.
El **planificador** es el más emocionante y menos maduro, y está estrechamente ligado al campo del aprendizaje robótico en rápida evolución. En los últimos dos años, este campo ha producido varias demostraciones robóticas impresionantes en vídeo, pero debemos ser honestos sobre lo que realmente muestran estas demostraciones. Casi todas están limitadas a entornos de laboratorio altamente restringidos, con un conjunto limitado de objetos y tareas de corta duración. Ninguna ha sido probada frente a la complejidad, diversidad y duración que exige un despliegue en el mundo real. La brecha entre un vídeo de demostración impresionante y un robot que funcione de manera fiable en una cocina, un almacén o un quirófano sigue siendo enorme.
Aun así, la apuesta comercial es considerable. Una ola de nuevos participantes bien financiados compite por lanzar sistemas de planificación general, mientras que los grandes actores de infraestructura están construyendo capacidades de planificación sobre pilas de simulación más amplias.
La **simulación** es el puente que los conecta. Si el lenguaje es una abstracción del mundo y los píxeles una proyección del mundo, entonces la geometría, la física y la dinámica son **el mundo mismo**. El simulador debe funcionar a este nivel: es el esqueleto estructural a partir del cual se pueden deducir tanto la apariencia visual (para el renderizador) como las consecuencias de las acciones (para el planificador).
Un modelo que domina la simulación puede proyectar su comprensión en píxeles para consumo humano o en predicciones de acciones para un agente encarnado. Un modelo que solo domina la renderización o solo la planificación no puede hacer ninguna de las dos cosas. El espacio comercial aquí es inmenso. Solo Omniverse de NVIDIA, según estimaciones de la empresa, tiene un mercado objetivo de más de un billón de dólares, abarcando fábricas, almacenes, cadenas de suministro y gemelos digitales. El entrenamiento de robots, las pruebas de conducción autónoma, la visualización arquitectónica, la ingeniería de diseño, el descubrimiento de fármacos, todos dependen de alguna forma de simulación.
Las preguntas abiertas más difíciles del campo también se concentran aquí. Los datos 3D con geometría explícita, atributos de material y anotaciones físicas son varios órdenes de magnitud más escasos que los vídeos de Internet usados para entrenar renderizadores. La brecha simulación-realidad (sim-to-real gap) (la diferencia entre el comportamiento de los objetos en simulación y en el mundo real) persiste. Los simuladores generativos introducen además nuevos riesgos: una geometría generada por IA puede parecer correcta, pero contener autointersecciones o proporciones erróneas, causando resultados absurdos en la simulación física. El coste computacional de la simulación multifísica a gran escala (cuerpos rígidos, deformables, fluidos, tela interactuando simultáneamente) sigue siendo órdenes de magnitud mayor que la simulación de un solo dominio.
En World Labs, **Marble** es nuestro primer paso en esta dirección. Acepta entradas multimodales (texto, imagen, vídeo o boceto espacial), genera entornos 3D explorables y emite simultáneamente splats gaussianos (Gaussian splats) para exploración visual y mallas de colisión para operación por motores físicos. Pero Marble es solo el primer capítulo de un largo arco. A medida que los límites entre renderización, simulación y planificación comienzan a desdibujarse, todo el campo está escribiendo esta historia.
Los límites se difuminan, y lo que viene después
La tendencia más importante en este campo actualmente es que las tres categorías están empezando a fusionarse. El consenso subyacente es: el conocimiento necesario para renderizar un mundo, simularlo y actuar en él es en gran medida el mismo. Siguiendo el ejemplo anterior, un modelo que realmente comprenda cómo se coloca una taza sobre una mesa (su geometría, propiedades del material, respuesta a fuerzas, etc.) debería poder renderizar esa taza desde cualquier ángulo, simular qué pasa si se empuja y planificar que una mano la recoja. Las tres categorías son tres proyecciones de una misma comprensión subyacente.
Por ejemplo, recientemente ha habido una cantidad pequeña pero creciente de trabajos de diferentes laboratorios de robótica que muestran una posibilidad al menos conceptual: un renderizador de vídeo preentrenado puede servir como red troncal para la predicción conjunta del mundo y de las acciones, permitiendo que un solo modelo imagine tanto “qué pasará” como “qué hacer”, tendiendo así un puente entre renderizador y planificador. Marble de World Labs ya puede emitir simultáneamente splats gaussianos y mallas de colisión desde un solo modelo, disolviendo el límite entre renderizador y simulador. En todos los niveles se está pasando de la salida pasiva a sistemas interactivos: los renderizadores responden a condiciones de acción, los mundos generados por simuladores se vuelven más controlables y editables, los planificadores comienzan a razonar deliberativamente en lugar de solo reaccionar.
El punto final lógico es un **modelo unificado del mundo**: un modelo base capaz de renderizar vistas fotorrealistas, generar estructuras físicamente precisas, planificar secuencias de acciones y cambiar entre diferentes modalidades de salida según las necesidades del usuario final. Seguiremos enfrentándonos a una serie de desafíos formidables. El panorama de datos está muy desequilibrado: los renderizadores tienen abundantes vídeos de Internet, mientras que los simuladores y planificadores sufren una grave escasez de activos 3D y datos de demostración robótica. La optimización para el atractivo visual puede sacrificar la precisión requerida por la robótica o la simulación de alta fidelidad. Conciliar estas tensiones dentro de una única arquitectura es el problema abierto central de la investigación actual sobre modelos del mundo, y en lo que World Labs se centra a medida que evoluciona Marble.

(Fuente: Substack)
Pero la dirección general ya está clara. Desde finales de los años 80 hasta hoy, el campo ha apostado siempre por lo mismo: si el modelo del mundo es lo suficientemente rico, contendrá todo lo que un agente necesita para ver el mundo, construirlo y actuar en él. Esta apuesta está impulsando ahora toda una generación de investigación. Y lo que realmente le da peso es la fusión que ya está ocurriendo: las tres líneas de renderización, simulación y planificación, cada una ya sostiene industrias de miles de millones de dólares, comenzaron como direcciones de investigación independientes y ahora están convergiendo. Cuando los límites desaparecen, la confluencia de las tres redefinirá algo mayor: la relación entre la inteligencia de la máquina y el mundo físico en el que habita, es decir, el camino a largo plazo de la inteligencia espacial.
El lenguaje le dio a la máquina una forma de hablar sobre el mundo. Los modelos del mundo son el camino por el que la máquina finalmente puede llegar a comprender, imaginar, razonar e interactuar con él.
Referencias:1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models







