El foco de investigación de los modelos del mundo en el último año se ha centrado inicialmente en el aprendizaje de representaciones y la predicción futura. Los modelos primero comprenden el mundo y luego simulan internamente los estados futuros. Esta línea de trabajo ya ha producido una serie de resultados representativos. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — un modelo del mundo en video publicado por Meta en 2025) utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con una pequeña cantidad de datos de interacción de robots, demostró el potencial de los modelos del mundo en la comprensión, predicción y planificación de robots con cero ejemplos (zero-shot).
Pero que un modelo pueda predecir no significa que pueda manejar tareas largas. Frente a un control multi-etapa, el sistema suele encontrar dos problemas principales. Uno es que el error de predicción se acumula continuamente durante un rollout largo (simulación de múltiples pasos consecutivos), haciendo que toda la trayectoria se desvíe cada vez más del objetivo. El otro es que el espacio de búsqueda de acciones se expande rápidamente a medida que crece el horizonte (distancia de planificación), lo que provoca un aumento continuo del coste de planificación. HWM no redefine la ruta de aprendizaje subyacente del modelo del mundo, sino que añade una estructura de planificación jerárquica sobre el modelo del mundo existente con condicionamiento de acciones, permitiendo que el sistema primero organice la trayectoria por etapas y luego procese las acciones locales.
Técnicamente, V-JEPA 2 (https://ai.meta.com/research/vjepa/) se inclina más hacia la representación del mundo y la predicción básica, HWM se inclina más hacia la planificación a largo plazo, y WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) se inclina más hacia la identificación y corrección por parte del modelo de sus propias distorsiones predictivas. Estas tres líneas están convergiendo gradualmente. El enfoque de la investigación en modelos del mundo ha pasado de simplemente predecir el futuro a cómo convertir la capacidad de predicción en una capacidad sistémica ejecutable, corregible y verificable.
I. ¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?
La dificultad del control a largo plazo se ve más fácilmente en las tareas de robótica. Tomemos como ejemplo la manipulación de un brazo robótico: agarrar una taza y ponerla en un cajón no es una acción única, sino una secuencia de pasos continuos. El sistema debe acercarse al objeto, ajustar la postura, completar el agarre, moverse a la posición objetivo y luego manejar el cajón y la colocación. Cuando la cadena es larga, surgen dos problemas simultáneamente. Uno es que el error de predicción se acumula continuamente a lo largo del rollout, y el otro es que el espacio de búsqueda de acciones se expande rápidamente.
Lo que al sistema le suele faltar no es la capacidad de predicción local, sino la capacidad de organizar un objetivo lejano en una trayectoria por etapas. Muchas acciones, vistas localmente, parecen desviarse del objetivo, pero en realidad son pasos intermedios necesarios para completarlo. Por ejemplo, levantar el brazo antes de agarrar, o retroceder un poco y ajustar el ángulo antes de abrir un cajón.
En tareas de demostración, los modelos del mundo ya pueden proporcionar predicciones coherentes. Pero al entrar en escenarios de control real, el rendimiento comienza a decaer y surgen los problemas. La presión no solo proviene de la representación en sí, sino también de que la capa de planificación aún no está lo suficientemente madura.
II. Cómo HWM reestructura el proceso de planificación
HWM divide el proceso de planificación, que originalmente se completaba en una sola capa, en dos capas. La capa superior se encarga de la dirección de la etapa en una escala de tiempo más larga, y la capa inferior se encarga de la ejecución local en una escala de tiempo más corta. El modelo no planifica a un solo ritmo, sino que planifica simultáneamente a dos ritmos temporales diferentes.
Los métodos de una sola capa, al procesar tareas largas, generalmente necesitan buscar directamente en el espacio de acciones de bajo nivel toda la cadena de acciones. Cuanto más larga es la tarea, mayor es el coste de búsqueda y más fácil es que el error de predicción se difunda continuamente a lo largo de un rollout de múltiples pasos. Al separar el proceso, HWM hace que el nivel alto solo maneje la selección de la ruta en escalas de tiempo largas, y el nivel bajo solo complete las acciones del segmento actual. Toda la tarea larga se divide en múltiples tareas más cortas, y la complejidad de la planificación disminuye.
Aquí hay un diseño clave: las acciones de alto nivel no son simplemente un registro de la diferencia entre dos estados, sino que utilizan un codificador para comprimir un segmento de acciones de bajo nivel en una representación de acción de nivel superior. Para tareas largas, la clave no está solo en cuánto difieren el punto de inicio y el final, sino en cómo se organizan los pasos intermedios. Si el nivel alto solo mira la diferencia de desplazamiento,容易 perder la información de la ruta en esta cadena de acciones.
HWM representa una forma jerárquica de organizar tareas. Frente a un trabajo multi-etapa, el sistema ya no despliega todas las acciones de una vez, sino que primero forma una trayectoria de etapas más gruesa y luego ejecuta y corrige segmento por segmento. Cuando esta relación jerárquica se incorpora al modelo del mundo, la capacidad de predicción comienza a convertirse de manera más estable en capacidad de planificación.
III. Del 0% al 70%, ¿qué indican los resultados experimentales?
En la tarea del mundo real de agarrar y colocar configurada en el artículo, el sistema solo recibe la condición del objetivo final, sin proporcionar objetivos intermedios desglosados manualmente. Bajo estas condiciones, HWM alcanzó una tasa de éxito del 70%, mientras que el modelo del mundo de una sola capa tuvo una tasa de éxito del 0%. La tarea larga, que originalmente era casi imposible de completar, se convirtió en un resultado probablemente achievable después de introducir la planificación jerárquica.
El artículo también probó tareas de simulación como la manipulación de objetos empujándolos y la navegación en laberintos. Los resultados mostraron que la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el coste computacional de la fase de planificación. En algunos entornos, el coste computacional de la fase de planificación se puede reducir hasta aproximadamente una cuarta parte del original, manteniendo una tasa de éxito igual o mayor.
IV. De V-JEPA a HWM y luego a WAV
V-JEPA 2 representa la línea de trabajo de la representación del mundo. V-JEPA 2 utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con menos de 62 horas de videos de robots para el post-training (entrenamiento específico después del preentrenamiento), obtuvo un latent action-conditioned world model (modelo del mundo en espacio de representación abstracto, que predice combinando información de acciones) utilizable para la comprensión, predicción y planificación del mundo físico. Lo que demuestra es que el modelo puede adquirir una representación del mundo a través de la observación a gran escala y transferir esta representación a la planificación de robots.
HWM da el siguiente paso. El modelo ya posee la representación del mundo y la capacidad de predicción básica, pero tan pronto como entra en el control multi-etapa, estallan los problemas de acumulación de errores y expansión del espacio de búsqueda. HWM no cambia la ruta de aprendizaje de representaciones subyacente, sino que añade una estructura de planificación multi-escala temporal sobre el modelo del mundo existente con condicionamiento de acciones. El problema que aborda es cómo el modelo organiza un objetivo lejano en un conjunto de pasos intermedios y luego los avanza segmento por segmento.
WAV lleva el enfoque un paso further hacia la capacidad de verificación. Para que los modelos del mundo entren en escenarios de optimización de políticas y despliegue, no pueden solo predecir, sino que también deben descubrir en qué áreas son propensos a distorsionarse y realizar correcciones en consecuencia. Se centra en cómo el modelo se verifica a sí mismo.
V-JEPA se inclina hacia la representación del mundo, HWM hacia la planificación de tareas, y WAV hacia la verificación de resultados. Aunque sus focos son diferentes, la dirección general es consistente. La siguiente fase de los modelos del mundo ya no es solo la predicción interna, sino que la predicción, la planificación y la verificación se conectan gradualmente formando una capacidad sistémica.
V. De la predicción interna hacia un sistema ejecutable
Muchos trabajos anteriores sobre modelos del mundo se acercaban más a mejorar la continuidad de la predicción de estados futuros o a mejorar la estabilidad de la representación interna del mundo. Pero el enfoque de la investigación actual ha comenzado a cambiar: el sistema debe formar un juicio sobre el entorno, pero también convertir ese juicio en acción, y continuar corrigiendo el siguiente paso después de que se obtengan los resultados. Para acercarse más a un despliegue real, es necesario controlar la propagación de errores en tareas de largo plazo, comprimir el ámbito de búsqueda y reducir el coste de inferencia.
Este tipo de cambios también afectará a los agentes de IA. Muchos sistemas de agentes ya pueden completar tareas de cadena corta, como invocar herramientas, leer archivos, ejecutar instrucciones de varios pasos. Pero una vez que la tarea se vuelve de cadena larga, multi-etapa y necesita replanificación intermedia, el rendimiento decae. Esto no es fundamentalmente diferente de la dificultad en el control de robots: en ambos casos, la capacidad insuficiente de organización de la ruta de alto nivel provoca una desconexión entre la ejecución local y el objetivo global.
El enfoque jerárquico proporcionado por HWM —nivel alto responsable de la ruta y los objetivos de etapa, nivel bajo responsable de las acciones locales y el procesamiento de feedback, superpuesto con la verificación de resultados—, este tipo de estructura jerárquica aparecerá continuamente en más sistemas en el futuro. El enfoque de la siguiente fase de los modelos del mundo tampoco será solo predecir el futuro, sino organizar la predicción, la ejecución y la corrección en una trayectoria que pueda ser ejecutada.








