Los Modelos del Mundo Pasan de la Predicción a la Planificación: HWM y el Desafío del Control a Largo Plazo

marsbitPublicado a 2026-04-17Actualizado a 2026-04-17

Resumen

El modelo mundial ha evolucionado desde el enfoque en el aprendizaje de representaciones y la predicción hacia la planificación jerárquica para abordar el control de largo plazo. Sistemas como V-JEPA 2 demuestran capacidades predictivas sólidas, pero enfrentan desafíos en tareas multietapa debido a la acumulación de errores y la explosión del espacio de búsqueda. HWM (Hierarchical World Model) introduce una estructura de planificación en dos niveles: uno superior para organizar la trayectoria en etapas y otro inferior para la ejecución local. Esto reduce la complejidad computacional y mejora la estabilidad en tareas largas. En experimentos, HWM logró un 70% de éxito en tareas de manipulación, frente al 0% de modelos de un solo nivel. Junto con WAV, que se centra en la verificación de predicciones, estos enfoques convergen hacia sistemas que integran predicción, planificación y corrección. La investigación actual ya no se limita a predecir el futuro, sino a transformar esa capacidad en acciones ejecutables y verificables en escenarios reales.

El foco de investigación de los modelos del mundo en el último año se ha centrado inicialmente en el aprendizaje de representaciones y la predicción futura. Los modelos primero comprenden el mundo y luego simulan internamente los estados futuros. Esta línea de trabajo ya ha producido una serie de resultados representativos. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — un modelo del mundo en video publicado por Meta en 2025) utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con una pequeña cantidad de datos de interacción de robots, demostró el potencial de los modelos del mundo en la comprensión, predicción y planificación de robots con cero ejemplos (zero-shot).

Pero que un modelo pueda predecir no significa que pueda manejar tareas largas. Frente a un control multi-etapa, el sistema suele encontrar dos problemas principales. Uno es que el error de predicción se acumula continuamente durante un rollout largo (simulación de múltiples pasos consecutivos), haciendo que toda la trayectoria se desvíe cada vez más del objetivo. El otro es que el espacio de búsqueda de acciones se expande rápidamente a medida que crece el horizonte (distancia de planificación), lo que provoca un aumento continuo del coste de planificación. HWM no redefine la ruta de aprendizaje subyacente del modelo del mundo, sino que añade una estructura de planificación jerárquica sobre el modelo del mundo existente con condicionamiento de acciones, permitiendo que el sistema primero organice la trayectoria por etapas y luego procese las acciones locales.

Técnicamente, V-JEPA 2 (https://ai.meta.com/research/vjepa/) se inclina más hacia la representación del mundo y la predicción básica, HWM se inclina más hacia la planificación a largo plazo, y WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) se inclina más hacia la identificación y corrección por parte del modelo de sus propias distorsiones predictivas. Estas tres líneas están convergiendo gradualmente. El enfoque de la investigación en modelos del mundo ha pasado de simplemente predecir el futuro a cómo convertir la capacidad de predicción en una capacidad sistémica ejecutable, corregible y verificable.

I. ¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?

La dificultad del control a largo plazo se ve más fácilmente en las tareas de robótica. Tomemos como ejemplo la manipulación de un brazo robótico: agarrar una taza y ponerla en un cajón no es una acción única, sino una secuencia de pasos continuos. El sistema debe acercarse al objeto, ajustar la postura, completar el agarre, moverse a la posición objetivo y luego manejar el cajón y la colocación. Cuando la cadena es larga, surgen dos problemas simultáneamente. Uno es que el error de predicción se acumula continuamente a lo largo del rollout, y el otro es que el espacio de búsqueda de acciones se expande rápidamente.

Lo que al sistema le suele faltar no es la capacidad de predicción local, sino la capacidad de organizar un objetivo lejano en una trayectoria por etapas. Muchas acciones, vistas localmente, parecen desviarse del objetivo, pero en realidad son pasos intermedios necesarios para completarlo. Por ejemplo, levantar el brazo antes de agarrar, o retroceder un poco y ajustar el ángulo antes de abrir un cajón.

En tareas de demostración, los modelos del mundo ya pueden proporcionar predicciones coherentes. Pero al entrar en escenarios de control real, el rendimiento comienza a decaer y surgen los problemas. La presión no solo proviene de la representación en sí, sino también de que la capa de planificación aún no está lo suficientemente madura.

II. Cómo HWM reestructura el proceso de planificación

HWM divide el proceso de planificación, que originalmente se completaba en una sola capa, en dos capas. La capa superior se encarga de la dirección de la etapa en una escala de tiempo más larga, y la capa inferior se encarga de la ejecución local en una escala de tiempo más corta. El modelo no planifica a un solo ritmo, sino que planifica simultáneamente a dos ritmos temporales diferentes.

Los métodos de una sola capa, al procesar tareas largas, generalmente necesitan buscar directamente en el espacio de acciones de bajo nivel toda la cadena de acciones. Cuanto más larga es la tarea, mayor es el coste de búsqueda y más fácil es que el error de predicción se difunda continuamente a lo largo de un rollout de múltiples pasos. Al separar el proceso, HWM hace que el nivel alto solo maneje la selección de la ruta en escalas de tiempo largas, y el nivel bajo solo complete las acciones del segmento actual. Toda la tarea larga se divide en múltiples tareas más cortas, y la complejidad de la planificación disminuye.

Aquí hay un diseño clave: las acciones de alto nivel no son simplemente un registro de la diferencia entre dos estados, sino que utilizan un codificador para comprimir un segmento de acciones de bajo nivel en una representación de acción de nivel superior. Para tareas largas, la clave no está solo en cuánto difieren el punto de inicio y el final, sino en cómo se organizan los pasos intermedios. Si el nivel alto solo mira la diferencia de desplazamiento,容易 perder la información de la ruta en esta cadena de acciones.

HWM representa una forma jerárquica de organizar tareas. Frente a un trabajo multi-etapa, el sistema ya no despliega todas las acciones de una vez, sino que primero forma una trayectoria de etapas más gruesa y luego ejecuta y corrige segmento por segmento. Cuando esta relación jerárquica se incorpora al modelo del mundo, la capacidad de predicción comienza a convertirse de manera más estable en capacidad de planificación.

III. Del 0% al 70%, ¿qué indican los resultados experimentales?

En la tarea del mundo real de agarrar y colocar configurada en el artículo, el sistema solo recibe la condición del objetivo final, sin proporcionar objetivos intermedios desglosados manualmente. Bajo estas condiciones, HWM alcanzó una tasa de éxito del 70%, mientras que el modelo del mundo de una sola capa tuvo una tasa de éxito del 0%. La tarea larga, que originalmente era casi imposible de completar, se convirtió en un resultado probablemente achievable después de introducir la planificación jerárquica.

El artículo también probó tareas de simulación como la manipulación de objetos empujándolos y la navegación en laberintos. Los resultados mostraron que la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el coste computacional de la fase de planificación. En algunos entornos, el coste computacional de la fase de planificación se puede reducir hasta aproximadamente una cuarta parte del original, manteniendo una tasa de éxito igual o mayor.

IV. De V-JEPA a HWM y luego a WAV

V-JEPA 2 representa la línea de trabajo de la representación del mundo. V-JEPA 2 utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con menos de 62 horas de videos de robots para el post-training (entrenamiento específico después del preentrenamiento), obtuvo un latent action-conditioned world model (modelo del mundo en espacio de representación abstracto, que predice combinando información de acciones) utilizable para la comprensión, predicción y planificación del mundo físico. Lo que demuestra es que el modelo puede adquirir una representación del mundo a través de la observación a gran escala y transferir esta representación a la planificación de robots.

HWM da el siguiente paso. El modelo ya posee la representación del mundo y la capacidad de predicción básica, pero tan pronto como entra en el control multi-etapa, estallan los problemas de acumulación de errores y expansión del espacio de búsqueda. HWM no cambia la ruta de aprendizaje de representaciones subyacente, sino que añade una estructura de planificación multi-escala temporal sobre el modelo del mundo existente con condicionamiento de acciones. El problema que aborda es cómo el modelo organiza un objetivo lejano en un conjunto de pasos intermedios y luego los avanza segmento por segmento.

WAV lleva el enfoque un paso further hacia la capacidad de verificación. Para que los modelos del mundo entren en escenarios de optimización de políticas y despliegue, no pueden solo predecir, sino que también deben descubrir en qué áreas son propensos a distorsionarse y realizar correcciones en consecuencia. Se centra en cómo el modelo se verifica a sí mismo.

V-JEPA se inclina hacia la representación del mundo, HWM hacia la planificación de tareas, y WAV hacia la verificación de resultados. Aunque sus focos son diferentes, la dirección general es consistente. La siguiente fase de los modelos del mundo ya no es solo la predicción interna, sino que la predicción, la planificación y la verificación se conectan gradualmente formando una capacidad sistémica.

V. De la predicción interna hacia un sistema ejecutable

Muchos trabajos anteriores sobre modelos del mundo se acercaban más a mejorar la continuidad de la predicción de estados futuros o a mejorar la estabilidad de la representación interna del mundo. Pero el enfoque de la investigación actual ha comenzado a cambiar: el sistema debe formar un juicio sobre el entorno, pero también convertir ese juicio en acción, y continuar corrigiendo el siguiente paso después de que se obtengan los resultados. Para acercarse más a un despliegue real, es necesario controlar la propagación de errores en tareas de largo plazo, comprimir el ámbito de búsqueda y reducir el coste de inferencia.

Este tipo de cambios también afectará a los agentes de IA. Muchos sistemas de agentes ya pueden completar tareas de cadena corta, como invocar herramientas, leer archivos, ejecutar instrucciones de varios pasos. Pero una vez que la tarea se vuelve de cadena larga, multi-etapa y necesita replanificación intermedia, el rendimiento decae. Esto no es fundamentalmente diferente de la dificultad en el control de robots: en ambos casos, la capacidad insuficiente de organización de la ruta de alto nivel provoca una desconexión entre la ejecución local y el objetivo global.

El enfoque jerárquico proporcionado por HWM —nivel alto responsable de la ruta y los objetivos de etapa, nivel bajo responsable de las acciones locales y el procesamiento de feedback, superpuesto con la verificación de resultados—, este tipo de estructura jerárquica aparecerá continuamente en más sistemas en el futuro. El enfoque de la siguiente fase de los modelos del mundo tampoco será solo predecir el futuro, sino organizar la predicción, la ejecución y la corrección en una trayectoria que pueda ser ejecutada.

Preguntas relacionadas

Q¿Cuál es el enfoque principal de la investigación en modelos del mundo en el último año?

AEl enfoque principal de la investigación en modelos del mundo en el último año ha evolucionado desde el aprendizaje de representaciones y la predicción del futuro hacia la capacidad de convertir esa capacidad predictiva en una capacidad sistémica ejecutable, corregible y verificable para la planificación y el control.

Q¿Qué dos problemas principales enfrentan los sistemas de control de largo horizonte (long-horizon) según el artículo?

ALos sistemas de control de largo horizonte enfrentan dos problemas principales: 1) Los errores de predicción se acumulan continuamente durante el 'rollout' (simulación de múltiples pasos), haciendo que la trayectoria se desvíe del objetivo. 2) El espacio de búsqueda de acciones se expande rápidamente a medida que aumenta el horizonte de planificación, lo que incrementa sustancialmente el coste computacional de la planificación.

Q¿Cómo aborda HWM (Hierarchical World Model) el problema de la planificación de largo plazo?

AHWM aborda el problema de la planificación de largo plazo introduciendo una estructura de planificación jerárquica sobre un modelo del mundo existente que ya incluye condicionamiento por acciones. Divide el proceso en dos capas: una capa superior que se encarga de la dirección de la fase en escalas de tiempo más largas, y una capa inferior que maneja la ejecución local en escalas de tiempo más cortas. Esto descompone una tarea larga en múltiples subtareas más cortas, reduciendo la complejidad de la planificación y el error acumulado.

Q¿Qué papel desempeñan V-JEPA 2, HWM y WAV en el desarrollo de modelos del mundo según el texto?

AV-JEPA 2, HWM y WAV representan tres líneas de trabajo que están convergiendo: V-JEPA 2 se centra en la representación del mundo y la predicción básica mediante pre-entrenamiento a gran escala. HWM se centra en la planificación de largo plazo mediante una estructura jerárquica. WAV (World Action Verifier) se centra en la verificación, es decir, en la capacidad del modelo para identificar y corregir sus propias distorsiones predictivas. Juntos, contribuyen a formar un sistema completo con capacidades de predicción, planificación y verificación.

Q¿Qué mejora de rendimiento demostró HWM en los experimentos mencionados?

AEn los experimentos de agarre y colocación en el mundo real mencionados, donde el sistema solo recibía la condición del objetivo final sin objetivos intermedios predefinidos, HWM alcanzó una tasa de éxito del 70%, mientras que un modelo del mundo de una sola capa tuvo una tasa de éxito del 0%. Además, en algunas tareas de simulación, la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el coste computacional de la fase de planificación hasta aproximadamente una cuarta parte del coste original.

Lecturas Relacionadas

¿Quién está inyectando dinero en el mercado bajista de las criptomonedas?

A pesar de una corrección del mercado en el primer trimestre de 2026, con Bitcoin cayendo más del 25%, el capital institucional siguió fluyendo hacia las criptomonedas. Los actores clave fueron empresas como Strategy (que adquirió Bitcoin por valor de 100.000 millones de dólares), fondos soberanos como Mubadala de Abu Dabi y nuevos ETF institucionales. Se lanzaron aproximadamente 26 nuevos ETF, incluidos productos de Morgan Stanley y BlackRock, este último con el primer ETF de staking de Ethereum. Las inversiones de capital de riesgo se mantuvieron sólidas en 50.000-68.000 millones de dólares, aunque muy concentradas en tres grandes operaciones: BVNK (18.000 millones), Kalshi (10.000 millones) y Polymarket (6.000 millones). Los sectores más financiados fueron pagos/stablecoins y mercados de predicción, mientras que DeFi y NFT perdieron protagonismo. El panorama muestra una divergencia: los fondos a largo plazo acumulan, mientras que los fondos de cobertura y mineros venden. La incertidumbre persiste respecto a la reserva estratégica de Bitcoin de EE.UU., que aún no ha realizado ninguna compra.

Odaily星球日报Hace 1 hora(s)

¿Quién está inyectando dinero en el mercado bajista de las criptomonedas?

Odaily星球日报Hace 1 hora(s)

Hackeo de Kelp DAO: Aave DAO Propone Contribuir con 25,000 ETH a los Esfuerzos de Recuperación

La DAO de Aave ha propuesto destinar 25,000 ETH de su tesorería para apoyar la recuperación tras la explotación de Kelp DAO, como parte de la iniciativa "DeFi United". El ataque, ocurrido el 18 de abril, drenó activos y rompió la relación de garantía entre ETH bloqueado y tokens emitidos, creando un déficit inicial de ~163,183 ETH. Mediante esfuerzos coordinados, se recuperaron ~87,955 ETH (incluyendo fondos congelados por Kelp DAO y recuperaciones en Arbitrum y mediante liquidaciones en Aave y Compound). No obstante, persiste un faltante de ~75,081 ETH. Para cubrirlo, el ecosistema ha comprometido 14,570 ETH en donaciones (EtherFi, Lido, Ethena), una línea de crédito de 30,000 ETH de Mantle y la contribución clave de Aave DAO de 25,000 ETH. Esta última es "anclada", meaning que no se reducirá con futuras donaciones, sino que fondos adicionales reembolsarán el capital prestado. El objetivo final es reintregrar ~120,015 ETH al sistema para restaurar su integridad.

bitcoinistHace 1 hora(s)

Hackeo de Kelp DAO: Aave DAO Propone Contribuir con 25,000 ETH a los Esfuerzos de Recuperación

bitcoinistHace 1 hora(s)

Desbloqueo de tokens de la semana: SUI desbloquea tokens por valor de 42 millones de dólares

Esta semana, destacan dos importantes desbloqueos de tokens. EigenLayer liberará 36,85 millones de tokens (valorados en ~$6,67 millones), un protocolo de reposición que permite a los usuarios de Ethereum ampliar su seguridad económica a otras aplicaciones. Por otro lado, Jupiter desbloqueará 53,35 millones de tokens (~$9,23 millones); es un agregador de DEX en Solana que ofrece mejores precios y menor deslizamiento para operaciones. Ambos proyectos tienen curvas de emisión específicas que regulan la liberación de sus tokens.

marsbitHace 2 hora(s)

Desbloqueo de tokens de la semana: SUI desbloquea tokens por valor de 42 millones de dólares

marsbitHace 2 hora(s)

¿Cuándo Es La Próxima Reunión De La FOMC Y Cuáles Son Las Expectativas Para Las Criptomonedas?

El próximo encuentro del Comité Federal de Mercado Abierto (FOMC) está programado para el 29 de abril de 2026, según el sitio web del CME Group. Las reuniones, que se llevan a cabo ocho veces al año, determinan las tasas de interés en Estados Unidos y suelen tener un impacto significativo en el mercado de criptomonedas. Las posturas de la Fed —"halcón" (hawkish) o "paloma" (dovish)— definen si las tasas suben, bajan o se mantienen. Una postura halcón, que implica un aumento de tasas, suele generar cautela entre los inversores y provocar caídas en los mercados, incluyendo las criptomonedas. Por el contrario, una postura de paloma, con recortes en las tasas, suele ser alcista para las criptomonedas, ya que incentiva la inversión en activos de mayor riesgo. En esta ocasión, la herramienta FedWatch indica una probabilidad del 99,5% de que la Fed mantenga las tasas sin cambios en el rango actual del 3,5%–3,75%. Esto sugiere que es poco probable que el resultado de la reunión cause un movimiento significativo en el mercado de criptomonedas, que actualmente tiene una capitalización de 2.570 millones de dólares.

bitcoinistHace 2 hora(s)

¿Cuándo Es La Próxima Reunión De La FOMC Y Cuáles Son Las Expectativas Para Las Criptomonedas?

bitcoinistHace 2 hora(s)

Informe Mundial de Riqueza 2026: EEUU genera 36 millonarios diarios, India se convierte en el caballo negro de crecimiento más rápido

Resumen del Informe de Riqueza 2026 de Knight Frank: Entre 2021 y 2026, el número de personas con patrimonio ultra alto (UHNWI, con más de 30 millones de dólares) aumentó de 551,435 a 713,626 a nivel mundial, con un promedio de 89 nuevos millonarios diarios. Estados Unidos lidera este crecimiento, representando el 41% de los nuevos UHNWI. China se mantiene como el segundo centro de creación de riqueza, aunque su participación global disminuyó del 18% al 17%. India destaca como la economía de más rápido crecimiento, con un aumento del 63% en su número de UHNWI. Europa cuenta con 183,953 ultra ricos, aproximadamente una cuarta parte del total mundial. Países como Polonia, Suecia y Rumanía muestran un crecimiento notable, con aumentos previstos de más del 60% en los próximos años. A nivel regional, América del Norte domina con el 37% de los UHNWI, seguida de Asia-Pacífico (31%) y Europa (25%). Oriente Medio también muestra un crecimiento significativo, aumentando su participación del 2,4% al 3,1%. La riqueza global se está diversificando, con economías emergentes como Indonesia, Arabia Saudita y Vietnam impulsando el crecimiento futuro.

marsbitHace 3 hora(s)

Informe Mundial de Riqueza 2026: EEUU genera 36 millonarios diarios, India se convierte en el caballo negro de crecimiento más rápido

marsbitHace 3 hora(s)

Trading

Spot

Futuros

Los Modelos del Mundo Pasan de la Predicción a la Planificación: HWM y el Desafío del Control a Largo Plazo

Resumen

I. ¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?

II. Cómo HWM reestructura el proceso de planificación

III. Del 0% al 70%, ¿qué indican los resultados experimentales?

IV. De V-JEPA a HWM y luego a WAV

V. De la predicción interna hacia un sistema ejecutable

Preguntas relacionadas

Lecturas Relacionadas

¿Quién está inyectando dinero en el mercado bajista de las criptomonedas?

Hackeo de Kelp DAO: Aave DAO Propone Contribuir con 25,000 ETH a los Esfuerzos de Recuperación

Desbloqueo de tokens de la semana: SUI desbloquea tokens por valor de 42 millones de dólares

¿Cuándo Es La Próxima Reunión De La FOMC Y Cuáles Son Las Expectativas Para Las Criptomonedas?

Informe Mundial de Riqueza 2026: EEUU genera 36 millonarios diarios, India se convierte en el caballo negro de crecimiento más rápido

Trading

Categorías populares

Etiquetas Populares