Los Modelos del Mundo Pasan de la Predicción a la Planificación: HWM y el Desafío del Control a Largo Plazo

marsbitPublicado a 2026-04-17Actualizado a 2026-04-17

Resumen

El modelo mundial ha evolucionado desde el enfoque en el aprendizaje de representaciones y la predicción hacia la planificación jerárquica para abordar el control de largo plazo. Sistemas como V-JEPA 2 demuestran capacidades predictivas sólidas, pero enfrentan desafíos en tareas multietapa debido a la acumulación de errores y la explosión del espacio de búsqueda. HWM (Hierarchical World Model) introduce una estructura de planificación en dos niveles: uno superior para organizar la trayectoria en etapas y otro inferior para la ejecución local. Esto reduce la complejidad computacional y mejora la estabilidad en tareas largas. En experimentos, HWM logró un 70% de éxito en tareas de manipulación, frente al 0% de modelos de un solo nivel. Junto con WAV, que se centra en la verificación de predicciones, estos enfoques convergen hacia sistemas que integran predicción, planificación y corrección. La investigación actual ya no se limita a predecir el futuro, sino a transformar esa capacidad en acciones ejecutables y verificables en escenarios reales.

El foco de investigación de los modelos del mundo en el último año se ha centrado inicialmente en el aprendizaje de representaciones y la predicción futura. Los modelos primero comprenden el mundo y luego simulan internamente los estados futuros. Esta línea de trabajo ya ha producido una serie de resultados representativos. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — un modelo del mundo en video publicado por Meta en 2025) utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con una pequeña cantidad de datos de interacción de robots, demostró el potencial de los modelos del mundo en la comprensión, predicción y planificación de robots con cero ejemplos (zero-shot).

Pero que un modelo pueda predecir no significa que pueda manejar tareas largas. Frente a un control multi-etapa, el sistema suele encontrar dos problemas principales. Uno es que el error de predicción se acumula continuamente durante un rollout largo (simulación de múltiples pasos consecutivos), haciendo que toda la trayectoria se desvíe cada vez más del objetivo. El otro es que el espacio de búsqueda de acciones se expande rápidamente a medida que crece el horizonte (distancia de planificación), lo que provoca un aumento continuo del coste de planificación. HWM no redefine la ruta de aprendizaje subyacente del modelo del mundo, sino que añade una estructura de planificación jerárquica sobre el modelo del mundo existente con condicionamiento de acciones, permitiendo que el sistema primero organice la trayectoria por etapas y luego procese las acciones locales.

Técnicamente, V-JEPA 2 (https://ai.meta.com/research/vjepa/) se inclina más hacia la representación del mundo y la predicción básica, HWM se inclina más hacia la planificación a largo plazo, y WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) se inclina más hacia la identificación y corrección por parte del modelo de sus propias distorsiones predictivas. Estas tres líneas están convergiendo gradualmente. El enfoque de la investigación en modelos del mundo ha pasado de simplemente predecir el futuro a cómo convertir la capacidad de predicción en una capacidad sistémica ejecutable, corregible y verificable.

I. ¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?

La dificultad del control a largo plazo se ve más fácilmente en las tareas de robótica. Tomemos como ejemplo la manipulación de un brazo robótico: agarrar una taza y ponerla en un cajón no es una acción única, sino una secuencia de pasos continuos. El sistema debe acercarse al objeto, ajustar la postura, completar el agarre, moverse a la posición objetivo y luego manejar el cajón y la colocación. Cuando la cadena es larga, surgen dos problemas simultáneamente. Uno es que el error de predicción se acumula continuamente a lo largo del rollout, y el otro es que el espacio de búsqueda de acciones se expande rápidamente.

Lo que al sistema le suele faltar no es la capacidad de predicción local, sino la capacidad de organizar un objetivo lejano en una trayectoria por etapas. Muchas acciones, vistas localmente, parecen desviarse del objetivo, pero en realidad son pasos intermedios necesarios para completarlo. Por ejemplo, levantar el brazo antes de agarrar, o retroceder un poco y ajustar el ángulo antes de abrir un cajón.

En tareas de demostración, los modelos del mundo ya pueden proporcionar predicciones coherentes. Pero al entrar en escenarios de control real, el rendimiento comienza a decaer y surgen los problemas. La presión no solo proviene de la representación en sí, sino también de que la capa de planificación aún no está lo suficientemente madura.

II. Cómo HWM reestructura el proceso de planificación

HWM divide el proceso de planificación, que originalmente se completaba en una sola capa, en dos capas. La capa superior se encarga de la dirección de la etapa en una escala de tiempo más larga, y la capa inferior se encarga de la ejecución local en una escala de tiempo más corta. El modelo no planifica a un solo ritmo, sino que planifica simultáneamente a dos ritmos temporales diferentes.

Los métodos de una sola capa, al procesar tareas largas, generalmente necesitan buscar directamente en el espacio de acciones de bajo nivel toda la cadena de acciones. Cuanto más larga es la tarea, mayor es el coste de búsqueda y más fácil es que el error de predicción se difunda continuamente a lo largo de un rollout de múltiples pasos. Al separar el proceso, HWM hace que el nivel alto solo maneje la selección de la ruta en escalas de tiempo largas, y el nivel bajo solo complete las acciones del segmento actual. Toda la tarea larga se divide en múltiples tareas más cortas, y la complejidad de la planificación disminuye.

Aquí hay un diseño clave: las acciones de alto nivel no son simplemente un registro de la diferencia entre dos estados, sino que utilizan un codificador para comprimir un segmento de acciones de bajo nivel en una representación de acción de nivel superior. Para tareas largas, la clave no está solo en cuánto difieren el punto de inicio y el final, sino en cómo se organizan los pasos intermedios. Si el nivel alto solo mira la diferencia de desplazamiento,容易 perder la información de la ruta en esta cadena de acciones.

HWM representa una forma jerárquica de organizar tareas. Frente a un trabajo multi-etapa, el sistema ya no despliega todas las acciones de una vez, sino que primero forma una trayectoria de etapas más gruesa y luego ejecuta y corrige segmento por segmento. Cuando esta relación jerárquica se incorpora al modelo del mundo, la capacidad de predicción comienza a convertirse de manera más estable en capacidad de planificación.

III. Del 0% al 70%, ¿qué indican los resultados experimentales?

En la tarea del mundo real de agarrar y colocar configurada en el artículo, el sistema solo recibe la condición del objetivo final, sin proporcionar objetivos intermedios desglosados manualmente. Bajo estas condiciones, HWM alcanzó una tasa de éxito del 70%, mientras que el modelo del mundo de una sola capa tuvo una tasa de éxito del 0%. La tarea larga, que originalmente era casi imposible de completar, se convirtió en un resultado probablemente achievable después de introducir la planificación jerárquica.

El artículo también probó tareas de simulación como la manipulación de objetos empujándolos y la navegación en laberintos. Los resultados mostraron que la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el coste computacional de la fase de planificación. En algunos entornos, el coste computacional de la fase de planificación se puede reducir hasta aproximadamente una cuarta parte del original, manteniendo una tasa de éxito igual o mayor.

IV. De V-JEPA a HWM y luego a WAV

V-JEPA 2 representa la línea de trabajo de la representación del mundo. V-JEPA 2 utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con menos de 62 horas de videos de robots para el post-training (entrenamiento específico después del preentrenamiento), obtuvo un latent action-conditioned world model (modelo del mundo en espacio de representación abstracto, que predice combinando información de acciones) utilizable para la comprensión, predicción y planificación del mundo físico. Lo que demuestra es que el modelo puede adquirir una representación del mundo a través de la observación a gran escala y transferir esta representación a la planificación de robots.

HWM da el siguiente paso. El modelo ya posee la representación del mundo y la capacidad de predicción básica, pero tan pronto como entra en el control multi-etapa, estallan los problemas de acumulación de errores y expansión del espacio de búsqueda. HWM no cambia la ruta de aprendizaje de representaciones subyacente, sino que añade una estructura de planificación multi-escala temporal sobre el modelo del mundo existente con condicionamiento de acciones. El problema que aborda es cómo el modelo organiza un objetivo lejano en un conjunto de pasos intermedios y luego los avanza segmento por segmento.

WAV lleva el enfoque un paso further hacia la capacidad de verificación. Para que los modelos del mundo entren en escenarios de optimización de políticas y despliegue, no pueden solo predecir, sino que también deben descubrir en qué áreas son propensos a distorsionarse y realizar correcciones en consecuencia. Se centra en cómo el modelo se verifica a sí mismo.

V-JEPA se inclina hacia la representación del mundo, HWM hacia la planificación de tareas, y WAV hacia la verificación de resultados. Aunque sus focos son diferentes, la dirección general es consistente. La siguiente fase de los modelos del mundo ya no es solo la predicción interna, sino que la predicción, la planificación y la verificación se conectan gradualmente formando una capacidad sistémica.

V. De la predicción interna hacia un sistema ejecutable

Muchos trabajos anteriores sobre modelos del mundo se acercaban más a mejorar la continuidad de la predicción de estados futuros o a mejorar la estabilidad de la representación interna del mundo. Pero el enfoque de la investigación actual ha comenzado a cambiar: el sistema debe formar un juicio sobre el entorno, pero también convertir ese juicio en acción, y continuar corrigiendo el siguiente paso después de que se obtengan los resultados. Para acercarse más a un despliegue real, es necesario controlar la propagación de errores en tareas de largo plazo, comprimir el ámbito de búsqueda y reducir el coste de inferencia.

Este tipo de cambios también afectará a los agentes de IA. Muchos sistemas de agentes ya pueden completar tareas de cadena corta, como invocar herramientas, leer archivos, ejecutar instrucciones de varios pasos. Pero una vez que la tarea se vuelve de cadena larga, multi-etapa y necesita replanificación intermedia, el rendimiento decae. Esto no es fundamentalmente diferente de la dificultad en el control de robots: en ambos casos, la capacidad insuficiente de organización de la ruta de alto nivel provoca una desconexión entre la ejecución local y el objetivo global.

El enfoque jerárquico proporcionado por HWM —nivel alto responsable de la ruta y los objetivos de etapa, nivel bajo responsable de las acciones locales y el procesamiento de feedback, superpuesto con la verificación de resultados—, este tipo de estructura jerárquica aparecerá continuamente en más sistemas en el futuro. El enfoque de la siguiente fase de los modelos del mundo tampoco será solo predecir el futuro, sino organizar la predicción, la ejecución y la corrección en una trayectoria que pueda ser ejecutada.

Preguntas relacionadas

Q¿Cuál es el enfoque principal de la investigación en modelos del mundo en el último año?

AEl enfoque principal de la investigación en modelos del mundo en el último año ha evolucionado desde el aprendizaje de representaciones y la predicción del futuro hacia la capacidad de convertir esa capacidad predictiva en una capacidad sistémica ejecutable, corregible y verificable para la planificación y el control.

Q¿Qué dos problemas principales enfrentan los sistemas de control de largo horizonte (long-horizon) según el artículo?

ALos sistemas de control de largo horizonte enfrentan dos problemas principales: 1) Los errores de predicción se acumulan continuamente durante el 'rollout' (simulación de múltiples pasos), haciendo que la trayectoria se desvíe del objetivo. 2) El espacio de búsqueda de acciones se expande rápidamente a medida que aumenta el horizonte de planificación, lo que incrementa sustancialmente el coste computacional de la planificación.

Q¿Cómo aborda HWM (Hierarchical World Model) el problema de la planificación de largo plazo?

AHWM aborda el problema de la planificación de largo plazo introduciendo una estructura de planificación jerárquica sobre un modelo del mundo existente que ya incluye condicionamiento por acciones. Divide el proceso en dos capas: una capa superior que se encarga de la dirección de la fase en escalas de tiempo más largas, y una capa inferior que maneja la ejecución local en escalas de tiempo más cortas. Esto descompone una tarea larga en múltiples subtareas más cortas, reduciendo la complejidad de la planificación y el error acumulado.

Q¿Qué papel desempeñan V-JEPA 2, HWM y WAV en el desarrollo de modelos del mundo según el texto?

AV-JEPA 2, HWM y WAV representan tres líneas de trabajo que están convergiendo: V-JEPA 2 se centra en la representación del mundo y la predicción básica mediante pre-entrenamiento a gran escala. HWM se centra en la planificación de largo plazo mediante una estructura jerárquica. WAV (World Action Verifier) se centra en la verificación, es decir, en la capacidad del modelo para identificar y corregir sus propias distorsiones predictivas. Juntos, contribuyen a formar un sistema completo con capacidades de predicción, planificación y verificación.

Q¿Qué mejora de rendimiento demostró HWM en los experimentos mencionados?

AEn los experimentos de agarre y colocación en el mundo real mencionados, donde el sistema solo recibía la condición del objetivo final sin objetivos intermedios predefinidos, HWM alcanzó una tasa de éxito del 70%, mientras que un modelo del mundo de una sola capa tuvo una tasa de éxito del 0%. Además, en algunas tareas de simulación, la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el coste computacional de la fase de planificación hasta aproximadamente una cuarta parte del coste original.

Lecturas Relacionadas

La crisis de la mediana edad de los GP de Crypto: Sin PMF, no hay el próximo cheque de los LP

**Crisis de la mediana edad de los GP de cripto: Sin PMF, no hay próximo cheque de los LP** Los inversores institucionales (LP) ya no compran sueños; los gestores de fondos (GP) deben vender productos concretos. El mercado de cripto ha pasado de la fase de "comprar una visión futura" a la de "comprar un producto específico". Los LP han perdido la paciencia y la confianza tras el ciclo anterior, donde muchos no obtuvieron rendimientos excesivos y la narrativa del "próximo ciclo" se desvaneció. Para sobrevivir, la mayoría de los GP de cripto deben demostrar un "Product-Market Fit" (PMF), ya sea encontrando un nicho donde puedan generar alfa (rendimientos superiores) o resolviendo problemas específicos para los LP. El acceso a la beta (exposición general al mercado) ahora es fácil mediante ETF, ETPs u otros productos líquidos, reduciendo el valor de los fondos de capital riesgo (VC) cripto de "grupo ciego" (blind pool). Las razones tradicionales para invertir en VC cripto se han debilitado: acceso al sector, acceso a acuerdos (deals), juicio superior de los GP y capacidad de "construir la mesa" (networking/exit). Solo los fondos muy grandes con capital paciente (como endowments), family offices, o aquellos que demostraron récords excepcionales en este ciclo, pueden mantenerse en la mesa principal (primary market). Los demás deben reconstruir la confianza desde cero en un nicho específico.

marsbitHace 43 min(s)

La crisis de la mediana edad de los GP de Crypto: Sin PMF, no hay el próximo cheque de los LP

marsbitHace 43 min(s)

Crisis de la mediana edad de los GP en cripto: Sin PMF, no hay próximo cheque de los LP

**Crisis de mediana edad de los GP de cripto: sin PMF, no hay próximo cheque de los LP** El mercado de capitales de cripto ha cambiado. Los LP (Socios Limitados) ya no "compran sueños" sobre un futuro lejano; ahora exigen a los GP (Socios Generales) productos de inversión concretos con un encaje real en el mercado (PMF). El ciclo de "dinero fácil" y narrativas grandilocuentes ha terminado. La mayoría de los GP que no generaron retornos excesivos en este ciclo deben reinventarse. Ya no basta con ofrecer acceso o juicio; los LP, tanto tradicionales como nativos de cripto, se han vuelto escépticos y tienen más opciones (como ETFs) para obtener exposición al sector. Además, herramientas como la IA han reducido la brecha de conocimiento, desafiando el valor básico de muchos GP. Para sobrevivir, los GP deben ofrecer un producto claro. Este análisis clasifica los productos de captación en tres categorías: **Primary** (capital riesgo, ciego o con pipeline definido), **Liquid** (mercados líquidos, enfocados en alfa o beta) y **Yield Nativo CeFi/DeFi** (staking, farming, incentivos de protocolos). En la mesa del capital riesgo primario, solo podrán permanecer: fondos lo suficientemente grandes para el capital paciente de endowment, family offices que invierten capital propio, los pocos fondos con track record probado este ciclo, y aquellos con capacidad demostrada para "armar negocios" y ofrecer recursos estratégicos a los LP. Para el resto, el camino es reconstruir la confianza perdida, demostrando capacidad de generar alfa en un nicho específico o resolviendo un problema concreto para los inversores.

链捕手Hace 1 hora(s)

Crisis de la mediana edad de los GP en cripto: Sin PMF, no hay próximo cheque de los LP

链捕手Hace 1 hora(s)

Llega la era del desacoplamiento: Bitcoin ya no es la única brújula de la criptografía

Autora original: Charlie Traducción original: Luffy, Foresight News Durante mucho tiempo, el mercado cripto ha girado en torno al Bitcoin. Sin embargo, esta era está llegando a su fin. Actualmente, la economía cripto se divide en dos grupos principales: los **activos endógenos**, cuyo valor depende directamente de las fluctuaciones del mercado cripto, y los **activos exógenos**, que operan cada vez más de forma independiente. El valor del Bitcoin se basa en sus propiedades intrínsecas y su precio las refleja. Sin embargo, proyectos como **Hyperliquid** actúan como un puente entre ambos campos, mientras que otros, como **Venice** (servicios de IA de pago) o **Figure** (préstamos respaldados por blockchain), pertenecen claramente al ámbito exógeno. Su lógica de negocio no depende del precio de las criptomonedas, sino de demandas reales y sostenibles. Este cambio es significativo. En ciclos anteriores, las narrativas del mercado a menudo volvían al Bitcoin debido a la falta de modelos de negocio estables. Ahora, muchos proyectos exógenos generan ingresos reales (por ejemplo, suscripciones o tarifas por uso) y los inversores evalúan su valor fundamental, no solo la especulación. Ejemplos en el mercado privado, como la adquisición de **BVNK** por Mastercard o de **Bridge** por Stripe, muestran que empresas relacionadas con stablecoins también se desvinculan de los ciclos alcistas/bajistas de las criptomonedas. Esta evolución redefine el análisis del sector. Para los activos exógenos, el enfoque debe ser el debido diligencia tradicional: base de usuarios, modelo económico, ventajas competitivas. El precio del Bitcoin ya no es el principal indicador. Algunos sectores exógenos con potencial incluyen: intercambios on-chain, tokenización de activos reales, IA + cripto (ej. inferencia privada), bancos digitales (énfasis en privacidad), préstamos, emisores de stablecoins, soluciones de pago y productos de consumo no financieros (ej. Venice). Actualmente, invertir en capital accionario de estas empresas suele ser más viable que en sus tokens. Aunque el papel del token como portador de valor está mejorando, aún requiere avances regulatorios y de mercado. En resumen, el mercado cripto ya no se mueve como un solo bloque. La fuerza motriz es ahora multifactorial, y el análisis debe centrarse en los fundamentos de cada proyecto, no solo en los gráficos del Bitcoin. La próxima década verá un ecosistema más diversificado y maduro.

marsbitHace 2 hora(s)

Llega la era del desacoplamiento: Bitcoin ya no es la única brújula de la criptografía

marsbitHace 2 hora(s)

Cinco criptomonedas que podrían superar a Bitcoin en el próximo ciclo debido a una mayor velocidad de crecimiento

Bitcoin sigue marcando la dirección general del mercado, pero a medida que su capitalización crece, los analistas señalan que las mayores ganancias porcentuales del próximo ciclo podrían provenir de activos con mayor velocidad de crecimiento. Aunque BTC puede subir de forma estable, varias criptomonedas están posicionadas para ofrecer rendimientos superiores. Aquí hay cinco activos que, según los analistas, podrían superar a Bitcoin en términos porcentuales: 1. **Ozak AI ($OZ)**: Un proyecto de infraestructura de IA en fase de preventa, con un precio objetivo de cotización muy superior a su precio actual. Se presenta como la apuesta de mayor crecimiento del ciclo. 2. **Ethereum (ETH)**: La principal red de contratos inteligentes, cuyo impulso se espera mayor que el de BTC debido a su utilidad, adopción institucional y generación de tarifas. 3. **Solana (SOL)**: Su alto rendimiento y bajas tarifas le permiten acelerar rápidamente con la mejora de la liquidez, mostrando históricamente una fuerte capacidad de superar a Bitcoin. 4. **Chainlink (LINK)**: Como principal proveedor de oráculos, su demanda escala con la adopción de DeFi y aplicaciones blockchain impulsadas por IA, lo que a menudo genera fuertes ganancias porcentuales. 5. **Avalanche (AVAX)**: Su arquitectura de subredes y diseño orientado a empresas le otorgan un posicionamiento único para beneficiarse de la tokenización de activos del mundo real. El análisis destaca que, mientras Bitcoin necesita entradas masivas de capital para moverse significativamente, activos en etapa inicial como Ozak AI pueden revalorizarse rápidamente con nueva liquidez, ofreciendo una asimetría y una velocidad de crecimiento potencialmente exponencial en el próximo ciclo.

TheNewsCryptoHace 2 hora(s)

Cinco criptomonedas que podrían superar a Bitcoin en el próximo ciclo debido a una mayor velocidad de crecimiento

TheNewsCryptoHace 2 hora(s)

Trading

Spot
Futuros
活动图片