Los Modelos del Mundo Pasan de la Predicción a la Planificación: HWM y el Desafío del Control a Largo Plazo

marsbitPublicado a 2026-04-17Actualizado a 2026-04-17

Resumen

El modelo mundial ha evolucionado desde el enfoque en el aprendizaje de representaciones y la predicción hacia la planificación jerárquica para abordar el control de largo plazo. Sistemas como V-JEPA 2 demuestran capacidades predictivas sólidas, pero enfrentan desafíos en tareas multietapa debido a la acumulación de errores y la explosión del espacio de búsqueda. HWM (Hierarchical World Model) introduce una estructura de planificación en dos niveles: uno superior para organizar la trayectoria en etapas y otro inferior para la ejecución local. Esto reduce la complejidad computacional y mejora la estabilidad en tareas largas. En experimentos, HWM logró un 70% de éxito en tareas de manipulación, frente al 0% de modelos de un solo nivel. Junto con WAV, que se centra en la verificación de predicciones, estos enfoques convergen hacia sistemas que integran predicción, planificación y corrección. La investigación actual ya no se limita a predecir el futuro, sino a transformar esa capacidad en acciones ejecutables y verificables en escenarios reales.

El foco de investigación de los modelos del mundo en el último año se ha centrado inicialmente en el aprendizaje de representaciones y la predicción futura. Los modelos primero comprenden el mundo y luego simulan internamente los estados futuros. Esta línea de trabajo ya ha producido una serie de resultados representativos. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — un modelo del mundo en video publicado por Meta en 2025) utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con una pequeña cantidad de datos de interacción de robots, demostró el potencial de los modelos del mundo en la comprensión, predicción y planificación de robots con cero ejemplos (zero-shot).

Pero que un modelo pueda predecir no significa que pueda manejar tareas largas. Frente a un control multi-etapa, el sistema suele encontrar dos problemas principales. Uno es que el error de predicción se acumula continuamente durante un rollout largo (simulación de múltiples pasos consecutivos), haciendo que toda la trayectoria se desvíe cada vez más del objetivo. El otro es que el espacio de búsqueda de acciones se expande rápidamente a medida que crece el horizonte (distancia de planificación), lo que provoca un aumento continuo del coste de planificación. HWM no redefine la ruta de aprendizaje subyacente del modelo del mundo, sino que añade una estructura de planificación jerárquica sobre el modelo del mundo existente con condicionamiento de acciones, permitiendo que el sistema primero organice la trayectoria por etapas y luego procese las acciones locales.

Técnicamente, V-JEPA 2 (https://ai.meta.com/research/vjepa/) se inclina más hacia la representación del mundo y la predicción básica, HWM se inclina más hacia la planificación a largo plazo, y WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) se inclina más hacia la identificación y corrección por parte del modelo de sus propias distorsiones predictivas. Estas tres líneas están convergiendo gradualmente. El enfoque de la investigación en modelos del mundo ha pasado de simplemente predecir el futuro a cómo convertir la capacidad de predicción en una capacidad sistémica ejecutable, corregible y verificable.

I. ¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?

La dificultad del control a largo plazo se ve más fácilmente en las tareas de robótica. Tomemos como ejemplo la manipulación de un brazo robótico: agarrar una taza y ponerla en un cajón no es una acción única, sino una secuencia de pasos continuos. El sistema debe acercarse al objeto, ajustar la postura, completar el agarre, moverse a la posición objetivo y luego manejar el cajón y la colocación. Cuando la cadena es larga, surgen dos problemas simultáneamente. Uno es que el error de predicción se acumula continuamente a lo largo del rollout, y el otro es que el espacio de búsqueda de acciones se expande rápidamente.

Lo que al sistema le suele faltar no es la capacidad de predicción local, sino la capacidad de organizar un objetivo lejano en una trayectoria por etapas. Muchas acciones, vistas localmente, parecen desviarse del objetivo, pero en realidad son pasos intermedios necesarios para completarlo. Por ejemplo, levantar el brazo antes de agarrar, o retroceder un poco y ajustar el ángulo antes de abrir un cajón.

En tareas de demostración, los modelos del mundo ya pueden proporcionar predicciones coherentes. Pero al entrar en escenarios de control real, el rendimiento comienza a decaer y surgen los problemas. La presión no solo proviene de la representación en sí, sino también de que la capa de planificación aún no está lo suficientemente madura.

II. Cómo HWM reestructura el proceso de planificación

HWM divide el proceso de planificación, que originalmente se completaba en una sola capa, en dos capas. La capa superior se encarga de la dirección de la etapa en una escala de tiempo más larga, y la capa inferior se encarga de la ejecución local en una escala de tiempo más corta. El modelo no planifica a un solo ritmo, sino que planifica simultáneamente a dos ritmos temporales diferentes.

Los métodos de una sola capa, al procesar tareas largas, generalmente necesitan buscar directamente en el espacio de acciones de bajo nivel toda la cadena de acciones. Cuanto más larga es la tarea, mayor es el coste de búsqueda y más fácil es que el error de predicción se difunda continuamente a lo largo de un rollout de múltiples pasos. Al separar el proceso, HWM hace que el nivel alto solo maneje la selección de la ruta en escalas de tiempo largas, y el nivel bajo solo complete las acciones del segmento actual. Toda la tarea larga se divide en múltiples tareas más cortas, y la complejidad de la planificación disminuye.

Aquí hay un diseño clave: las acciones de alto nivel no son simplemente un registro de la diferencia entre dos estados, sino que utilizan un codificador para comprimir un segmento de acciones de bajo nivel en una representación de acción de nivel superior. Para tareas largas, la clave no está solo en cuánto difieren el punto de inicio y el final, sino en cómo se organizan los pasos intermedios. Si el nivel alto solo mira la diferencia de desplazamiento,容易 perder la información de la ruta en esta cadena de acciones.

HWM representa una forma jerárquica de organizar tareas. Frente a un trabajo multi-etapa, el sistema ya no despliega todas las acciones de una vez, sino que primero forma una trayectoria de etapas más gruesa y luego ejecuta y corrige segmento por segmento. Cuando esta relación jerárquica se incorpora al modelo del mundo, la capacidad de predicción comienza a convertirse de manera más estable en capacidad de planificación.

III. Del 0% al 70%, ¿qué indican los resultados experimentales?

En la tarea del mundo real de agarrar y colocar configurada en el artículo, el sistema solo recibe la condición del objetivo final, sin proporcionar objetivos intermedios desglosados manualmente. Bajo estas condiciones, HWM alcanzó una tasa de éxito del 70%, mientras que el modelo del mundo de una sola capa tuvo una tasa de éxito del 0%. La tarea larga, que originalmente era casi imposible de completar, se convirtió en un resultado probablemente achievable después de introducir la planificación jerárquica.

El artículo también probó tareas de simulación como la manipulación de objetos empujándolos y la navegación en laberintos. Los resultados mostraron que la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el coste computacional de la fase de planificación. En algunos entornos, el coste computacional de la fase de planificación se puede reducir hasta aproximadamente una cuarta parte del original, manteniendo una tasa de éxito igual o mayor.

IV. De V-JEPA a HWM y luego a WAV

V-JEPA 2 representa la línea de trabajo de la representación del mundo. V-JEPA 2 utilizó más de 1 millón de horas de videos de Internet para el preentrenamiento y, combinado con menos de 62 horas de videos de robots para el post-training (entrenamiento específico después del preentrenamiento), obtuvo un latent action-conditioned world model (modelo del mundo en espacio de representación abstracto, que predice combinando información de acciones) utilizable para la comprensión, predicción y planificación del mundo físico. Lo que demuestra es que el modelo puede adquirir una representación del mundo a través de la observación a gran escala y transferir esta representación a la planificación de robots.

HWM da el siguiente paso. El modelo ya posee la representación del mundo y la capacidad de predicción básica, pero tan pronto como entra en el control multi-etapa, estallan los problemas de acumulación de errores y expansión del espacio de búsqueda. HWM no cambia la ruta de aprendizaje de representaciones subyacente, sino que añade una estructura de planificación multi-escala temporal sobre el modelo del mundo existente con condicionamiento de acciones. El problema que aborda es cómo el modelo organiza un objetivo lejano en un conjunto de pasos intermedios y luego los avanza segmento por segmento.

WAV lleva el enfoque un paso further hacia la capacidad de verificación. Para que los modelos del mundo entren en escenarios de optimización de políticas y despliegue, no pueden solo predecir, sino que también deben descubrir en qué áreas son propensos a distorsionarse y realizar correcciones en consecuencia. Se centra en cómo el modelo se verifica a sí mismo.

V-JEPA se inclina hacia la representación del mundo, HWM hacia la planificación de tareas, y WAV hacia la verificación de resultados. Aunque sus focos son diferentes, la dirección general es consistente. La siguiente fase de los modelos del mundo ya no es solo la predicción interna, sino que la predicción, la planificación y la verificación se conectan gradualmente formando una capacidad sistémica.

V. De la predicción interna hacia un sistema ejecutable

Muchos trabajos anteriores sobre modelos del mundo se acercaban más a mejorar la continuidad de la predicción de estados futuros o a mejorar la estabilidad de la representación interna del mundo. Pero el enfoque de la investigación actual ha comenzado a cambiar: el sistema debe formar un juicio sobre el entorno, pero también convertir ese juicio en acción, y continuar corrigiendo el siguiente paso después de que se obtengan los resultados. Para acercarse más a un despliegue real, es necesario controlar la propagación de errores en tareas de largo plazo, comprimir el ámbito de búsqueda y reducir el coste de inferencia.

Este tipo de cambios también afectará a los agentes de IA. Muchos sistemas de agentes ya pueden completar tareas de cadena corta, como invocar herramientas, leer archivos, ejecutar instrucciones de varios pasos. Pero una vez que la tarea se vuelve de cadena larga, multi-etapa y necesita replanificación intermedia, el rendimiento decae. Esto no es fundamentalmente diferente de la dificultad en el control de robots: en ambos casos, la capacidad insuficiente de organización de la ruta de alto nivel provoca una desconexión entre la ejecución local y el objetivo global.

El enfoque jerárquico proporcionado por HWM —nivel alto responsable de la ruta y los objetivos de etapa, nivel bajo responsable de las acciones locales y el procesamiento de feedback, superpuesto con la verificación de resultados—, este tipo de estructura jerárquica aparecerá continuamente en más sistemas en el futuro. El enfoque de la siguiente fase de los modelos del mundo tampoco será solo predecir el futuro, sino organizar la predicción, la ejecución y la corrección en una trayectoria que pueda ser ejecutada.

Preguntas relacionadas

Q¿Cuál es el enfoque principal de la investigación en modelos del mundo en el último año?

AEl enfoque principal de la investigación en modelos del mundo en el último año ha evolucionado desde el aprendizaje de representaciones y la predicción del futuro hacia la capacidad de convertir esa capacidad predictiva en una capacidad sistémica ejecutable, corregible y verificable para la planificación y el control.

Q¿Qué dos problemas principales enfrentan los sistemas de control de largo horizonte (long-horizon) según el artículo?

ALos sistemas de control de largo horizonte enfrentan dos problemas principales: 1) Los errores de predicción se acumulan continuamente durante el 'rollout' (simulación de múltiples pasos), haciendo que la trayectoria se desvíe del objetivo. 2) El espacio de búsqueda de acciones se expande rápidamente a medida que aumenta el horizonte de planificación, lo que incrementa sustancialmente el coste computacional de la planificación.

Q¿Cómo aborda HWM (Hierarchical World Model) el problema de la planificación de largo plazo?

AHWM aborda el problema de la planificación de largo plazo introduciendo una estructura de planificación jerárquica sobre un modelo del mundo existente que ya incluye condicionamiento por acciones. Divide el proceso en dos capas: una capa superior que se encarga de la dirección de la fase en escalas de tiempo más largas, y una capa inferior que maneja la ejecución local en escalas de tiempo más cortas. Esto descompone una tarea larga en múltiples subtareas más cortas, reduciendo la complejidad de la planificación y el error acumulado.

Q¿Qué papel desempeñan V-JEPA 2, HWM y WAV en el desarrollo de modelos del mundo según el texto?

AV-JEPA 2, HWM y WAV representan tres líneas de trabajo que están convergiendo: V-JEPA 2 se centra en la representación del mundo y la predicción básica mediante pre-entrenamiento a gran escala. HWM se centra en la planificación de largo plazo mediante una estructura jerárquica. WAV (World Action Verifier) se centra en la verificación, es decir, en la capacidad del modelo para identificar y corregir sus propias distorsiones predictivas. Juntos, contribuyen a formar un sistema completo con capacidades de predicción, planificación y verificación.

Q¿Qué mejora de rendimiento demostró HWM en los experimentos mencionados?

AEn los experimentos de agarre y colocación en el mundo real mencionados, donde el sistema solo recibía la condición del objetivo final sin objetivos intermedios predefinidos, HWM alcanzó una tasa de éxito del 70%, mientras que un modelo del mundo de una sola capa tuvo una tasa de éxito del 0%. Además, en algunas tareas de simulación, la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el coste computacional de la fase de planificación hasta aproximadamente una cuarta parte del coste original.

Lecturas Relacionadas

¡Publicada la lista de las altcoins más populares según las búsquedas de las últimas horas!

La plataforma de seguimiento de criptomonedas CoinGecko ha publicado una lista de las criptomonedas más buscadas por los usuarios en las últimas tres horas. La principal tendencia es Pudgy Penguins ($PENGU), seguida de Catecoin (CATE) y Bless ($BLESS) en el podio. Según los datos, $PENGU subió un 3,9% en 24 horas. CATE, en segundo lugar, registró un impresionante aumento del 126,2%, mientras que $BLESS subió un 86,1%. What IF (IF) también destaca con un alza del 41,9%. La lista completa de los activos más buscados y su capitalización de mercado actual es la siguiente: 1. Pudgy Penguins ($PENGU) – 389,13 millones de dólares. 2. Catecoin (CATE) – 19,62 millones. 3. Bless ($BLESS) – 32,72 millones. 4. Aerodrome Finance (AERO) – 385,03 millones. 5. Hyperliquid (HYPE) – 11,43 mil millones. 6. Ethereum (ETH) – 224,17 mil millones. 7. Chainlink (LINK) – 6,17 mil millones. 8. Aave (AAVE) – 1,42 mil millones. 9. What IF (IF) – 31,24 millones. 10. Polkadot (DOT) – 1,34 mil millones. 11. Bitcoin (BTC) – 1,27 billones. 12. Virtual Protocol (VIRTUAL) – 366,19 millones. 13. Algorand (ALGO) – 758,15 millones. 14. Cash Cat (CASHCAT) – 41,81 millones. 15. Solana (SOL) – 42,38 mil millones. *Esto no es una recomendación de inversión.

cryptonews.ruHace 1 hora(s)

¡Publicada la lista de las altcoins más populares según las búsquedas de las últimas horas!

cryptonews.ruHace 1 hora(s)

Por 100 000 $ al mes: Truth Social vende acceso a las publicaciones de Trump a empresas de inversión

Trump Media and Technology Group (TMTG) lanzó el 1 de agosto de 2026 el servicio Truth API, un canal de datos de pago que otorga a firmas de inversión institucionales acceso en tiempo real a las publicaciones de las cuentas más influyentes en Truth Social, incluyendo la de Donald Trump. Con una suscripción que puede costar hasta 100,000 dólares mensuales, el servicio se presenta como una fuente de ingresos estable para TMTG. El anuncio ha generado críticas de legisladores demócratas y republicanos, como Elizabeth Warren y Bill Cassidy, quienes cuestionan la venta de acceso privilegiado a las publicaciones del presidente y han pedido investigaciones regulatorias. TMTG defendió la iniciativa como parte de una estrategia comercial legítima. El análisis adjunto advierte que este modelo crea riesgos similares a incidentes pasados donde mensajes falsos en redes sociales provocaron volatilidad en los mercados, destacando la falta de mecanismos de verificación en tiempo real para los posts distribuidos por la API.

cryptonews.ruHace 1 hora(s)

Por 100 000 $ al mes: Truth Social vende acceso a las publicaciones de Trump a empresas de inversión

cryptonews.ruHace 1 hora(s)

La estrategia mantiene el dividendo preferente de STRC en 12% ya que el precio aún está por debajo del valor nominal

Aunque las acciones preferentes STRC de Strategy cerraron julio muy por debajo de su valor nominal de 100 dólares, el dividendo de agosto se mantendrá en el 12%, sin incrementos. Michael Saylor, presidente ejecutivo, anunció la noticia, promocionando STRC como una forma de "estirar los ingresos". Agosto será el segundo mes con pagos quincenales. Las acciones STRC cerraron a 89,46 dólares el viernes, con un aumento mensual del 5,42%, tras un mal desempeño en junio. El volumen negociado fue aproximadamente dos tercios del promedio diario. El CEO Phong Le reiteró que el objetivo corporativo es que STRC cotice entre 99 y 100 dólares con el tiempo. Saylor sugirió un posible anuncio sobre cambios en las tenencias de Bitcoin de la compañía. Strategy reportó una pérdida neta de 8.220 millones de dólares en el segundo trimestre, principalmente por una pérdida no realizada de 8.320 millones en Bitcoin. La compañía ha construido una reserva de efectivo de 3.750 millones de dólares para respaldar los pagos de acciones preferentes, suficiente para más de dos años de dividendos e intereses. Recientemente recompró 25 millones de dólares en acciones STRC con descuento y planea continuar comprando mientras cotizan por debajo de los 100 dólares.

cointelegraphHace 3 hora(s)

La estrategia mantiene el dividendo preferente de STRC en 12% ya que el precio aún está por debajo del valor nominal

cointelegraphHace 3 hora(s)

Los retiros de Bitcoin continúan: 8 años de almacenamiento en una cartera fría Coldcard terminaron en cero

Retirada de bitcoin continúa: 8 años en cartera fría Coldcard terminan en cero La cartera hardware Coldcard ha sido vulnerada, provocando una nueva oleada de retiradas de fondos de dispositivos afectados. Galaxy Research informa que el volumen total robado asciende a 1.367,05 BTC (unos 88,6 millones de dólares) desde 4.585 direcciones, superando ampliamente los 594,5 BTC reportados inicialmente el 30 de julio de 2026. La mayor parte de lo robado permanece inactiva en las direcciones de los atacantes. El problema no reside en el firmware, que ya fue actualizado por Coinkite, sino en las frases semilla (seed phrases) generadas desde marzo de 2021 debido a un error de programación. Estas frases son fácilmente descifrables, y actualizar el firmware no las cambia. Solo transferir los fondos a una nueva dirección con una nueva frase semilla elimina la vulnerabilidad. El fallo se originó al integrar la biblioteca libNgU, lo que hizo que los dispositivos dejaran de usar el generador de números aleatorios por hardware STM32 y pasaran a usar el generador software Yasmarang, inicializado con datos públicamente accesibles como el número de serie del chip. Afecta a frases semilla creadas en dispositivos Mk2/Mk3 (firmware 4.0.1–4.1.9 y hasta 5.0.3), Mk4/Mk5 (hasta v5.6.0) y Q (hasta v1.5.0Q). Se excluyen aquellas creadas con al menos 50 lanzamientos de dados independientes o una passphrase BIP-39 fuerte y única. Los usuarios deben generar una nueva frase semilla en firmware corregido y transferir sus activos. Un caso ilustrativo es el de un inversor de 39 años que perdió 2 BTC (unos 130.000 dólares) en minutos, ahorrados durante ocho años mediante trabajo físico como protección contra la hiperinflación en su país, con el objetivo de una jubilación anticipada a los 50 años. Su estrategia conservadora de "comprar y mantener en frío" se vio truncada, dejándolo devastado y decidido a abandonar las criptomonedas. Este incidente recuerda vulnerabilidades históricas por generadores de números aleatorios débiles, como la de la biblioteca BitcoinJS (2011-2015), que causó grandes pérdidas. Subraya que el almacenamiento offline no garantiza automáticamente seguridad criptográfica, especialmente cuando la entropía se ve comprometida dentro del propio dispositivo "cerrado".

cryptonews.ruHace 3 hora(s)

Los retiros de Bitcoin continúan: 8 años de almacenamiento en una cartera fría Coldcard terminaron en cero

cryptonews.ruHace 3 hora(s)

¡Se observa un crecimiento explosivo en los volúmenes de trading de 15 altcoins en Corea del Sur!

Las principales bolsas de criptomonedas de Corea del Sur, Upbit y Bithumb, registraron un fuerte aumento en el volumen de operaciones con varios altcoins. En las últimas 24 horas, el volumen total de los altcoins más populares alcanzó aproximadamente 347,7 millones de dólares. MetaDAO (META) lideró la clasificación con un volumen de 65,84 millones de dólares solo en Upbit, representando el 12,39% del volumen spot total de la bolsa. Le siguió Euler (EUL) con 47,65 millones de dólares combinados en ambas plataformas. XRP, tradicionalmente popular entre los inversores coreanos, registró 38,11 millones de dólares. A continuación, se presentan los volúmenes de operaciones de 24 horas para los 15 altcoins más negociados en Upbit y Bithumb: 1. MetaDAO (META) – 65,84M$ 2. Euler (EUL) – 47,65M$ 3. XRP – 38,11M$ 4. ThunderCore (TT) – 35,64M$ 5. Babylon (BABY) – 25,15M$ 6. Geodnet (GEOD) – 20,28M$ 7. Hyperlane (HYPER) – 19,72M$ 8. Momentum (MMT) – 17,67M$ 9. Ondo (ONDO) – 15,65M$ 10. Shiba Inu (SHIB) – 10,55M$ 11. DOME – 9,61M$ 12. Lorenzo Protocol (BANK) – 9,51M$ 13. Akash Network (AKT) – 7,36M$ 14. Dogecoin (DOGE) – 7,30M$ 15. Worldcoin (WLD) – 5,74M$ *Esto no es una recomendación de inversión.

cryptonews.ruHace 4 hora(s)

Trading

Spot

Categorías populares

比特幣1,982 artículos de noticias

Los Modelos del Mundo Pasan de la Predicción a la Planificación: HWM y el Desafío del Control a Largo Plazo

Resumen

I. ¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?

II. Cómo HWM reestructura el proceso de planificación

III. Del 0% al 70%, ¿qué indican los resultados experimentales?

IV. De V-JEPA a HWM y luego a WAV

V. De la predicción interna hacia un sistema ejecutable

Preguntas relacionadas

Lecturas Relacionadas

¡Publicada la lista de las altcoins más populares según las búsquedas de las últimas horas!

Por 100 000 $ al mes: Truth Social vende acceso a las publicaciones de Trump a empresas de inversión

La estrategia mantiene el dividendo preferente de STRC en 12% ya que el precio aún está por debajo del valor nominal

Los retiros de Bitcoin continúan: 8 años de almacenamiento en una cartera fría Coldcard terminaron en cero

¡Se observa un crecimiento explosivo en los volúmenes de trading de 15 altcoins en Corea del Sur!

Trading

Categorías populares

Etiquetas Populares