El galardonado con el Premio Turing Sutton presenta un nuevo trabajo: Utilizando una fórmula de 1967, resuelve un gran defecto del aprendizaje por refuerzo en flujo continuo

marsbitPublicado a 2026-05-10Actualizado a 2026-05-10

Resumen

El ganador del premio Turing Richard Sutton y colaboradores han publicado un nuevo trabajo que aborda un defecto clave del aprendizaje por refuerzo en flujo continuo (streaming RL). Tradicionalmente, el RL profundo colapsa sin búfer de repetición y con tamaño de lote 1, un problema conocido como "barrera de flujo". La investigación anterior StreamX superó esto con trucos de estabilización, pero el nuevo estudio identifica la causa raíz: el tamaño del paso de aprendizaje se define incorrectamente. El equipo propone "Actualizaciones Intencionales" (Intentional Updates), inspiradas en un algoritmo de 1967 (NLMS). En lugar de especificar cuánto mover los parámetros, el método calcula el tamaño del paso para lograr un cambio deseado y consistente en la *salida* de la función (por ejemplo, reducir el error de predicción de valor en un 5%). Esto evita oscilaciones y colapsos. Se presentan tres algoritmos: Intentional TD(λ) para valor, Intentional Q(λ) para control discreto e Intentional Policy Gradient para control continuo. En experimentos con MuJoCo, Atari y MinAtar, los métodos igualan o se acercan al rendimiento de algoritmos estándar como SAC y DQN (que usan búferes grandes), pero con una fracción del coste computacional (hasta ~1/140 de FLOPS por actualización) y mayor robustez, manteniendo el mismo conjunto de hiperparámetros en todas las tareas. El trabajo marca un avance hacia un aprendizaje en línea más estable y eficiente, similar a cómo aprenden los humanos, adecuado ...

A finales de 2024, un artículo titulado "Finalmente funciona el aprendizaje por refuerzo profundo en flujo continuo" (arXiv:2410.14606) generó un amplio debate en la comunidad académica. Los autores, del equipo de Mahmood de la Universidad de Alberta, dedicaron muchas páginas a describir una realidad embarazosa: el aprendizaje por refuerzo, un método que por naturaleza debería "aprender sobre la marcha", en la era de las redes neuronales profundas casi no puede lograrlo. Si simplemente se elimina el búfer de repetición (replay buffer) y se establece el tamaño de lote (batch size) en 1, el entrenamiento colapsa. Lo denominaron la "barrera del flujo continuo" (stream barrier).

Ese artículo propuso la serie de algoritmos StreamX, que, mediante hiperparámetros finamente ajustados, inicialización dispersa y varias técnicas de estabilización, apenas lograron superar este muro.

Sin embargo, menos de un año y medio después, un miembro del mismo grupo de investigación, junto con colaboradores del Instituto Openmind, ofreció una respuesta completamente diferente: la raíz de la barrera del flujo continuo no es "datos insuficientes", sino "unidad incorrecta del tamaño del paso de aprendizaje (step size)".

Título del artículo: Intentional Updates for Streaming Reinforcement Learning

Dirección del artículo: https://arxiv.org/pdf/2604.19033v1

Repositorio de código: https://github.com/sharifnassab/Intentional_RL

Un golpe de acelerador y el tamaño del bache

Imagina que estás aprendiendo a estacionar un coche. El instructor te dice que cada vez "pises el acelerador durante 0.1 segundos". El problema es que, pisando el mismo tiempo de 0.1 segundos, la distancia que avanza el coche puede variar enormemente dependiendo de si es en subida, en bajada, con el vehículo vacío o cargado. A veces se queda a un centímetro de entrar perfectamente, otras veces se queda a 30 centímetros y choca directamente contra la pared.

El tamaño del paso en el aprendizaje por gradiente tradicional hace precisamente eso: especifica cuánto deben moverse los parámetros cada vez, pero no controla en absoluto cuánto cambia realmente la salida de la función. En el entrenamiento por lotes, los errores de cientos o miles de muestras se promedian, diluyendo los casos extremos, y el problema no es tan evidente. Pero en un entorno de "flujo continuo", cada paso tiene solo una muestra, sin promedio posible. Una vez que la dirección del gradiente es inestable, la magnitud de la actualización fluctuará salvajemente — hoy avanza 30 cm, mañana retrocede 50 cm — y el proceso de aprendizaje colapsa en medio de violentas oscilaciones.

Este fenómeno de "sobrepaso y subpaso" (overshooting and undershooting) es particularmente grave en el aprendizaje por refuerzo, porque el gradiente en cada paso de tiempo no solo varía en magnitud, sino que también cambia de dirección a gran velocidad.

Redefiniendo "cuánto debe hacer un paso"

En un artículo publicado recientemente por Arsalan Sharifnassab del Instituto Openmind, junto con Mohamed Elsayed, A. Rupam Mahmood y Richard Sutton de la Universidad de Alberta, entre otros, se propone una solución que plantea el problema desde otro ángulo: En lugar de especificar cuánto deben moverse los parámetros, especifica directamente cuánto debe cambiar la salida de la función.

Esta idea no surgió de la nada. En 1967, los académicos japoneses Nagumo y Noda, en su artículo "A learning method for system identification", ya propusieron el algoritmo "Normalized Least Mean Squares" (NLMS) en el campo del filtrado adaptativo; en esencia, también utilizaban el cambio deseado en la salida para inferir el tamaño del paso, y no al revés. Solo que ese algoritmo solo era aplicable a escenarios lineales simples.

Los investigadores han extendido esta idea al aprendizaje por refuerzo profundo. Lo llaman "Actualizaciones Intencionales" (Intentional Updates): antes de cada actualización, se define claramente "qué quiero lograr con este paso", y luego se deduce inversamente qué tamaño de paso debería usarse.

Para el aprendizaje de valor (es decir, predecir la recompensa futura), definen la intención como: después de cada actualización, el error de predicción del valor del estado actual debería reducirse en una proporción fija — por ejemplo, un 5%, ni más ni menos. Para el aprendizaje de política (es decir, optimizar la acción de decisión), definen la intención como: la probabilidad de selección de la acción actual solo puede cambiar una cantidad "moderada" en cada paso.

Usando la analogía del coche: esto es como si el conductor decidiera antes de cada operación "quiero que el coche avance 20 cm", y luego calcula automáticamente cuánto debe pisar el acelerador según las condiciones actuales de la carretera (pendiente, carga), en lugar de pisar siempre la misma profundidad y dejar las cosas al azar.

El galardonado con el Premio Turing y su rompecabezas

Uno de los firmantes del artículo es Richard S. Sutton — galardonado con el Premio Turing 2024, ampliamente reconocido como "el padre del aprendizaje por refuerzo moderno".

La posición de Sutton en la comunidad académica es comparable a la de Feynman en física: no solo propuso los dos marcos fundamentales del aprendizaje por refuerzo moderno, el aprendizaje por diferencia temporal (TD learning) y el gradiente de política (policy gradient), sino que también coescribió con Andrew Barto el libro más autorizado en el campo, "Reinforcement Learning: An Introduction" (ahora en su segunda edición, disponible para lectura gratuita en línea). Compartió el Premio Turing 2024 con Barto, cuyo veredicto fue "sentar las bases conceptuales y algorítmicas del aprendizaje por refuerzo".

Tras recibir el premio, Sutton no optó por retirarse, sino que invirtió el premio en el Instituto Openmind que fundó, dedicado a financiar a jóvenes investigadores dispuestos a "explorar problemas fundamentales en un entorno libre de presión comercial". Este nuevo artículo surge precisamente de esta institución sin fines de lucro.

Y el primer autor, Sharifnassab, había publicado recientemente en ICML 2025 el marco MetaOptimize, investigando cómo ajustar automáticamente la tasa de aprendizaje en línea. El enfoque de los dos temas es muy consistente: cómo hacer que el tamaño del paso en sí mismo sea más inteligente.

Detalles del algoritmo: más simple de lo imaginado

La derivación matemática de las "Actualizaciones Intencionales" no es compleja; su fórmula central puede describirse en una frase: el tamaño del paso es igual a la "cantidad de cambio deseada en la salida" dividida por la "influencia real de la dirección del gradiente en la salida".

En el aprendizaje de valor, esta "influencia real" es la norma del vector gradiente (equivalente a medir cuán "empinada" es la región de parámetros actual): en áreas más empinadas el paso es más pequeño, en áreas más planas es más grande, garantizando así que el impacto de cada actualización en la función de valor sea consistente.

En el aprendizaje de política, la "cantidad de cambio deseada" se define como proporcional a la función de ventaja (advantage function): cuánto mejor es la acción actual respecto al promedio, la política se mueve en esa dirección en esa medida — normalizando la magnitud mediante una media móvil (running average) para asegurar que, a largo plazo, la magnitud del cambio de política se mantenga estable en un rango interpretable.

Los investigadores también combinaron esta idea central con dos prácticas de ingeniería: el escalado diagonal al estilo RMSProp (para manejar diferencias de escala entre dimensiones de parámetros) y las trazas de elegibilidad (eligibility traces) (que ayudan a propagar la señal de recompensa hacia pasos de tiempo anteriores).

Finalmente, se formaron tres algoritmos completos: Intentional TD (λ) para predicción de valor, Intentional Q (λ) para control de acciones discretas, y Intentional Policy Gradient para control continuo.

Resultados experimentales: Igualando a SAC sin depender de GPU

El artículo evaluó este conjunto de métodos en múltiples benchmarks estándar, y los resultados son impresionantes.

En tareas de control continuo de MuJoCo (incluyendo robots simulados complejos como Ant, Humanoid, HalfCheetah, etc.), el nuevo método Intentional AC, en configuración de flujo continuo (tamaño de lote = 1, sin búfer de repetición), alcanzó en múltiples ocasiones un rendimiento final cercano o incluso comparable al de SAC — un algoritmo que utiliza un gran búfer de repetición por lotes y es prácticamente el estándar de oro actual para tareas de control continuo. En cuanto a carga computacional, las operaciones de punto flotante requeridas para cada actualización de Intentional AC son aproximadamente 1/140 de las de una actualización de SAC.

En juegos de acciones discretas de Atari y MinAtar, el rendimiento de Intentional Q-learning fue igualmente comparable al de DQN que utiliza búfer de repetición, y además se ejecutó exitosamente en todas las tareas con el mismo conjunto de hiperparámetros, sin necesidad de ajustarlos individualmente.

Los investigadores también verificaron específicamente si la "intención" realmente se lograba: midieron la relación entre la cantidad de actualización real y la esperada. En una configuración simplificada con las trazas de elegibilidad deshabilitadas, la desviación estándar de esta relación fue de solo 0.016 a 0.029, con el percentil 99 dentro de 1.07; lo que significa que en la gran mayoría de los casos, la actualización realmente logró "hacer exactamente lo que se dijo que haría".

Además, un conjunto de experimentos de ablación mostró que al eliminar la normalización RMSProp o el término σ, el rendimiento disminuyó pero siguió siendo competitivo, siendo este "escalado intencional" el principal contribuyente, y los otros componentes son auxiliares.

Todavía hay problemas

El marco de "Actualizaciones Intencionales" también mostró una ventaja notable en robustez. Cuando los investigadores eliminaron una por una las diversas técnicas de estabilización auxiliares de las que depende el método StreamX (inicialización dispersa, escalado de recompensas, normalización de entrada, LayerNorm), la degradación del rendimiento de Intentional AC fue significativamente menor que la de StreamAC original, lo que indica que el escalado intencional reduce la dependencia de "muletas" externas desde la raíz.

Pero el artículo también reconoce un problema no completamente resuelto: en el aprendizaje de política, el tamaño del paso depende de la acción muestreada actualmente, lo que implícitamente asigna diferentes "pesos" a diferentes acciones, pudiendo cambiar la dirección esperada del gradiente de política. En las tareas Humanoid y HumanoidStandup, midiendo la similitud del coseno de la dirección de actualización esperada, los investigadores encontraron que este sesgo durante las fases clave de aprendizaje era cercano a 0.96 (casi sin efecto); pero en Ant-v4, el grado de alineación cayó a una mediana de 0.63, indicando que el problema no siempre puede ignorarse.

Los autores señalan que futuras investigaciones deberían buscar estrategias de selección del tamaño del paso independientes de la acción, para que la "intención" también se mantenga insesgada en un sentido esperado. Esta es una tarea clara que queda para quienes sigan esta dirección.

Conclusión: Haciendo que la IA aprenda sobre la marcha como los humanos

El paradigma de entrenamiento actual dominante para modelos grandes depende de la digestión por lotes de cantidades masivas de datos: alimentar todo el texto y código de Internet, iterar repetidamente, hasta que finalmente emergen capacidades asombrosas. Este camino ha demostrado ser efectivo, pero es fundamentalmente "aprender primero, usar después": una vez completado el entrenamiento, el modelo se congela y no puede actualizarse continuamente a partir de cada interacción real posterior.

El aprendizaje por refuerzo en flujo continuo persigue un modo de aprendizaje completamente diferente: no depende de una gran repetición, no depende de grandes clusters de GPU, cada experiencia se convierte inmediatamente en una actualización de parámetros, de manera continua, barata y adaptativa. Esto se acerca más a la forma real de aprender de humanos y animales.

Desde el avance inicial de Elsayed y otros en 2024 de "finalmente funciona", hasta el principio de "actualizaciones intencionales" propuesto en este artículo, el aprendizaje por refuerzo profundo en flujo continuo está madurando a una velocidad sorprendente. No reemplazará a los modelos grandes entrenados por lotes, pero para robots que requieren adaptación en línea a largo plazo, dispositivos de borde (edge), y cualquier escenario de aplicación que no pueda soportar grandes búferes de repetición y clusters de GPU, esta vía se está volviendo cada vez más convincente.

El tamaño del paso no es solo un hiperparámetro, es el compromiso de la IA sobre "cuánto quiere hacer" en cada paso. Cuando ese compromiso finalmente se vuelve controlable, el aprendizaje en sí mismo se estabiliza.

Este artículo proviene del WeChat Official Account "机器之心" (ID: almosthuman2014), autor: 关注RL的

Preguntas relacionadas

Q¿Qué es la 'barrera de streaming' (stream barrier) en el aprendizaje por refuerzo profundo, según se describe en el artículo?

ALa 'barrera de streaming' se refiere a la incapacidad de los métodos modernos de aprendizaje por refuerzo profundo para aprender de manera efectiva en un entorno 'en línea' o de flujo continuo. Cuando se elimina el búfer de reproducción (replay buffer) y el tamaño del lote (batch size) se establece en 1, el entrenamiento colapsa debido a la inestabilidad en las actualizaciones de los parámetros, causada por gradientes de magnitud y dirección muy variables en cada paso.

Q¿Cuál es la idea central detrás del método 'Actualizaciones Intencionales' (Intentional Updates) propuesto en el artículo?

ALa idea central de las 'Actualizaciones Intencionales' es invertir el enfoque tradicional para elegir el tamaño del paso de aprendizaje (step-size). En lugar de especificar cuánto deben moverse los parámetros, el método especifica cuánto debería cambiar la salida de la función (por ejemplo, el error de predicción de valor o la probabilidad de una acción). Luego, se calcula retroactivamente el tamaño de paso necesario para lograr ese cambio específico en la salida, lo que estabiliza el proceso de aprendizaje en entornos de flujo continuo.

Q¿Qué conexión histórica tiene el método 'Actualizaciones Intencionales' con el trabajo de Nagumo y Noda en 1967?

AEl concepto fundamental de las 'Actualizaciones Intencionales' está inspirado en el algoritmo 'Normalized Least Mean Squares' (NLMS) propuesto por Nagumo y Noda en 1967 para el campo de filtrado adaptativo. Ese algoritmo también determinaba el tamaño del paso en función de un cambio deseado en la salida, en lugar de fijar un paso constante para la actualización de parámetros. Los autores del artículo actual generalizan esta idea a los entornos más complejos del aprendizaje por refuerzo profundo.

QSegún los resultados experimentales, ¿cómo se compara el rendimiento de 'Intentional AC' con el del algoritmo SAC en tareas de control continuo como MuJoCo?

AEn tareas de control continuo de MuJoCo (como Ant, Humanoid y HalfCheetah), el método 'Intentional AC' operando en modo de flujo continuo (tamaño de lote = 1, sin búfer de reproducción) logró un rendimiento final que se acerca o incluso iguala al del algoritmo SAC, considerado un estándar de oro que sí utiliza un búfer de reproducción y lotes grandes. Además, cada actualización de 'Intentional AC' requirió aproximadamente 1/140 de las operaciones de punto flotante necesarias para una actualización de SAC.

Q¿Qué problema o limitación potencial identifica el artículo en el enfoque de 'Actualizaciones Intencionales' para el aprendizaje de políticas (policy learning)?

AEl artículo identifica que, en el aprendizaje de políticas, el tamaño del paso calculado depende de la acción muestreada en el paso de tiempo actual. Esto puede introducir un sesgo, ya que diferentes acciones reciben implícitamente diferentes 'pesos' o importancias en la actualización, lo que podría alterar la dirección esperada del gradiente de la política. En algunas tareas (como Ant-v4), este desalineamiento fue más notable, lo que sugiere la necesidad de futuras investigaciones para desarrollar estrategias de selección del tamaño del paso que sean independientes de la acción y, por lo tanto, insesgadas en expectativa.

Lecturas Relacionadas

GensynAI : Que la IA no repita los errores de Internet

En los últimos meses, el auge de la IA ha atraído talento del sector cripto. Muchos proyectos exploran cómo la blockchain puede integrarse en la infraestructura de IA, pero pocos logran un modelo de negocio cerrado. Gensyn se distingue al enfocarse en el núcleo más costoso: el entrenamiento de modelos. Su propuesta es organizar recursos de GPU dispersos globalmente en una red abierta para entrenamiento de IA. Los desarrolladores pueden enviar tareas, los nodos aportan capacidad de cálculo, y la red verifica los resultados y distribuye incentivos. Esto aborda un problema crítico: la creciente centralización del poder de cálculo en grandes tecnológicas, donde el acceso a GPUs como la H100 se ha convertido en una barrera clave para la innovación. Gensyn destaca por cuatro razones: 1. Ataca la capa de infraestructura central de la IA (entrenamiento), no solo aplicaciones. 2. Ofrece un modelo de colaboración abierto que puede optimizar costes y eficiencia para equipos más pequeños. 3. Su principal barrera tecnológica y ventaja es la capacidad de verificar resultados y garantizar fiabilidad en un entorno distribuido. 4. Responde a una demanda real y creciente en un mercado ya validado, más allá de la narrativa cripto. En conclusión, la frontera entre cripto e IA se desdibuja. La IA necesita coordinación de recursos e incentivos para la colaboración global, áreas donde la tecnología blockchain puede aportar soluciones. Gensyn representa un paso hacia una infraestructura de IA más abierta y accesible, no solo controlada por unos pocos gigantes.

marsbitHace 2 hora(s)

GensynAI : Que la IA no repita los errores de Internet

marsbitHace 2 hora(s)

¿Por qué el desarrollo de la IA en China es tan rápido? La respuesta está dentro de sus laboratorios

El artículo explora las razones del rápido desarrollo de la IA en China, centrándose en la cultura organizativa de sus laboratorios. A diferencia del ecosistema estadounidense, que prioriza la innovación disruptiva, el capital y las "estrellas" científicas individuales, el enfoque chino se caracteriza por un pragmatismo basado en la ejecución en equipo, la ingeniería eficiente, la rápida iteración y un fuerte deseo de controlar la pila tecnológica clave. Los laboratorios chinos sobresalen como "seguidores rápidos", optimizando direcciones ya establecidas. Una cultura que valora menos el ego individual y más el trabajo en equipo, combinada con una gran afluencia de jóvenes investigadores y estudiantes integrados en proyectos centrales, facilita una adaptación ágil y un enfoque en tareas prácticas de mejora de modelos. Existe un respeto general dentro del ecosistema, que se percibe más como una comunidad que como tribus en competencia. En el ámbito industrial, se observa una mentalidad de "construir, no comprar", con muchas grandes empresas tecnológicas desarrollando sus propios modelos LLM fundamentales para mantener la soberanía tecnológica. El apoyo gubernamental existe pero es descentralizado. La demanda interna de IA está creciendo, potencialmente similar al mercado de la nube, y los desarrolladores muestran una fuerte admiración por herramientas como Claude. Aunque hay una gran necesidad de chips de Nvidia, también se utilizan alternativas locales como Huawei para inferencia. El ecosistema de datos es menos maduro que en Occidente, lo que fomenta soluciones internas. En conclusión, se están formando dos trayectorias distintas: una carrera impulsada por el capital y el prestigio en EE.UU. frente a una competencia industrial impulsada por la capacidad de ejecución, el ecosistema de código abierto y la autonomía tecnológica en China. El autor destaca la calidez y el enfoque pragmático de los investigadores chinos, subrayando que la competencia futura dependerá no solo de los modelos, sino también de las capacidades organizativas y la fuerza del ecosistema.

marsbitHace 3 hora(s)

¿Por qué el desarrollo de la IA en China es tan rápido? La respuesta está dentro de sus laboratorios

marsbitHace 3 hora(s)

3 años, 5 veces: el renacimiento de una fábrica de vidrio centenaria

Según CRU, la demanda de fibra óptica en centros de datos de IA creció un 75,9% anual, ampliando el déficit de oferta del 6% al 15%. Los precios de la fibra se triplicaron en meses. NVIDIA invirtió en Corning, Lumentum y Coherent (total 45 mil millones USD) para asegurar la cadena de suministro óptica. Corning, fundada en 1851, ve su valor subir un 316,81% en el último año, alcanzando 160 mil millones USD. Su crecimiento se debe a dos factores clave: la rigidez de la oferta (el proceso de fabricación de preformas es complejo y lento) y la transición forzada de cobre a fibra en infraestructuras de IA para mayor eficiencia y menor consumo energético. La fibra es crucial para la IA: su uso en bastidores de IA es 5-10 veces mayor que en centros tradicionales. Se espera que la demanda de fibra para IA represente el 35% del mercado total para 2027. Corning lidera en fibra especializada de baja pérdida, alta densidad y resistencia a la curvatura, esencial para transmisiones de 800G a 1,6T. Sus ingresos en comunicación óptica para empresas se duplicaron en dos años, superando los 30 mil millones USD en 2025, respaldados por acuerdos a largo plazo con Meta, NVIDIA y otros grandes clientes. Aunque no es el mayor fabricante global, Corning destaca en I+D (más de 10 mil millones USD anuales) y en su enfoque en el segmento premium de centros de datos de IA. El aumento de precios beneficia a toda la industria, como muestran los resultados de empresas chinas. El despliegue de Óptica de Co-Embalaje (CPO) y la posible adopción de fibra hueca son variables futuras clave. Sin embargo, la rápida apreciación de las acciones de Corning (multiplicando por 3 su relación P/E) ya refleja grandes expectativas, lo que podría aumentar la volatilidad si los pedidos no cumplen con el ritmo esperado.

marsbitHace 4 hora(s)

3 años, 5 veces: el renacimiento de una fábrica de vidrio centenaria

marsbitHace 4 hora(s)

Trading

Spot
Futuros
活动图片