Dwarkesh Patel, el conocido presentador de podcasts tecnológicos de Silicon Valley, planteó recientemente una pregunta: ¿Cuál será el próximo paradigma de entrenamiento para la IA?

Dwarkesh Patel es un presentador y escritor de podcasts tecnológicos que ha ganado rápidamente popularidad en Silicon Valley en los últimos años. Con solo 25 años, ya ha logrado ingresar al círculo central de las discusiones sobre IA gracias a su programa, el "Dwarkesh Podcast". Entre sus entrevistados se encuentran Ilya Sutskever, Andrej Karpathy, Dario Amodei, Demis Hassabis, Mark Zuckerberg y otras figuras destacadas de la IA y la tecnología. TIME lo incluyó en la lista TIME100 AI 2024, afirmando que su podcast se ha convertido en contenido de escucha esencial para muchos profesionales de la IA.

En su último episodio del podcast, resumió la dirección en la que los principales laboratorios de IA están apostando con una palabra clave: RLVR, es decir, "Reinforcement Learning with Verifiable Rewards" (Aprendizaje por Refuerzo con Recompensas Verificables).
En términos simples, se trata de que el modelo intente y falle repetidamente en una gran cantidad de tareas en las que se puede juzgar automáticamente si está bien o mal, entrenando así capacidades de planificación, corrección de errores, iteración y ejecución a largo plazo. Los rápidos avances en áreas como la programación y las matemáticas actualmente se deben en gran medida a esta idea.
Pero lo que Dwarkesh realmente quiere preguntar es: ¿Es suficiente que la próxima generación de IA se base únicamente en este tipo de "entrenamiento en tareas verificables"?
Su respuesta es: Probablemente no.
Porque no basta con que una tarea sea "verificable"; también debe ser "repetible".
El concepto clave aquí es grindability, "capacidad de ser machacada/repetida". En el contexto del entrenamiento de IA, es la "capacidad de ser practicada repetidamente" o la "capacidad de ser desplegada a gran escala".
Las tareas de programación son un ejemplo típico de tarea repetible. Puedes preparar un repositorio de software, un error por corregir, un caso de prueba y luego copiar el mismo entorno en miles de instancias, permitiendo que miles de agentes lo intenten simultáneamente. Quien pase la prueba, gana puntos. Este proceso es paralelizable, reproducible y reajustable, ideal para RLVR.
Los problemas de matemáticas son similares. La respuesta se puede verificar, y el entorno de entrenamiento también es fácil de replicar.
Pero Dwarkesh plantea una pregunta interesante: ¿Por qué el progreso de la IA en "usar una computadora" es más lento que en programación o matemáticas?
Superficialmente, el uso de la computadora también es verificable. Por ejemplo, si un pedido se completó con éxito, si se reservó un lugar para un evento, si se envió una declaración de impuestos, estos resultados se pueden juzgar. El problema es que es difícil de replicar y reproducir a gran escala. No puedes hacer que mil agentes ejecuten simultáneamente el mismo proceso de pago en Amazon repetidamente, porque los sitios web reales detectan bots, bloquean cuentas y cambian de estado. Claro, podrías clonar aplicaciones como Slack, Gmail, Amazon para crear simuladores, pero en esta etapa sigue siendo una ingeniería de alto costo y baja escalabilidad.
Dwarkesh señala: La IA avanza rápidamente en un área no solo porque las respuestas sean verificables, sino porque esa área pueda envasarse como un entorno de entrenamiento replicable, reproducible y que permita pruebas y errores paralelos.
Esto también explica por qué tareas de programación, matemáticas y juegos son el caldo de cultivo natural para RLVR, mientras que muchas tareas del mundo real son difíciles de incorporar directamente a este paradigma de entrenamiento.
Luego, lleva la cuestión a un mundo real más complejo.
- ¿Qué pasa si queremos entrenar una IA para emprender un negocio desde cero?
- ¿O para ganar un caso legal?
- ¿O para generar ganancias estables en el mercado, o ayudar a un candidato a ganar una elección?
Estas tareas, por supuesto, también tienen resultados. Si la empresa despega, si se gana el caso, si las transacciones son rentables, si se gana la elección, al final se puede juzgar.
Pero su problema es: la retroalimentación es demasiado lenta, hay demasiadas variables, el mundo no se puede reiniciar, y no se puede replicar mil veces en un centro de datos.
Un emprendimiento puede durar años. Una campaña política depende de una región específica, del candidato, del sentimiento de los votantes, del entorno mediático y de eventos fortuitos. Un caso legal tampoco se puede copiar desde el mismo punto de partida en mil universos paralelos para que diferentes agentes prueben y fallen.
Este tipo de entornos en aprendizaje por refuerzo se asemejan a los llamados entornos "reset-free" y "non-stationary": no se pueden reiniciar fácilmente y el entorno mismo está en constante cambio.
Por lo tanto, Dwarkesh pregunta: ¿Realmente el agente entrenado por RLVR en entornos verificables y repetibles podrá generalizarse a estas tareas del mundo real?
Esta no es una pregunta que pueda responderse con eslóganes, sino con evidencia empírica.
Los optimistas dirán que, si los entornos RLVR son suficientes y lo suficientemente complejos, el modelo eventualmente aprenderá capacidades de agente universales. La capacidad de planificación y de prueba y error que desarrolla en programación, matemáticas, navegación web y uso de herramientas eventualmente se transferirá a áreas como emprendimiento, gestión organizacional, política, derecho e investigación científica.
Pero Dwarkesh se muestra escéptico al respecto.
Porque en el mundo real, el conocimiento más valioso a menudo no aparece de manera clara, verificable y repetible. Puede provenir de un comentario ambiguo de un cliente, de una reunión fallida, de un proceso implícito dentro de una organización, de un patrón de fracaso que solo se revela en tareas reales. Para que un modelo aprenda estas cosas, no puede depender solo de "practicar ejercicios"; también debe poseer una verdadera eficiencia de muestreo.
Esto lleva la discusión al punto más importante del artículo: "learning back to the weights", reescribir el aprendizaje de vuelta en los pesos (parámetros) del modelo.
Los grandes modelos actuales ya son muy buenos en "in-context learning" (aprendizaje en contexto). Pueden leer mucha información en un contexto largo, comprender los antecedentes de un proyecto y adaptarse temporalmente a las necesidades de un usuario u organización. Pero el problema es que este aprendizaje a menudo se queda dentro de la ventana de contexto. Una vez que termina la sesión, el modelo no necesariamente "retiene la lección".
Dwarkesh considera que esto es un gran desperdicio.
Porque las señales de entrenamiento realmente valiosas para el modelo aparecen precisamente después de su implementación. El modelo es utilizado por usuarios reales, ingresa a organizaciones reales, participa en tareas reales y se expone a errores reales. Verá cómo funciona realmente una empresa internamente, qué hacen las personas con él, en qué áreas falla con frecuencia, qué sugerencias simplemente no funcionan en la realidad.
Pero si estas experiencias no pueden solidificarse de vuelta en los pesos del modelo, entonces solo son una adaptación temporal en una sesión, no un crecimiento de capacidades a largo plazo.
Hace una analogía con el aprendizaje humano: las personas no se vuelven más fuertes memorizando palabra por palabra todo lo que sucede cada día. Un empleado se vuelve útil después de seis meses de trabajo no porque recuerde cada correo electrónico o cada minuto de las reuniones, sino porque ha comprimido esas experiencias en juicio, intuición, comprensión de procesos y patrones de problemas.
El modelo debería hacer lo mismo.
El verdadero "aprendizaje continuo" (continual learning) no consiste en expandir infinitamente la "KV cache" ni en meter todo el historial en el contexto, sino en extraer de la experiencia real una pequeña cantidad de conocimiento verdaderamente útil y luego comprimirlo en los pesos.
Este es precisamente el problema que Dwarkesh cree que el próximo paradigma de entrenamiento debe resolver.
Entonces, ¿cómo hacerlo concretamente?
Menciona una dirección que se está discutiendo: "on-policy self-distillation" (OPSD) (auto-destilación en-política).
Puede entenderse aproximadamente así: permitir que un modelo que ya ha acumulado una gran cantidad de experiencia en sesiones largas actúe como un "empleado experimentado" o maestro; luego entrenar al modelo base para que, incluso sin el contexto completo, pueda tomar decisiones similares a las del maestro.
Es decir, destilar de vuelta a los pesos del modelo lo que el modelo aprendió en una tarea real a través del contexto.
Esto es diferente del SFT (Supervised Fine-Tuning) común. El SFT más básico puede simplemente hacer que el modelo prediga tokens que aparecieron en la conversación, equivalente a hacerlo repetir todo el registro de trabajo. Eso no es un aprendizaje efectivo. Lo realmente importante no es recordar todos los detalles, sino extraer aquellas ideas clave que ayuden al modelo a desempeñarse mejor la próxima vez.
La ventaja del OPSD es que no necesariamente requiere una recompensa externa verificable. Siempre que el modelo pueda aprender algo útil en contexto, se puede usar el "modelo después de haber aprendido" como maestro y hacer que el modelo base se acerque a él.
Al mismo tiempo, en comparación con el RL común que solo tiene la recompensa final, el OPSD puede proporcionar señales de supervisión más densas. Puede comparar las diferencias en las distribuciones de probabilidad del maestro y el estudiante a nivel de token, comprimiendo así la experiencia escasa de una tarea real en actualizaciones de pesos más pequeñas y precisas.
Además del OPSD, Dwarkesh propone otra dirección: "dreaming" (soñar).
Aquí, "dreaming" se refiere a que la IA, basándose en observaciones del mundo real, construya su propio entorno simulado y luego practique repetidamente, pruebe estrategias y refuerce comportamientos efectivos dentro de él.
Esto suena mucho al "model-based RL" (aprendizaje por refuerzo basado en modelo) tradicional, y también a lo que Sutton siempre ha enfatizado: que el agente acumule experiencia a través de la interacción con el entorno. La diferencia es que Dwarkesh lo sitúa en el contexto de los grandes modelos y el despliegue real.
Por ejemplo, después de que una IA observa un proceso empresarial en una empresa real, no solo escribe un resumen, sino que dedica una gran cantidad de cálculo a construir una "versión simulada de juego" de ese proceso. Luego prueba dentro diferentes estrategias de comunicación, rutas de ejecución y formas de impulsar proyectos, para ver qué tiene más probabilidades de éxito. Finalmente, comprime de vuelta en el modelo la experiencia obtenida en esos ejercicios simulados.
Si esta ruta se consolida, podría convertirse en un nuevo eje de escalado ("scaling axis").
En el pasado, la escalabilidad de la IA provenía principalmente de tres ejes: pre-entrenamiento (pretraining), aprendizaje por refuerzo (RL) y cómputo en tiempo de inferencia (inference-time compute). Dwarkesh plantea que en el futuro podría surgir un cuarto eje: "test-time training", o "dreaming". El modelo no solo razona, sino que durante el razonamiento y la ejecución de tareas, construye entornos simulados para usuarios, organizaciones o proyectos específicos, y se entrena a sí mismo dentro de ellos.
Por eso, en los comentarios alguien mencionó el artículo de David Silver y Richard Sutton "Welcome to the Era of Experience": ese artículo también enfatiza que la IA no puede depender para siempre de datos humanos, y que la clave de la siguiente etapa será que los agentes obtengan experiencia a partir de su propia interacción con el entorno.

Dwarkesh, por su parte, concreta esta apreciación macro en el problema actual del entrenamiento de grandes modelos: RLVR es una fase de transición importante, que permite al modelo desarrollar capacidades de agente en tareas verificables; pero para ingresar a un mundo real más complejo, el modelo debe aprender a seguir aprendiendo continuamente de su despliegue real y a reescribir esa experiencia en sus pesos.
En la visión de Dwarkesh para 2027 o 2028, el flujo de entrenamiento podría verse así:
- Primero, RLVR entrena un agente básicamente competente. Este agente es lanzado a un problema desconocido y al menos puede comprender la situación, probar diferentes estrategias, e iterar después de encontrar obstáculos;
- Luego, este agente se implementa en el mundo real, comenzando a realizar trabajo real. Podría trabajar de manera continua con un usuario durante una semana, participando en un proyecto que no estaba en la distribución de entrenamiento original;
- Al final de la semana, el usuario le da un pulgar arriba o pulgar abajo, o incluso escribe una evaluación del trabajo. Si el resultado es positivo, el modelo destila de vuelta al modelo base lo aprendido durante esta tarea. Este proceso podría usar OPSD, podría usar "dreaming", o quizás alguna nueva tecnología que aún no existe.
Una vez que esta ruta funcione, los límites de capacidad de la IA ya no estarán restringidos por esas "tareas verificables" iniciales.
Podría aprender primero, a través de RLVR, tareas de programación, matemáticas, navegación web y uso de herramientas; luego, a través del despliegue real, aprender gestión organizacional, procesos empresariales y colaboración compleja; y a partir de estas experiencias, continuar expandiéndose a áreas adyacentes.
Esto también significa que la principal fuente de progreso de la IA podría cambiar.
En el pasado, un modelo se entrenaba antes de ser lanzado y los usuarios solo lo usaban. La próxima generación de modelos podría ser: entrenar un agente base antes del lanzamiento, y luego seguir aprendiendo a través de una multitud de tareas reales después del lanzamiento. Cada interacción con un usuario, cada ejecución de un proyecto real, cada fallo y corrección, podría convertirse en material para la siguiente ronda de mejora de capacidades.
Por lo tanto, el "próximo paradigma de entrenamiento" al que se refiere Dwarkesh no es simplemente decir que los modelos deben ser más grandes, los datos más abundantes o el RL más fuerte.
Lo que realmente señala es: La IA debe pasar del entrenamiento previo al lanzamiento, al aprendizaje posterior al lanzamiento; de los datos humanos, a la experiencia ambiental; de la adaptación temporal en contexto, a la capacidad a largo plazo en los pesos.
Los datos de entrenamiento de IA más importantes en el futuro podrían no ser solo el texto ya existente en Internet, ni solo las tareas verificables construidas en el laboratorio, sino la experiencia que la IA misma acumule al completar tareas reales en el mundo real.
Enlaces de referencia:
https://x.com/dwarkesh_sp/status/2070551894674555081
Este artículo proviene del WeChat oficial "机器之心" (ID:almosthuman2014), autor: 关注AI训练 (Enfocado en entrenamiento de IA).






