Dwarkesh Patel: La siguiente generación de IA podría nacer del trabajo duro
El conocido presentador de podcasts de tecnología de Silicon Valley, Dwarkesh Patel, explora cuál podría ser el próximo paradigma de entrenamiento para la IA. Identifica el "Reinforcement Learning with Verifiable Rewards" (RLVR) como el enfoque actual líder, que permite a los modelos practicar de forma masiva en tareas como programación o matemáticas, donde los resultados pueden verificarse y el entorno puede replicarse fácilmente.
Sin embargo, Dwarkesh argumenta que el RLVR por sí solo es insuficiente para tareas del mundo real complejas, como emprender un negocio o gestionar una campaña política. Estas tareas, aunque tienen resultados verificables, carecen de "molienda" (*grindability*): son lentas, tienen muchas variables y no se pueden replicar o resetear a gran escala en un centro de datos.
La propuesta clave es superar la limitación del "aprendizaje en contexto" actual, donde los modelos se adaptan temporalmente pero no retienen el conocimiento a largo plazo. Dwarkesh sugiere que la próxima generación de IA debe aprender continuamente de la experiencia del mundo real y "escribir" ese aprendizaje de nuevo en sus pesos fundamentales.
Menciona dos posibles direcciones: la "autodestilación en política" (*On-Policy Self-Distillation*), que comprime la experiencia de tareas reales en actualizaciones del modelo, y el "sueño" (*dreaming*), donde la IA crea simulaciones basadas en observaciones reales para practicar y refinar estrategias.
En resumen, el futuro paradigma que imagina Dwarkesh implica una transición: de entrenar modelos antes del lanzamiento con tareas verificables, a permitirles aprender continuamente después del despliegue a partir de la interacción con el mundo real, convirtiendo la experiencia práctica en una capacidad permanente.
marsbitHace 46 min(s)