Weng Jiayi, ingeniero de Post-Entrenamiento de OpenAI, plantea una nueva hipótesis de paradigma para la IA Agéntica
El ingeniero de post-entrenamiento de OpenAI, Weng Jiayi, propone un nuevo paradigma para la IA Agéntica: el "Heuristic Learning" (HL). En lugar de depender únicamente de grandes modelos entrenados con datos masivos, este enfoque permite a un agente de codificación (como Codex) iterar de forma autónoma: escribir, probar, ejecutar y modificar código basado en reglas para resolver tareas. En experimentos clave, este sistema logró la puntuación máxima teórica (864) en Atari Breakout y resultados competitivos en entornos de control robótico como MuJoCo Ant.
La idea central es que el aprendizaje no tiene por qué residir solo en los pesos de una red neuronal; la experiencia puede codificarse en un sistema de software explícito, interpretable y mantenible. Esto ofrece ventajas en eficiencia muestral inicial, explicabilidad y capacidad de auditoría, especialmente relevante para robótica y escenarios de seguridad crítica. Sin embargo, el enfoque encuentra límites en tareas que requieren planificación a largo plazo o percepción compleja (ej. Montezuma's Revenge). Weng sugiere un futuro híbrido donde redes neuronales (Sistema 1), sistemas heurísticos (también Sistema 1) y agentes LLM (Sistema 2) colaboren, trasladando parte de la "deuda técnica" de los pesos de la red al dominio de la ingeniería de software tradicional.
marsbit05/11 00:25