Посттренировочный инженер OpenAI Вэн Цзяи предложил новую парадигмальную гипотезу для Agentic AI
OpenAI-инженер Вэн Цзяи выдвинул новую концепцию «Эвристического обучения» (HL), предполагая, что AI может совершенствоваться не только за счет увеличения параметров нейронных сетей, но и посредством автономного редактирования кода. В своем эксперименте он использовал Codex (на базе GPT-5.4) для создания и итеративного улучшения программных стратегий на основе правил для игр Atari (например, Breakout) и сред робототехники MuJoCo. Система анализировала логи, видео-повторы и ошибки, самостоятельно внося изменения в код, тесты и конфигурации, что позволило достичь максимального счета в Breakout и результатов, сопоставимых с алгоритмами глубокого обучения с подкреплением.
Ключевая идея заключается в том, что «опыт» фиксируется в виде интерпретируемого программного обеспечения (эвристической системы — HS), а не только в неявных весах нейросети. Это может открыть новые возможности в областях, где важны прозрачность, безопасность и инженерная поддерживаемость, например, в робототехнике и критически важных системах. HL предлагает альтернативный путь, где обучение происходит через цикл обратной связи с агентом, способным писать и изменять код, хотя его применимость ограничена задачами, которые можно выразить программно. Эксперимент указывает на потенциальный симбиоз нейронных сетей (System 1) для восприятия и HL для логики, управляемой кодом, с LLM (System 2) в роли координатора.
marsbit05/11 00:20