Artículos Relacionados con Aprendizaje Continuo

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Aprendizaje Continuo", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

El padre de AlphaGo mete a la IA en una sociedad artificial de 23 años: aquí están los 3 retos más difíciles para los agentes inteligentes

Demis Hassabis, CEO de DeepMind y padre de AlphaGo, ha colaborado durante más de una década con videojuegos para investigar la IA. Ahora, ha llevado su trabajo a EVE Online, un MMORPG espacial en funcionamiento durante 23 años. DeepMind anunció una asociación con Fenris Creations (antes CCP Games), el desarrollador de EVE, para utilizar este complejo universo impulsado por los jugadores como un banco de pruebas seguro. El objetivo no es mejorar el juego, sino abordar tres desafíos centrales en la investigación de agentes de IA: la planificación a largo plazo, la memoria y el aprendizaje continuo. EVE Online es único por su universo único y persistente, donde miles de jugadores interactúan en una economía, política y guerra en constante evolución, sin un "final de partida" definido. Esta complejidad orgánica, desarrollada durante más de dos décadas, ofrece un entorno de prueba excepcionalmente rico que los entornos de referencia sintéticos no pueden replicar. La investigación inicial se realizará en una versión offline de EVE, permitiendo a DeepMind probar agentes de IA en un entorno controlado que replica las mecánicas complejas del juego sin interferir con el servidor activo. Este paso sigue la evolución de DeepMind, desde Atari y AlphaGo hasta AlphaStar y el agente generalista SIMA 2, avanzando hacia entornos más abiertos y similares al mundo real. La pregunta clave que plantea este proyecto es: si un agente de IA puede aprender, recordar y planificar a largo plazo en un "universo artificial" tan complejo como EVE, ¿qué le separa de poder operar de manera autónoma en el mundo real?

marsbit05/25 00:12

El padre de AlphaGo mete a la IA en una sociedad artificial de 23 años: aquí están los 3 retos más difíciles para los agentes inteligentes

marsbit05/25 00:12

Weng Jiayi, ingeniero de Post-Entrenamiento de OpenAI, plantea una nueva hipótesis de paradigma para la IA Agéntica

El ingeniero de post-entrenamiento de OpenAI, Weng Jiayi, propone un nuevo paradigma para la IA Agéntica: el "Heuristic Learning" (HL). En lugar de depender únicamente de grandes modelos entrenados con datos masivos, este enfoque permite a un agente de codificación (como Codex) iterar de forma autónoma: escribir, probar, ejecutar y modificar código basado en reglas para resolver tareas. En experimentos clave, este sistema logró la puntuación máxima teórica (864) en Atari Breakout y resultados competitivos en entornos de control robótico como MuJoCo Ant. La idea central es que el aprendizaje no tiene por qué residir solo en los pesos de una red neuronal; la experiencia puede codificarse en un sistema de software explícito, interpretable y mantenible. Esto ofrece ventajas en eficiencia muestral inicial, explicabilidad y capacidad de auditoría, especialmente relevante para robótica y escenarios de seguridad crítica. Sin embargo, el enfoque encuentra límites en tareas que requieren planificación a largo plazo o percepción compleja (ej. Montezuma's Revenge). Weng sugiere un futuro híbrido donde redes neuronales (Sistema 1), sistemas heurísticos (también Sistema 1) y agentes LLM (Sistema 2) colaboren, trasladando parte de la "deuda técnica" de los pesos de la red al dominio de la ingeniería de software tradicional.

marsbit05/11 00:25

Weng Jiayi, ingeniero de Post-Entrenamiento de OpenAI, plantea una nueva hipótesis de paradigma para la IA Agéntica

marsbit05/11 00:25

a16z: La 'amnesia' de la IA, ¿puede curarla el aprendizaje continuo?

En el artículo de a16z, se explora la "amnesia" de la IA, comparándola con el personaje de "Memento" que no puede formar nuevos recuerdos. Los modelos de lenguaje actuales, tras su entrenamiento, congelan el conocimiento en sus parámetros, sin poder actualizarse con nueva información. Para compensar, se usan contextos externos como historiales de chat o sistemas de recuperación, pero estos no internalizan realmente el conocimiento. El aprendizaje contextual (ICL) es útil, pero tiene limitaciones: no maneja bien problemas que requieren descubrimiento genuino, adaptación adversarial o conocimiento implícito. La solución propuesta es el "aprendizaje continuo", donde los modelos actualizan sus parámetros después del despliegue, comprimiendo nueva información en lugar de solo recuperarla. Se discuten tres enfoques: 1. **Contexto**: Mejora de ventanas de contexto y sistemas de recuperación. 2. **Módulos**: Uso de adaptadores o memorias externas para especializar modelos. 3. **Pesos**: Actualización directa de parámetros mediante técnicas como metaaprendizaje o auto-mejora. Aunque el aprendizaje contextual es efectivo y escalable, el artículo argumenta que la compresión en los parámetros es crucial para problemas complejos. Sin embargo, actualizar pesos conlleva riesgos como olvido catastrófico o problemas de seguridad. El futuro probablemente combine contextos, módulos y actualizaciones de pesos para lograr IA que aprenda de verdad, no solo recuerde.

marsbit04/25 04:41

a16z: La 'amnesia' de la IA, ¿puede curarla el aprendizaje continuo?

marsbit04/25 04:41

活动图片