Claude Opus 4.8 es lanzado, Anthropic comienza a convertir la 'fiabilidad' en una característica de producto
Claude Opus 4.8 ha sido lanzado, manteniendo el precio pero destacando la **fiabilidad** como su principal avance. En pruebas de honestidad en código, redujo la tasa de no detección de errores propios del 19.7% al 3.7%. También introduce flujos de trabajo dinámicos en Claude Code, donde múltiples subagentes, incluido uno adversario para autocontrol, colaboran. Aunque lidera cinco de seis benchmarks clave, GPT-5.5 sigue siendo superior en tareas de terminal. Se observan mejoras notables en razonamiento matemático (+27 puntos) y eficiencia de tokens, pero también retrocesos menores en algunas áreas, honestamente reportados. Anthropic anuncia que un modelo más potente, Mythos, llegará en semanas. El mensaje central es que la competencia entre modelos de vanguardia ya no se trata solo de rendimiento bruto, sino de **confiabilidad y verificabilidad**, permitiendo delegar tareas más críticas.
marsbitHace 7 hora(s)