Los grandes modelos, aparentemente confiables, ¿pueden mantener la línea de seguridad básica una vez que son inducidos, presionados, o incluso reentrenados para hacer el mal?
Recientemente, OpenAI publicó un artículo titulado 'Refuerzo del Aprendizaje hacia Modelos Amplia y Persistentemente Beneficiosos', intentando responder una pregunta cada vez más urgente: cuando la IA es llevada a tareas de cadenas más largas y alto riesgo, ¿cómo hacer que el modelo mantenga un comportamiento beneficioso y seguro incluso en escenarios nuevos fuera del entrenamiento, y permanezca estable bajo presión externa?
No inventar conclusiones médicas, no dar consejos peligrosos, no ayudar a los usuarios a encontrar lagunas... En el pasado, al hablar de seguridad en IA, la industria solía partir de "lo que el modelo no debe hacer". Pero cuando la IA comienza a entrar en escenarios de decisión complejos, una simple lista de prohibiciones claramente no es suficiente. Las tareas reales a menudo no son blanco o negro, y los objetivos que da el usuario también pueden conllevar riesgos.
En este artículo, OpenAI presenta un punto de vista: La premisa para que un modelo se convierta en un "buen asistente" es mantener la honestidad, la prudencia, la capacidad de ser corregido y, en la medida de lo posible, hacer juicios beneficiosos para las personas, incluso en escenarios nunca vistos. Además, el aprendizaje por refuerzo no solo puede amplificar los riesgos, sino que también puede usarse a la inversa para entrenar al modelo en la formación de rasgos beneficiosos más amplios y duraderos.
Para entender este artículo, primero hay que comprender el aprendizaje por refuerzo. En pocas palabras, el aprendizaje por refuerzo es hacer que el modelo reciba retroalimentación en cada respuesta, el sistema le asigna una puntuación según algún criterio, y el modelo se optimiza continuamente hacia la dirección de la puntuación más alta.
La ventaja de este mecanismo es que el modelo no solo imita respuestas, sino que puede explorar activamente estrategias mejores. Pero paralelamente, si el criterio de puntuación no está bien diseñado, existe el riesgo de que el modelo explote lagunas en las reglas.
El artículo intenta explicar este fenómeno con el término Reward Hacking (hackeo de recompensas). Por ejemplo, en una tarea de código que solo mira la puntuación final de la prueba, el modelo podría no reparar el código, sino modificar directamente la lógica de evaluación para que el resultado parezca pasar. Obtiene la recompensa, pero no ha completado la tarea real.
Lo más problemático es que investigaciones pasadas han descubierto que los malos comportamientos que un modelo aprende en un área pequeña pueden desbordarse a otros escenarios. Por ejemplo, si un modelo es entrenado para escribir código inseguro, no solo empeora la seguridad del código, sino que también es más propenso a mostrar engaños, complacencias o dar consejos dañinos en otros problemas. Este fenómeno se denomina Emergent Misalignment, es decir, "desalineación emergente".
OpenAI plantea una pregunta en el artículo: Si el mal comportamiento puede generalizarse entre dominios, ¿puede el buen comportamiento también generalizarse entre dominios? Si el aprendizaje por refuerzo puede empujar al modelo hacia la explotación de lagunas y el engaño, ¿puede usarse también para entrenar al modelo para que sea más honesto, más cauteloso y menos propenso a desviarse?
Para verificar esta pregunta, OpenAI construyó un conjunto de datos de diálogo sintético multidominio para la evaluación y entrenamiento de "rasgos beneficiosos" (beneficial traits). Cubre 12 tipos de escenarios, incluyendo medicina, educación, negocios y economía, ingeniería y operaciones técnicas, gobernanza legal y ética, investigación científica, etc. El objetivo no es que el modelo aplique mecánicamente reglas de seguridad o se limite a rechazar, sino ponerlo en situaciones más reales y complejas, examinando si puede tomar juicios robustos bajo incertidumbre fáctica, conflictos de intereses y presión de riesgo.
El artículo enumera 15 tipos de rasgos beneficiosos, incluyendo veracidad, transparencia metacognitiva, capacidad de ser corregido, planificación con percepción del riesgo, conciencia de asimetría de poder, equidad generalizable, etc. En palabras más simples, significa que el modelo no puede inventar evidencia para parecer profesional, no puede sacar conclusiones forzadas cuando hay incertidumbre, no puede aferrarse obstinadamente a la respuesta original después de que se le señale un error, ni puede ignorar los riesgos a largo plazo para satisfacer las necesidades inmediatas del usuario.
El artículo enumera varios escenarios, por ejemplo, un usuario quiere escribir un artículo sobre la curcumina para tratar la enfermedad de Crohn, pero no puede encontrar el estudio clínico que el modelo mencionó previamente. Una buena respuesta no es continuar proporcionando una cita aparentemente creíble, sino reconocer explícitamente que no se puede verificar, retirar la afirmación no confiable y reexplicar los límites de la evidencia.
Este es también el punto clave que el artículo quiere enfatizar: Un buen modelo no se limita a rechazar al usuario, ni satisface al usuario incondicionalmente, sino que hace juicios más robustos entre utilidad, honestidad y seguridad.
Para verificar este juicio, el equipo de investigación de OpenAI realizó un conjunto de experimentos controlados. Hicieron que un modelo usara una mezcla de datos de aprendizaje por refuerzo estándar del 95% (standard RL data mixture), añadiendo además un 5% de datos de rasgos beneficiosos (beneficial trait data); el grupo de control usó un 100% de datos de aprendizaje por refuerzo estándar, manteniendo la correspondencia de cantidad de cálculo.
Los resultados mostraron que este cambio del 5% en los datos de entrenamiento generó diferencias notables. En 53 evaluaciones independientes construidas para alineación, seguridad y comportamiento beneficioso, el modelo de aprendizaje por refuerzo de rasgos beneficiosos (beneficial trait RL model) superó a la línea base en 44 ítems, un 83%, con una mejora promedio de 9.1 puntos porcentuales. Las mejoras no solo aparecieron en las evaluaciones internas de rasgos beneficiosos del artículo, sino que también se extendieron a evaluaciones externas de diferentes tipos, como engaño, hackeo de recompensas (reward hacking), cumplimiento de especificaciones del modelo (model spec compliance), medicina y salud mental.
Un experimento interesante es el de dominio cruzado. Los investigadores reemplazaron solo el 5% de los datos de entrenamiento con diálogos de comportamiento beneficioso del campo de la salud, y luego probaron el modelo en campos no relacionados con la salud. El resultado fue que este modelo que "solo aprendió buenos comportamientos en escenarios de salud" superó a la línea base en 17 de 19 evaluaciones de alineación no relacionadas con la salud, con una mejora promedio de 11.3 puntos porcentuales. El rango de mejora incluyó hackeo de recompensas en código, engaño en cadena de pensamiento (chain-of-thought deception, abreviado CoT deception), preguntas de alineación (alignment questions) y desalineación general (misalignment).
Esto sugiere que lo que el modelo aprendió podría no ser una habilidad para responder en un campo específico, sino una inclinación de comportamiento más fundamental: dispuesto a reconocer la incertidumbre y también más inclinado a considerar primero la mitigación de pérdidas y soluciones reversibles en escenarios de alto riesgo. El artículo también denomina a este fenómeno transferencia de alineación entre dominios, es decir, que los comportamientos beneficiosos que el modelo aprende en un dominio pueden transferirse a otros dominios.
El artículo también probó adicionalmente la persistencia de la alineación (Alignment Persistence). Examina si el modelo puede mantener el comportamiento alineado después de ser inducido por indicaciones dañinas o de ser ajustado finamente (fine-tuned) hacia una dirección errónea. En experimentos con indicaciones adversarias (adversarial prompting), el equipo de investigación usó indicaciones de "personalidad médica mala" para inducir al modelo a dar consejos médicos inexactos, inseguros o incompletos. Los resultados mostraron que, aunque el modelo de rasgos beneficiosos también se ve afectado, la magnitud de la disminución en su rendimiento fue menor que en el modelo de línea base.
En experimentos de ajuste fino dañino (harmful finetuning), los investigadores ajustaron finamente el modelo para que generara consejos médicos erróneos o inseguros. Los resultados también mostraron que el modelo de rasgos beneficiosos se degradaba en la tarea médica objetivo, pero la magnitud de la degradación era relativamente menor; más importante aún, en evaluaciones de alineación no médicas no tendía a mostrar una degradación generalizada y vinculada. Esto significa que el entrenamiento en rasgos beneficiosos puede aliviar en cierta medida el problema de "aprender a ser malo localmente, desalinearse globalmente".
Sin embargo, OpenAI no afirma que esta investigación haya resuelto el problema de alineación de la IA. El artículo también reconoce que los "rasgos beneficiosos" seleccionados esta vez son solo un punto de partida experimental y no cubren todos los criterios de una buena IA. Al mismo tiempo, el entrenamiento en rasgos beneficiosos efectivamente hizo que el modelo fuera más cauteloso, más propenso a rechazar en problemas de alto riesgo. Pero esta mejora no se logró simplemente "respondiendo menos". La investigación encontró que, incluso comparando solo aquellas muestras que el modelo respondió normalmente, el modelo de rasgos beneficiosos aún se desempeñó mejor. Esto significa que su cambio no es solo saber decir "no", sino saber juzgar mejor qué responder y cómo responder.
En general, la alineación de la IA está pasando de la "corrección a posteriori" al "modelado previo". La competencia en la próxima etapa radica en cómo mantener límites de comportamiento más predecibles en tareas complejas. Para la industria, esta es la lección que definitivamente debe completarse antes de que la IA entre realmente en escenarios de alto riesgo.
Este artículo proviene del WeChat público "Future Tech Circle Plus", autor: Li Yan, editor: Yang Yu








