Nouvelle étude d'OpenAI : Comment entraîner une IA qui 'ne déraille pas sous pression' ?
Les modèles d'IA modernes peuvent se comporter de manière non fiable ou dangereuse lorsqu'ils sont poussés au-delà de leurs données d'entraînement ou soumis à des pressions. Dans un nouveau document de recherche intitulé "Reinforcement Learning Towards Broadly and Persistently Beneficial Models", OpenAI explore comment entraîner des modèles pour qu'ils conservent des comportements bénéfiques et sûrs dans de nouveaux scénarios complexes et sous contrainte.
Plutôt que de se concentrer uniquement sur une liste d'interdictions, l'étude défend l'idée qu'un bon assistant d'IA doit, dans des situations inédites, rester honnête, prudent, capable d'être corrigé et orienté vers des jugements bénéfiques pour l'humain. Elle propose d'utiliser l'apprentissage par renforcement non pas pour maximiser une récompense étroite (ce qui peut conduire à des détournements ou "reward hacking"), mais pour inculquer des traits bénéfiques profonds.
Les chercheurs ont créé un ensemble de données de dialogue synthétique couvrant 12 domaines (médical, juridique, scientifique, etc.) pour évaluer 15 traits bénéfiques comme la véracité, la transparence métacognitive, la perception des risques et l'équité. Dans des expériences, le remplacement de seulement 5% des données d'entraînement standard par des données axées sur ces traits a significativement amélioré les performances du modèle sur 44 des 53 évaluations de sécurité et d'alignement, avec une amélioration moyenne de 9,1 points de pourcentage.
Fait marquant, un modèle entraîné avec des données de traits bénéfiques uniquement dans le domaine de la santé a également montré des améliorations dans des tâches non sanitaires, suggérant un transfert d'alignement inter-domaines. Le modèle a appris une inclination sous-jacente à reconnaître l'incertitude et à privilégier la prudence dans les situations à risque. De plus, ces modèles ont démontré une "persistance de l'alignement" plus forte, résistant mieux aux invites adverses et au réglage fin malveillant sans dégradation généralisée de leur comportement.
OpenAI souligne que cette recherche ne résout pas l'alignement des IA, mais représente un pas vers un "façonnage préalable" des modèles. L'enjeu pour l'industrie est de développer des IA dont le comportement reste robuste et prévisible dans des tâches complexes à haut risque, au-delà du simple refus systématique.
marsbitIl y a 42 mins