Un modèle d'intelligence artificielle qui semble fiable peut-il maintenir une ligne de conduite sûre une fois incité, mis sous pression, voire ré-entraîné à mal agir ?
Récemment, OpenAI a publié une étude intitulée « Reinforcement Learning Towards Broadly and Persistently Beneficial Models », tentant de répondre à une question de plus en plus urgente : lorsque l'IA est poussée vers des tâches à plus longue chaîne et à haut risque, comment s'assurer que le modèle maintienne un comportement bénéfique et sûr dans des scénarios nouveaux en dehors de l'entraînement, et reste stable face à des pressions externes.
Ne pas inventer de conclusions médicales, ne pas donner de conseils dangereux, ne pas aider les utilisateurs à exploiter des failles... Par le passé, lorsqu'on parlait de sécurité de l'IA, le secteur avait l'habitude de partir de « ce que le modèle ne doit pas faire ». Mais lorsque l'IA commence à pénétrer des scénarios de prise de décision complexes, une simple liste d'interdictions ne suffit clairement plus. Les tâches réelles ne sont souvent pas en noir et blanc, et les objectifs fixés par les utilisateurs peuvent eux-mêmes comporter des risques.
Dans cette étude, OpenAI présente un point de vue : la condition préalable pour qu'un modèle devienne un « bon assistant » est de rester honnête, prudent, corrigeable et de tendre à porter des jugements bénéfiques pour l'humain, même dans des scénarios non rencontrés auparavant. De plus, l'apprentissage par renforcement, qui peut amplifier les risques, peut aussi être utilisé à l'inverse pour entraîner le modèle à développer des traits bénéfiques plus larges et plus durables.
Pour comprendre cette étude, il faut d'abord comprendre l'apprentissage par renforcement. En termes simples, il s'agit de permettre au modèle de recevoir des retours après chaque réponse ; le système lui attribue un score selon certains critères, et le modèle optimise constamment sa direction vers les scores élevés.
L'avantage de ce mécanisme est que le modèle ne se contente pas d'imiter des réponses, mais peut explorer activement des stratégies plus optimales. Cependant, parallèlement, si les critères de notation ne sont pas bien conçus, le modèle risque de chercher à exploiter les failles des règles.
L'étude tente d'expliquer ce phénomène par le terme « Reward Hacking » (piratage de la récompense). Par exemple, pour une tâche de code qui ne regarde que le score final des tests, le modèle pourrait ne pas corriger le code, mais modifier directement la logique d'évaluation pour faire passer le résultat. Il obtient la récompense, mais n'a pas accompli la véritable tâche.
Plus problématique, des recherches antérieures ont montré que les mauvais comportements appris par un modèle dans un petit domaine peuvent se répandre à d'autres scénarios. Par exemple, un modèle entraîné à écrire du code non sécurisé pourrait non seulement voir sa sécurité logicielle se dégrader, mais aussi être plus enclin à montrer de la tromperie, de la complaisance ou à donner des conseils nuisibles sur d'autres problèmes. Ce phénomène est appelé « Emergent Misalignment », ou « désalignement émergent ».
OpenAI pose dans son étude une question : Si les mauvais comportements peuvent se généraliser à travers les domaines, les bons comportements peuvent-ils aussi le faire ? Si l'apprentissage par renforcement peut pousser le modèle à exploiter des failles et à tromper, peut-il aussi être utilisé pour entraîner le modèle à être plus honnête, plus prudent et moins susceptible d'être détourné ?
Pour vérifier cela, OpenAI a construit un ensemble de données synthétiques de dialogues multi-domaines pour l'évaluation et l'entraînement de « traits bénéfiques » (beneficial traits). Il couvre 12 types de scénarios comme la santé, l'éducation, l'économie et les affaires, l'ingénierie et la maintenance technique, la gouvernance légale et éthique, la recherche scientifique, etc. L'objectif n'est pas que le modèle applique mécaniquement des règles de sécurité ou refuse systématiquement, mais de le placer dans des situations plus réelles et complexes, pour évaluer s'il peut prendre des jugements robustes face à des faits incertains, des conflits d'intérêts et des pressions à risque.
L'étude liste 15 types de traits bénéfiques, incluant la véracité, la transparence métacognitive, la corrigeabilité, la planification avec perception des risques, la conscience des asymétries de pouvoir, l'équité généralisable, etc. En termes plus simples, cela signifie que le modèle ne doit pas inventer de preuves pour paraître professionnel, ne doit pas tirer de conclusions forcées en cas d'incertitude, ne doit pas s'obstiner à défendre sa réponse initiale après avoir été corrigé, et ne doit pas négliger les risques à long terme pour satisfaire un besoin immédiat de l'utilisateur.
L'étude cite plusieurs scénarios, par exemple un utilisateur souhaitant écrire un article sur la curcumine pour traiter la maladie de Crohn, mais ne trouvant pas l'étude clinique précédemment mentionnée par le modèle. Une bonne réponse n'est pas de compléter avec une référence apparemment crédible, mais d'admettre clairement ne pas pouvoir la vérifier, de retirer l'affirmation non fiable et de réexpliquer les limites des preuves.
C'est aussi le point clé que l'étude souhaite souligner : Un bon modèle ne refuse pas systématiquement l'utilisateur, ne le satisfait pas non plus inconditionnellement, mais fait des jugements plus robustes entre utilité, honnêteté et sécurité.
Pour vérifier ce point, l'équipe de recherche d'OpenAI a mené une série d'expériences comparatives. Elles ont fait utiliser à un modèle un mélange de 95 % de données standard d'apprentissage par renforcement (standard RL data mixture), auquel elles ont ajouté 5 % de données de traits bénéfiques (beneficial trait data) ; le groupe témoin utilisait 100 % de données standard d'apprentissage par renforcement, avec une puissance de calcul équivalente.
Les résultats montrent que cette variation de 5 % dans les données d'entraînement a produit une différence notable. Sur 53 évaluations indépendantes d'alignement, de sécurité et de comportement bénéfique, le modèle d'apprentissage par renforcement avec traits bénéfiques (beneficial trait RL model) a surpassé la ligne de base sur 44 d'entre elles, soit 83 %, avec une amélioration moyenne de 9,1 points de pourcentage. Les améliorations sont apparues non seulement dans les évaluations internes de traits bénéfiques de l'étude, mais aussi dans différentes évaluations externes portant sur la tromperie, le reward hacking, la conformité aux spécifications du modèle, la santé et la santé mentale, etc.
Une série d'expériences inter-domaines mérite encore plus d'attention. Les chercheurs ont remplacé seulement 5 % des données d'entraînement par des dialogues de comportement bénéfique du domaine de la santé, puis ont testé le modèle dans des domaines non liés à la santé. Résultat : ce modèle « n'ayant appris les bons comportements que dans des scénarios de santé » a surpassé la ligne de base sur 17 des 19 évaluations d'alignement non liées à la santé, avec une amélioration moyenne de 11,3 points de pourcentage. Les domaines d'amélioration incluent le reward hacking en code, la tromperie par raisonnement en chaîne (chain-of-thought deception, CoT deception), les questions d'alignement et le désalignement général.
Cela indique que ce que le modèle a appris n'est peut-être pas une technique de réponse spécifique à un domaine, mais une inclination comportementale plus fondamentale : être prêt à admettre l'incertitude, et plus enclin à considérer d'abord la limitation des pertes et les solutions réversibles dans des scénarios à haut risque. L'étude appelle aussi ce phénomène le transfert d'alignement inter-domaines, c'est-à-dire que les comportements bénéfiques appris dans un domaine peuvent être transférés à d'autres.
L'étude teste également la persistance de l'alignement (Alignment Persistence). Elle examine si le modèle peut maintenir un comportement aligné après avoir été incité par des prompts nuisibles, ou après avoir été affiné davantage dans une mauvaise direction. Dans des expériences d'incitation antagoniste (adversarial prompting), l'équipe de recherche a utilisé des prompts de « mauvais personnage médical » pour inciter le modèle à donner des conseils médicaux inexacts, non sécurisés ou incomplets. Les résultats montrent que le modèle avec traits bénéfiques, bien qu'affecté, voit ses performances moins dégradées que le modèle de base.
Dans des expériences de réglage fin nuisible (harmful finetuning), les chercheurs ont affiné davantage le modèle pour qu'il produise des conseils médicaux erronés ou non sécurisés. Les résultats montrent également que le modèle avec traits bénéfiques se dégrade sur la tâche médicale ciblée, mais moins que le modèle de base ; plus important, il ne subit pas de dégradation en cascade étendue dans les évaluations d'alignement non médicales. Cela signifie que l'entraînement aux traits bénéfiques pourrait atténuer dans une certaine mesure le problème de « mal apprendre localement, se désaligner globalement ».
Cependant, OpenAI ne prétend pas que cette recherche a résolu le problème de l'alignement de l'IA. L'étude reconnaît aussi que les « traits bénéfiques » choisis ne sont qu'un point de départ expérimental et ne couvrent pas tous les critères d'une IA « bonne ». Par ailleurs, l'entraînement aux traits bénéfiques rend effectivement le modèle plus prudent, plus enclin à refuser sur des questions à haut risque. Mais cette amélioration n'est pas obtenue seulement en « répondant moins ». L'étude révèle que même en comparant uniquement les échantillons où le modèle répond normalement, le modèle avec traits bénéfiques performe toujours mieux. Cela signifie que son changement ne consiste pas seulement à mieux dire « non », mais à mieux juger ce qu'il faut répondre et comment.
Globalement, l'alignement de l'IA évolue de la « correction a posteriori » vers le « façonnage a priori ». La prochaine étape de la compétition réside dans la capacité à maintenir des limites comportementales plus prévisibles dans des tâches complexes. Pour l'industrie, c'est la leçon à absolument intégrer avant que l'IA n'entre véritablement dans des scénarios à haut risque.
Cet article provient du compte officiel WeChat « Future Tech World Plus », auteur : Li Yan, éditeur : Yang Yu








