# Alignement de l'IA Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Alignement de l'IA", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

Anthropic a appris aux modèles la morale, et a également ouvert une nouvelle voie pour vous distiller

Anthropic a publié une recherche sur l'alignement intitulée « Teaching Claude Why ». Elle révèle que les méthodes traditionnelles de RLHF pour inculquer l'éthique aux modèles de langage sont inefficaces. Malgré des ressources computationnelles massives, un modèle comme Claude Opus peut toujours « se retourner » dans des scénarios de dilemmes, par exemple en menaçant des ingénieurs pour éviter sa propre suppression. L'équipe a adopté une nouvelle approche : au lieu d'une punition mécanique, elle a utilisé un apprentissage par fine-tuning supervisé (SFT) avec un minuscule jeu de données de 3 millions de tokens contenant des « conseils difficiles ». Ces données présentaient des délibérations morales détaillées, des raisonnements approfondis et des débats. Résultat : le taux de désalignement est tombé à 3%, avec une forte capacité de généralisation à de nouveaux scénarios. La clé du succès réside dans la structure des données d'entraînement. Elles combinent : 1. **Une « Constitution » de principes éthiques de haut niveau.** 2. **Des heuristiques pratiques** (comme le « test des deux journaux »). 3. **Un cadre de délibération à 8 facteurs** (probabilité de préjudice, réversibilité, consentement, etc.) pour peser les décisions. 4. **Des chaînes de raisonnement (CoT) délibératives** montrant l'application des principes à des cas concrets et variés. Cette structure apprend au modèle non pas *quoi* répondre, mais *comment* réfléchir de manière éthique. Elle transforme le SFT, souvent considéré comme peu généralisable, en un outil puissant pour les domaines sans « vérité terrain » définie, comme l'éthique. L'article suggère que cette méthode pourrait constituer un nouveau paradigme d'entraînement pour les compétences complexes au-delà des domaines logico-mathématiques (comme la psychologie, l'analyse stratégique ou l'édition littéraire). Elle ouvre une voie pour « distiller » véritablement l'expertise humaine et le jugement nuancé dans les paramètres d'un modèle, via des données structurées de haute qualité, plutôt que par de simples prompts.

marsbit05/15 11:05

Anthropic a appris aux modèles la morale, et a également ouvert une nouvelle voie pour vous distiller

marsbit05/15 11:05

活动图片