# Adaptation Articles associés

Le Centre d'actualités HTX fournit les derniers articles et analyses approfondies sur "Adaptation", couvrant les tendances du marché, les mises à jour des projets, les développements technologiques et les politiques réglementaires dans l'industrie crypto.

Un nouveau travail du lauréat du prix Turing Sutton : en utilisant une formule de 1967 pour résoudre une grande lacune de l'apprentissage par renforcement en flux continu

En 2024, une équipe de l'Université d'Alberta a identifié le "stream barrier", l'incapacité de l'apprentissage par renforcement profond à apprendre en flux continu (taille de lot de 1, sans mémoire de relecture), provoquant l'instabilité de l'entraînement. Une nouvelle étude, menée par Arsalan Sharifnassab (Openmind) et Mohamed Elsayed, A. Rupam Mahmood et Richard S. Sutton (Alberta), propose une solution radicale : le défaut ne vient pas du manque de données, mais du mauvais réglage du pas d'apprentissage. Ils introduisent les "Intentional Updates" (mises à jour intentionnelles). Au lieu de spécifier combien les paramètres doivent bouger, on spécifie de combien doit changer la sortie de la fonction (par exemple, réduire l'erreur de prédiction de 5%). Le pas d'apprentissage est alors calculé rétroactivement pour atteindre cet objectif. Cette idée s'inspire de l'algorithme NLMS de 1967. Les chercheurs l'étendent à l'apprentissage par renforcement profond, créant des algorithmes comme Intentional TD(λ) pour l'évaluation, Intentional Q(λ) pour le contrôle discret, et Intentional Policy Gradient pour le contrôle continu. Les résultats sur des benchmarks (MuJoCo, Atari) montrent que ces méthodes, en mode flux pur, égalent ou approchent les performances d'algorithmes de référence comme SAC ou DQN qui utilisent de grandes mémoires de relecture, tout en étant jusqu'à 140 fois plus économes en calcul. Bien que plus robuste et nécessitant moins de réglages, la méthode présente encore un biais dans le choix du pas pour les politiques, un problème à résoudre dans les travaux futurs. Cette avancée ouvre la voie vers un apprentissage en ligne, efficient et adaptatif, plus proche de l'apprentissage biologique, pour des applications comme la robotique ou les dispositifs autonomes.

marsbit05/10 06:42

Un nouveau travail du lauréat du prix Turing Sutton : en utilisant une formule de 1967 pour résoudre une grande lacune de l'apprentissage par renforcement en flux continu

marsbit05/10 06:42

活动图片