a16z : Le syndrome de l'« amnésie » de l'IA, l'apprentissage continu peut-il le guérir ?

marsbitPublié le 2026-04-25Dernière mise à jour le 2026-04-25

Résumé

Résumé : Les modèles de langage actuels souffrent d’une forme d’amnésie : une fois entraînés, leurs paramètres sont figés, les empêchant d’intégrer de nouvelles connaissances après leur déploiement. Pour pallier cela, des méthodes comme l’apprentissage en contexte (ICL) ou les systèmes de mémoire externe (RAG) sont utilisées, mais elles ne permettent pas une véritable internalisation des informations. L’article explore la question de l’apprentissage continu (continual learning), une piste de recherche cruciale pour permettre aux modèles de mettre à jour leurs paramètres de manière ciblée et durable. Trois approches sont présentées : l’apprentissage par contexte (non paramétrique), l’ajout de modules spécialisés (semi-paramétrique) et la mise à jour directe des poids (paramétrique). Si les méthodes non paramétriques sont matures et efficaces, elles butent sur des limites structurelles : impossibilité de généraliser véritablement, difficulté à traiter des connaissances implicites ou à résoudre des problèmes nécessitant une compression profonde (comme des preuves mathématiques novatrices). Les défis techniques et de sécurité liés aux mises à jour paramétriques (oubli catastrophique, auditabilité, alignement) restent importants, mais des solutions émergent (apprentissage métacognitif, architecture éparse, auto-amélioration). Une combinaison de ces approches pourrait permettre aux IA de passer d’une simple mémoire externe à une véritable capacité d’apprentissage continu.

Auteur original : Malika Aubakirova, Matt Bornstein, a16z crypto

Compilation originale : Deep潮 TechFlow

Dans « Memento » de Christopher Nolan, le personnage principal Leonard Shelby vit dans un présent fragmenté. Une lésion cérébrale lui a causé une amnésie antérograde, l'empêchant de former de nouveaux souvenirs. Toutes les quelques minutes, son monde se réinitialise, piégé dans un « maintenant » éternel, sans se souvenir de ce qui vient de se passer ni de ce qui va suivre. Pour survivre, il se tatoue, prend des photos Polaroid, et utilise ces accessoires externes pour remplacer la fonction de mémoire que son cerveau ne peut plus accomplir.

Les grands modèles de langage (LLM) vivent dans un présent éternel similaire. Une fois l'entraînement terminé, une immense quantité de connaissances est figée dans leurs paramètres ; le modèle ne peut pas former de nouveaux souvenirs ni mettre à jour ses paramètres en fonction de nouvelles expériences. Pour compenser cette lacune, nous lui avons construit tout un échafaudage : l'historique des conversations sert de pense-bête à court terme, les systèmes de recherche font office de carnets externes, et les instructions système sont comme des tatouages. Mais le modèle lui-même n'a jamais véritablement internalisé ces nouvelles informations.

De plus en plus de chercheurs estiment que cela ne suffit pas. L'apprentissage en contexte (ICL) peut résoudre des problèmes à condition que la réponse (ou des fragments de celle-ci) existe déjà quelque part dans le monde. Mais pour les problèmes qui nécessitent une véritable découverte (comme une nouvelle preuve mathématique), les scénarios adversariaux (comme les attaques et défenses en sécurité), ou les connaissances trop implicites pour être exprimées par des mots, il y a de bonnes raisons de penser que les modèles ont besoin d'un moyen d'écrire directement de nouvelles connaissances et expériences dans leurs paramètres après leur déploiement.

L'apprentissage en contexte est temporaire. Le véritable apprentissage nécessite une compression. Avant de permettre aux modèles de compresser en continu, nous risquons de rester piégés dans le présent éternel de « Memento ». Inversement, si nous pouvons entraîner les modèles à apprendre leur propre architecture de mémoire, au lieu de dépendre d'outils externes sur mesure, nous pourrions débloquer une toute nouvelle dimension de mise à l'échelle (scaling).

Ce domaine de recherche s'appelle l'apprentissage continu (continual learning). Ce concept n'est pas nouveau (voir l'article de McCloskey et Cohen de 1989), mais nous pensons que c'est l'une des directions de recherche les plus importantes dans le domaine de l'IA aujourd'hui. L'explosion des capacités des modèles au cours des deux ou trois dernières années a rendu le fossé entre ce que les modèles « savent » et ce qu'ils « peuvent savoir » de plus en plus évident. Le but de cet article est de partager ce que nous avons appris des meilleurs chercheurs de ce domaine, d'aider à clarifier les différentes voies de l'apprentissage continu et de faire avancer ce sujet dans l'écosystème des startups.

Note : Cet article a pris forme grâce à des échanges approfondis avec un groupe de chercheurs, doctorants et entrepreneurs exceptionnels, qui ont généreusement partagé avec nous leurs travaux et insights dans le domaine de l'apprentissage continu. De la base théorique aux réalités techniques de l'apprentissage après déploiement, leurs perspectives ont rendu cet article bien plus solide que si nous l'avions écrit seuls. Merci pour votre temps et vos idées !

Parlons d'abord de contexte

Avant de défendre l'apprentissage au niveau des paramètres (c'est-à-dire l'apprentissage qui met à jour les poids du modèle), il est nécessaire de reconnaître un fait : l'apprentissage en contexte fonctionne. Et un argument solide suggère qu'il continuera à gagner.

La nature du Transformer est d'être un prédicteur conditionnel du token suivant basé sur des séquences. Donnez-lui la bonne séquence, et vous obtiendrez des comportements étonnamment riches sans jamais avoir à toucher aux poids. C'est pourquoi des méthodes comme la gestion du contexte, l'ingénierie des prompts, le fine-tuning par instruction et les exemples few-shot sont si puissantes. L'intelligence est encapsulée dans des paramètres statiques, mais les capacités manifestées varient considérablement en fonction du contenu que vous insérez dans la fenêtre contextuelle.

L'article récent et approfondi de Cursor sur le scaling des agents de programmation autonomes en est un bon exemple : les poids du modèle sont fixes, ce qui fait vraiment fonctionner le système est l'orchestration minutieuse du contexte – quoi y mettre, quand faire des résumés, comment maintenir un état cohérent sur des heures de fonctionnement autonome.

OpenClaw est un autre bon exemple. Son succès fulgurant n'est pas dû à des privilèges spéciaux sur le modèle (le modèle sous-jacent est accessible à tous), mais à sa capacité à transformer le contexte et les outils en un état de travail extrêmement efficace : suivre ce que vous faites, structurer les produits intermédiaires, décider quand réinjecter des prompts, maintenir une mémoire persistante des travaux précédents. OpenClaw a élevé la « conception de la coquille » de l'agent au rang de discipline à part entière.

Lorsque l'ingénierie des prompts est apparue, de nombreux chercheurs étaient sceptiques quant au fait que « juste des prompts » puisse devenir une interface sérieuse. Cela semblait être un hack. Mais c'est un produit natif de l'architecture Transformer, ne nécessite pas de réentraînement et s'améliore automatiquement avec les progrès des modèles. Les modèles deviennent plus forts, les prompts deviennent plus forts. Les interfaces « simples mais natives » gagnent souvent parce qu'elles sont directement couplées au système sous-jacent, au lieu de lutter contre lui. Jusqu'à présent, la trajectoire de développement des LLM a été exactement celle-ci.

Modèles d'espace d'état : la version stéroïdée du contexte

Alors que les flux de travail principaux passent des appels LLM bruts aux boucles d'agents, les modèles d'apprentissage en contexte sont de plus en plus sollicités. Par le passé, il était relativement rare que la fenêtre contextuelle soit complètement remplie. Cela se produisait généralement lorsque le LLM était chargé d'accomplir une longue liste de tâches discrètes, et la couche applicative pouvait tronquer et compresser l'historique de chat de manière assez directe.

Mais pour un agent, une seule tâche peut consommer une grande partie du contexte total disponible. Chaque étape de la boucle de l'agent dépend du contexte transmis par les itérations précédentes. Et ils échouent souvent après 20 à 100 étapes parce qu'ils « perdent le fil » : le contexte est rempli, la cohérence se dégrade, la convergence devient impossible.

Par conséquent, les principaux laboratoires d'IA investissent maintenant massivement (c'est-à-dire via des entraînements à grande échelle) dans le développement de modèles avec des fenêtres contextuelles ultra-longues. C'est une voie naturelle car elle s'appuie sur ce qui fonctionne déjà (l'apprentissage en contexte) et correspond à la tendance générale du secteur à se déplacer vers le calcul au moment de l'inférence (inference-time compute). L'architecture la plus courante entremêle des couches de mémoire fixes entre les têtes d'attention standard, à savoir les modèles d'espace d'état (SSM) et les variantes d'attention linéaire (ci-après统称为 SSM). Les SSM offrent des courbes de scaling fondamentalement meilleures dans les scénarios à contexte long.

Légende : Comparaison du scaling des SSM avec le mécanisme d'attention traditionnel

L'objectif est d'aider les agents à augmenter le nombre d'étapes de fonctionnement cohérent de plusieurs ordres de grandeur, d'environ 20 étapes à environ 20 000 étapes, sans perdre les compétences et connaissances larges fournies par les Transformers traditionnels. En cas de succès, ce serait une percée majeure pour les agents fonctionnant sur de longues durées.

Vous pouvez même considérer cette approche comme une forme d'apprentissage continu : bien qu'elle ne mette pas à jour les poids du modèle, elle introduit une couche de mémoire externe qui nécessite rarement une réinitialisation.

Donc, ces méthodes non paramétriques sont réelles et puissantes. Toute évaluation de l'apprentissage continu doit partir de là. La question n'est pas de savoir si les systèmes contextuels d'aujourd'hui fonctionnent, ils fonctionnent. La question est : avons-nous déjà atteint un plafond, et de nouvelles méthodes peuvent-elles nous emmener plus loin.

Ce que le contexte omet : « L'erreur de l'armoire à classement »

« Ce qui s'est passé avec l'AGI et le pré-entraînement, c'est qu'en un sens, ils ont overshoot... Les humains ne sont pas des AGI. Oui, les humains ont bien une base de compétences, mais les humains manquent d'une immense quantité de connaissances. Nous dépendons de l'apprentissage continu.

Si je crée un adolescent de 15 ans super intelligent, il ne sait rien. Un bon élève, très désireux d'apprendre. Vous pouvez dire, va devenir programmeur, va devenir médecin. Le déploiement lui-même impliquera une sorte de processus d'apprentissage, d'essais et d'erreurs. C'est un processus, pas le fait de jeter un produit fini. — Ilya Sutskever »

Imaginez un système avec un espace de stockage infini. La plus grande armoire à classement du monde, chaque fait parfaitement indexé, instantanément récupérable. Il peut rechercher n'importe quoi. A-t-il appris ?

Non. Il n'a jamais été forcé de compresser.

C'est le cœur de notre argumentation, qui reprend un point soulevé précédemment par Ilya Sutskever : les LLM sont essentiellement des algorithmes de compression. Pendant l'entraînement, ils compressent Internet en paramètres. La compression est avec pertes, et c'est cette nature avec pertes qui la rend puissante. La compression force le modèle à trouver une structure, à généraliser, à construire des représentations qui peuvent être transférées à travers les contextes. Un modèle qui mémoriserait par cœur tous les échantillons d'entraînement serait inférieur à un modèle qui extrait les règles sous-jacentes. La compression avec pertes est en soi un apprentissage.

Ironiquement, le mécanisme qui rend les LLM si puissants pendant l'entraînement (compresser les données brutes en représentations compactes et transférables) est précisément ce que nous leur refusons de faire après le déploiement. Nous arrêtons la compression au moment de la publication, en la remplaçant par une mémoire externe.

Bien sûr, la plupart des coquilles d'agents compressent le contexte d'une manière personnalisée. Mais la « leçon amère » (bitter lesson) ne nous dit-elle pas que le modèle lui-même devrait apprendre cette compression, directement et à grande échelle ?

Yu Sun partage un exemple pour illustrer ce débat : les mathématiques. Prenez le dernier théorème de Fermat. Pendant plus de 350 ans, aucun mathématicien n'a pu le prouver, non pas parce qu'il manquait la bonne documentation, mais parce que la solution était hautement novatrice. La distance conceptuelle entre les connaissances mathématiques existantes et la réponse finale était trop grande.

Lorsqu'Andrew Wiles l'a finalement résolu dans les années 1990, il a travaillé pendant sept ans dans un isolement presque total, devant inventer de nouvelles techniques pour parvenir à la réponse. Sa preuve reposait sur la réussite à relier deux branches différentes des mathématiques : les courbes elliptiques et les formes modulaires. Bien que Ken Ribet ait précédemment prouvé que si cette connexion pouvait être établie, elle résoudrait automatiquement le dernier théorème de Fermat, avant Wiles, personne ne possédait les outils théoriques pour construire réellement ce pont. Une argumentation similaire peut être faite pour la preuve de Grigori Perelman de la conjecture de Poincaré.

La question centrale est : Ces exemples prouvent-ils que les LLM manquent de quelque chose, d'une certaine capacité à mettre à jour les préalables, à penser de véritablement créatif ? Ou cette histoire prouve-t-elle justement le contraire – que toute connaissance humaine n'est que des données disponibles pour l'entraînement et la重组, et que Wiles et Perelman ont simplement montré ce que les LLM pourraient faire à plus grande échelle ?

Cette question est empirique et la réponse n'est pas certaine. Mais nous savons qu'il existe de nombreuses catégories de problèmes pour lesquelles l'apprentissage en contexte échoue aujourd'hui et où l'apprentissage au niveau des paramètres pourrait être utile. Par exemple :

Légende : Catégories de problèmes où l'apprentissage en contexte échoue et où l'apprentissage paramétrique pourrait l'emporter

Plus important encore, l'apprentissage en contexte ne peut traiter que ce qui peut être exprimé par des mots, tandis que les poids peuvent encoder des concepts que les prompts ne peuvent pas transmettre avec des mots. Certains modèles ont des dimensions trop élevées, sont trop implicites, trop structurellement profonds pour tenir dans un contexte. Par exemple, la texture visuelle qui distingue un artefact bénin d'une tumeur dans une analyse médicale, ou les micro-fluctuations audio qui définissent le rythme unique d'un locuteur, ces modèles ne se décomposent pas facilement en mots précis.

Le langage ne peut que les approximer. Aucun prompt, aussi long soit-il, ne peut transmettre ces choses ; ce type de connaissances ne peut survivre que dans les poids. Elles vivent dans l'espace latent des représentations apprises, pas dans les mots. Quelle que soit la taille de la fenêtre contextuelle, il y aura toujours des connaissances que le texte ne peut pas décrire, qui ne peuvent être portées que par les paramètres.

Cela pourrait expliquer pourquoi les fonctions explicites de « mémoire du robot » (comme la fonction memory de ChatGPT) provoquent souvent chez les utilisateurs un malaise plutôt qu'une surprise. Ce que les utilisateurs veulent vraiment, ce n'est pas du « rappel », mais de la « capacité ». Un modèle qui a internalisé vos schémas comportementaux peut généraliser à de nouveaux scénarios ; un modèle qui se souvient simplement de votre historique ne le peut pas. La différence entre « Voici ce que vous avez écrit la dernière fois que vous avez répondu à cet email » (récitation mot à mot) et « J'ai suffisamment compris votre façon de penser pour anticiper ce dont vous avez besoin » est la différence entre la récupération et l'apprentissage.

Introduction à l'apprentissage continu

L'apprentissage continu emprunte plusieurs voies. La ligne de démarcation n'est pas « avec ou sans fonction de mémoire », mais : Où se produit la compression ? Ces voies se répartissent le long d'un spectre, allant d'aucune compression (récupération pure, poids gelés), à une compression interne complète (apprentissage au niveau des poids, le modèle devient plus intelligent), avec une zone intermédiaire importante (modules).

Légende : Les trois voies de l'apprentissage continu – Contexte, Modules, Poids

Contexte

Du côté contexte, les équipes construisent des pipelines de récupération plus intelligents, des coquilles d'agents et une orchestration de prompts. C'est la catégorie la plus mature : l'infrastructure est éprouvée, les chemins de déploiement sont clairs. La limitation est la profondeur : la longueur du contexte.

Une nouvelle direction notable : les architectures multi-agents comme stratégie de scaling du contexte lui-même. Si un modèle unique est limité à une fenêtre de 128K tokens, un groupe coordonné d'agents – chacun détenant son propre contexte, se concentrant sur une tranche du problème, communiquant les résultats entre eux – peut approximer une mémoire de travail globale infinie. Chaque agent fait de l'apprentissage en contexte dans sa propre fenêtre ; le système fait l'agrégation. Le projet récent autoresearch de Karpathy et l'exemple de Cursor construisant un navigateur web sont des cas précoces. C'est une approche purement non paramétrique (pas de modification des poids), mais elle relève considérablement le plafond de ce que les systèmes contextuels peuvent faire.

Modules

Dans l'espace des modules, les équipes construisent des modules de connaissances amovibles (cache KV compressé, couches adaptatrices, stockage de mémoire externe) qui permettent à un modèle généraliste de se spécialiser sans réentraînement. Un modèle de 8B avec le module approprié peut égaler les performances d'un modèle de 109B sur une tâche cible, avec une empreinte mémoire bien moindre. L'attrait réside dans sa compatibilité avec l'infrastructure Transformer existante.

Poids

Du côté de la mise à jour des poids, les chercheurs poursuivent un véritable apprentissage au niveau des paramètres : des couches de mémoire clairsemées qui ne mettent à jour que des segments de paramètres pertinents, des boucles d'apprentissage par renforcement qui optimisent le modèle à partir des retours, un entraînement au moment du test (test-time training) qui compresse le contexte dans les poids pendant l'inférence. Ce sont les méthodes les plus profondes, les plus difficiles à déployer, mais elles permettent véritablement au modèle d'internaliser complètement de nouvelles informations ou compétences.

Les mécanismes spécifiques de mise à jour des paramètres sont variés. Enumérons quelques directions de recherche :

Aperçu des directions de recherche sur l'apprentissage au niveau des poids

La recherche au niveau des poids couvre plusieurs voies parallèles. Les méthodes de régularisation et d'espace de poids sont les plus anciennes : EWC (Kirkpatrick et al., 2017) pénalise les changements de paramètres en fonction de leur importance pour les tâches précédentes ; l'interpolation de poids (Kozal et al., 2024) mélange les configurations de poids anciennes et nouvelles dans l'espace des paramètres, mais les deux sont relativement fragiles à grande échelle.

L'entraînement au moment du test (Test-Time Training), initié par Sun et al. (2020), a évolué vers des primitives architecturales (couches TTT, TTT-E2E, TTT-Discover), avec une approche radicalement différente : effectuer une descente de gradient sur les données de test, compressant les nouvelles informations dans les paramètres au moment même où elles sont nécessaires.

La méta-apprentissage pose la question : Pouvons-nous entraîner des modèles qui savent « comment apprendre » ? De l'initialisation de paramètres adaptée au few-shot de MAML (Finn et al., 2017) à l'apprentissage imbriqué (Nested Learning, 2025) de Behrouz et al., qui structure le modèle comme un problème d'optimisation hiérarchique avec des modules fonctionnant à différentes échelles de temps pour une adaptation rapide et des mises à jour lentes, s'inspirant de la consolidation de la mémoire biologique.

La distillation conserve les connaissances des tâches précédentes en faisant correspondre le modèle étudiant à des points de contrôle (checkpoints) gelés du modèle enseignant. LoRD (Liu et al., 2025) rend la distillation suffisamment efficace pour fonctionner en continu en réduisant simultanément le modèle et le tampon de rejeu (replay buffer). L'auto-distillation (SDFT, Shenfeld et al., 2026) inverse la source, utilisant les sorties du modèle lui-même dans des conditions d'expert comme signal d'entraînement, contournant l'oubli catastrophique du fine-tuning séquentiel.

L'auto-amélioration récursive fonctionne sur des idées similaires : STaR (Zelikman et al., 2022) bootstrap les capacités de raisonnement à partir de chaînes de raisonnement auto-générées ; AlphaEvolve (DeepMind, 2025) a découvert des optimisations algorithmiques non améliorées depuis des décennies ; « L'ère de l'expérience » de Silver et Sutton (2025) définit l'apprentissage de l'agent comme un flux continu et永不停止 d'expérience.

Ces directions de recherche convergent. TTT-Discover a déjà fusionné l'entraînement au moment du test et l'exploration pilotée par RL. HOPE imbrique des boucles d'apprentissage rapides et lentes dans une architecture unique. SDFT transforme la distillation en opération fondamentale d'auto-amélioration. Les frontières entre les colonnes deviennent floues. La prochaine génération de systèmes d'apprentissage continu combinera vraisemblablement plusieurs stratégies : utiliser la régularisation pour stabiliser, le méta-apprentissage pour accélérer, l'auto-amélioration pour les intérêts composés. Un nombre croissant de startups parient sur différentes couches de cette pile technologique.

Paysage des startups en apprentissage continu

L'extrémité non paramétrique du spectre est la plus connue. Les entreprises de coquilles (Letta, mem0, Subconscious) construisent des couches d'orchestration et d'échafaudage, gérant ce qui entre dans la fenêtre contextuelle. Le stockage externe et l'infrastructure RAG (comme Pinecone, xmemory) fournissent l'épine dorsale de la récupération. Les données existent, le défi est de mettre la bonne tranche devant le modèle au bon moment. À mesure que les fenêtres contextuelles s'étendent, l'espace de conception de ces entreprises s'agrandit également, en particulier côté coquille, où une nouvelle vague de startups émerge pour gérer des stratégies contextuelles de plus en plus complexes.

L'extrémité paramétrique est plus précoce et plus diversifiée. Ici, les entreprises expérimentent une certaine version de la « compression post-déploiement », permettant au modèle d'internaliser de nouvelles informations dans ses poids. Les chemins se divisent grossièrement en plusieurs paris sur la façon dont le modèle devrait apprendre après sa publication.

Compression partielle : Apprendre sans réentraînement. Certaines équipes construisent des modules de connaissances amovibles (cache KV compressé, couches adaptatrices, stockage de mémoire externe) permettant à un modèle généraliste de se spécialiser sans toucher aux poids principaux. L'argument commun est : vous obtenez une compression significative (pas seulement de la récupération), tout en gardant le compromis stabilité-plasticité gérable, car l'apprentissage est isolé et non dispersé dans tout l'espace des paramètres. Un modèle de 8B avec le bon module peut égaler les performances d'un modèle beaucoup plus grand sur une tâche cible. L'avantage est la composabilité : les modules peuvent être branchés et utilisés avec les architectures Transformer existantes, peuvent être échangés ou mis à jour indépendamment, à un coût expérimental bien inférieur à celui d'un réentraînement.

RL et boucles de feedback : Apprendre des signaux. D'autres équipes parient que le signal d'apprentissage le plus riche après le déploiement existe déjà dans la boucle de déploiement elle-même – les corrections des utilisateurs, la réussite ou l'échec des tâches, les signaux de récompense provenant des résultats du monde réel. L'idée centrale est que le modèle devrait considérer chaque interaction comme un signal d'entraînement potentiel, et pas seulement comme une requête d'inférence. C'est très similaire à la façon dont les humains progressent dans leur travail : travailler, obtenir des retours, internaliser ce qui fonctionne. Le défi technique est de transformer des retours épars, bruyants, parfois adversariaux, en mises à jour de poids stables, sans oubli catastrophique. Mais un modèle qui peut véritablement apprendre de son déploiement générera de la valeur à intérêts composés d'une manière impossible pour les systèmes contextuels.

Centré sur les données : Apprendre des bons signaux. Un pari connexe mais distinct est que le goulot d'étranglement n'est pas l'algorithme d'apprentissage, mais les données d'entraînement et les systèmes environnants. Ces équipes se concentrent sur le filtrage, la génération ou la synthèse des bonnes données pour piloter les mises à jour continues : l'hypothèse est qu'un modèle avec des signaux d'apprentissage de haute qualité et bien structurés n'a besoin que de beaucoup moins d'étapes de gradient pour s'améliorer significativement. Cela rejoint naturellement les entreprises axées sur les boucles de feedback, mais l'accent est mis sur le problème en amont : ce n'est pas la même chose de savoir si le modèle peut apprendre et de savoir de quoi il devrait apprendre et dans quelle mesure.

Nouvelles architectures : Concevoir la capacité d'apprentissage dès la base. Le pari le plus radical est que l'architecture Transformer elle-même est le goulot d'étranglement, et que l'apprentissage continu nécessite des primitives de calcul fondamentalement différentes : des architectures avec une dynamique en temps continu et des mécanismes de mémoire intégrés. L'argument ici est structurel : si vous voulez un système d'apprentissage continu, vous devez intégrer le mécanisme d'apprentissage dans l'infrastructure sous-jacente.

Légende : Paysage des startups en apprentissage continu

Tous les grands laboratoires principaux sont également actifs dans ces catégories. Certains explorent une meilleure gestion du contexte et le raisonnement par chaîne de pensées, d'autres expérimentent des modules de mémoire externes ou des pipelines de calcul pendant le « sommeil », et plusieurs entreprises furtives (stealth) poursuivent de nouvelles architectures. Ce domaine est suffisamment précoce pour qu'aucune méthode n'ait encore gagné, et étant donné la largeur des cas d'utilisation, il ne devrait pas y avoir qu'un seul gagnant.

Pourquoi les mises à jour de poids naïves échouent

La mise à jour des paramètres du modèle en environnement de production déclenche une cascade de modes d'échec qui ne sont actuellement pas résolus à grande échelle.

Légende : Modes d'échec des mises à jour de poids naïves

Les problèmes techniques sont bien documentés. L'oubli catastrophique signifie qu'un modèle suffisamment sensible aux nouvelles données pour apprendre détruira les représentations existantes – le dilemme stabilité-plasticité. La dissociation temporelle se produit lorsque des règles immuables et des états variables sont compressés dans le même ensemble de poids ; mettre à jour l'un endommage l'autre. L'intégration logique échoue car les mises à jour de faits ne se propagent pas à leurs推论 : les changements sont confinés au niveau de la séquence de tokens, pas au niveau du concept sémantique. Le désapprentissage (unlearning) reste impossible : il n'existe pas d'opération de souraction différentiable, donc il n'y a pas de moyen de procéder à une excision chirurgicale précise des connaissances fausses ou toxiques.

Il existe une deuxième catégorie de problèmes moins souvent évoquée. La séparation actuelle entre l'entraînement et le déploiement n'est pas seulement une commodité technique, c'est une frontière de sécurité, d'auditabilité et de gouvernance. Ouvrir cette frontière, et plusieurs choses tournent mal simultanément. L'alignement de sécurité (safety alignment) peut se dégrader de manière imprévisible : même un fine-tuning étroit sur des données bénignes peut produire des comportements de désalignement étendus.

Les mises à jour continues créent une surface d'attaque pour l'empoisonnement des données – une version lente et persistante de l'injection de prompt, mais qui vit dans les poids. L'auditabilité s'effondre, car un modèle mis à jour en continu est une cible mouvante, impossible à versionner, à tester de régression ou à certifier une fois pour toutes. Les risques pour la vie privée s'intensifient lorsque les interactions utilisateur sont compressées dans les paramètres, les informations sensibles étant cuites dans les représentations, plus difficiles à filtrer que les informations dans un contexte de récupération.

Ce sont des questions ouvertes, pas des impossibilités fondamentales. Les résoudre fait autant partie du programme de recherche sur l'apprentissage continu que de résoudre les défis architecturaux de base.

Des « fragments de mémoire » à la véritable mémoire

La tragédie de Leonard dans « Memento » n'est pas qu'il ne puisse pas fonctionner – dans n'importe quelle scène, il est plein de ressources, voire brillant. Sa tragédie est qu'il ne peut jamais capitaliser (faire des intérêts composés). Chaque expérience reste externe – une photo Polaroid, un tatouage, une note écrite de la main d'un autre. Il peut récupérer, mais il ne peut pas compresser de nouvelles connaissances.

Alors que Leonard navigue dans ce labyrinthe auto-construit, la frontière entre la réalité et la croyance commence à s'estomper. Sa condition ne le prive pas seulement de sa mémoire ; elle l'oblige à reconstruire constamment le sens, le rendant à la fois le détective et le narrateur peu fiable de sa propre histoire.

L'IA d'aujourd'hui fonctionne sous les mêmes contraintes. Nous avons construit des systèmes de récupération très puissants : des fenêtres contextuelles plus longues, des coquilles plus intelligentes, des essaims d'agents coordonnés, et ils fonctionnent. Mais la récupération n'est pas égale à l'apprentissage. Un système qui peut rechercher n'importe quel fait n'est pas forcé de trouver une structure. Il n'est pas forcé de généraliser. La compression avec pertes qui a rendu l'entraînement si puissant – le mécanisme qui transforme les données brutes en représentations transférables – est précisément ce que nous éteignons au moment du déploiement.

La voie à suivre n'est probablement pas une percée unique, mais un système stratifié. L'apprentissage en contexte restera la première ligne de défense de l'adaptation : il est natif, éprouvé et s'améliore constamment. Les mécanismes modulaires peuvent gérer le terrain intermédiaire de la personnalisation et de la spécialisation du domaine.

Mais pour ces problèmes vraiment difficiles – la découverte, l'adaptation adversarial, les connaissances implicites inexprimables par des mots – nous devrons peut-être permettre aux modèles de continuer à compresser l'expérience dans leurs paramètres après l'entraînement. Cela signifiera des progrès dans les architectures clairsemées, les objectifs de méta-apprentissage et les boucles d'auto-amélioration. Cela pourrait également nous obliger à redéfinir ce que signifie un « modèle » : non pas un ensemble fixe de poids, mais un système en évolution contenant sa mémoire, son algorithme de mise à jour et sa capacité à abstraire à partir de sa propre expérience.

L'armoire à classement devient de plus en plus grande. Mais une armoire à classement, aussi grande soit-elle, reste une armoire à classement. La percée consiste à permettre au modèle de faire après le déploiement ce qui l'a rendu puissant pendant l'entraînement : compresser, abstraire, apprendre. Nous sommes à un point d'inflexion, passant de modèles amnésiques à des modèles possédant une lueur d'expérience. Sinon, nous resterons piégés dans notre propre « Memento ».

Cryptos en tendance

CitreaCTR

wrapped stUSDTWSTUSDT

Questions liées

QQu'est-ce que l'apprentissage continu (continual learning) dans le contexte de l'IA, et pourquoi est-il considéré comme crucial ?

AL'apprentissage continu est un domaine de recherche qui vise à permettre aux modèles d'IA, en particulier les grands modèles de langage (LLM), de continuer à apprendre et à mettre à jour leurs paramètres après leur déploiement initial, plutôt que de rester figés après l'entraînement. Il est considéré comme crucial car il pourrait combler le fossé entre ce que le modèle 'sait' déjà et ce qu'il 'peut savoir', en permettant une véritable internalisation des nouvelles connaissances et expériences, au-delà de la simple récupération contextuelle.

QQuelle est la principale limitation de l'apprentissage en contexte (ICL) selon l'article ?

ALa principale limitation de l'apprentissage en contexte (ICL) est qu'il est temporaire et ne permet pas une compression réelle des nouvelles informations. Il fonctionne bien pour les problèmes où la réponse existe déjà quelque part et peut être récupérée, mais il échoue pour les découvertes véritablement nouvelles, les scénarios adversariaux ou les connaissances trop implicites pour être exprimées par le langage. Il ne force pas le modèle à généraliser ou à abstraire de la même manière que la compression des paramètres pendant l'entraînement.

QQuels sont les trois grands axes ou 'chemins' principaux pour l'apprentissage continu présentés dans l'article ?

AL'article présente trois grands axes pour l'apprentissage continu : 1. Contexte : Amélioration de la récupération, des coquilles d'agents intelligents et de l'orchestration des invites sans toucher aux poids du modèle. 2. Modules : Utilisation de modules de connaissances amovibles (comme des caches KV compressés, des couches adaptateurs) pour spécialiser un modèle général. 3. Poids (Paramètres) : Mise à jour réelle des paramètres du modèle via un apprentissage éparse, des boucles de rétroaction (RL) ou un entraînement au moment du test (test-time training) pour une internalisation complète.

QQuel est le 'Sophisme de l'armoire de classement' (Filing Cabinet Fallacy) évoqué dans l'article ?

ALe 'Sophisme de l'armoire de classement' est l'idée qu'un système avec une capacité de stockage et de récupération d'informations infinie (comme une immense armoire de classement parfaite) n'apprend pas réellement. Il n'est pas forcé de compresser les informations, de trouver des structures sous-jacentes ou de généraliser. La puissance des LLM vient justement de la compression avec perte lors de l'entraînement, un mécanisme que nous désactivons après le déploiement en le remplaçant par une mémoire externe.

QQuels sont certains des défis et des risques associés à la mise à jour naïve des poids des modèles en production ?

ALa mise à jour naïve des poids en production présente plusieurs défis et risques : l'oubli catastrophique (catastrophic forgetting), où l'apprentissage de nouvelles données efface les connaissances anciennes ; la dégradation imprévisible de l'alignement et de la sécurité ; la création d'une surface d'attaque pour l'empoisonnement des données ; l'effondrement de l'auditabilité et du contrôle de version ; et l'aggravation des risques pour la vie privée, car les informations sensibles peuvent être intégrées de manière permanente dans les paramètres.

Lectures associées

Les puces mémoire font un rebond violent : est-ce le retour du marché haussier ou un simple rebond technique ?

Le marché boursier américain a connu un rebond spectaculaire, notamment dans le secteur des puces mémoire : SK Hynix a grimpé de 17,52 %, SanDisk de 25,99 % et Micron de 18,36 %. Cette forte remontée est attribuable à plusieurs facteurs convergents : des mesures de sauvetage en Corée du Sud (évaluation d'une interdiction des ventes à découvert et réduction des limites de fluctuation), une désinflation aux États-Unis et des résultats trimestriels exceptionnels de Microsoft, qui ont rassuré sur la pérennité des investissements en IA. Parallèlement, le désendettement des ETF à effet de levier en Corée, dont l'encours a fondu de près de 70 %, semble entrer dans sa phase finale. Cependant, des risques persistent. La Banque du Japon pourrait relever ses taux sous l'effet d'une inflation persistante, menaçant les trades de portage (carry trades) et la stabilité des marchés. Pour déterminer si ce rebond marque un vrai renversement de tendance ou n'est qu'un « rebond du chat mort », il faudra surveiller la consolidation des gains, l'évolution des prix et des commandes de HBM/DRAM/NAND, ainsi que des événements clés comme les résultats de Nvidia. En conclusion, si un plancher politique est apparu et que le récit de la demande IA a été conforté, les incertitudes liées au cycle d'offre des semi-conducteurs et à la politique monétaire japonaise invitent à la prudence. Les investisseurs devraient éviter les décisions émotionnelles et privilégier une approche disciplinée avec une gestion rigoureuse du risque.

marsbitIl y a 3 mins

Les puces mémoire font un rebond violent : est-ce le retour du marché haussier ou un simple rebond technique ?

marsbitIl y a 3 mins

Le terroriste Dourov va-t-il bannir les fonctionnaires russes ?

Pavel Durov, fondateur de Telegram, a réagi publiquement après avoir été inscrit sur la liste russe des "terroristes et extrémistes". Il affirme que cette désignation fait suite à son refus de se plier aux exigences des autorités russes en matière de surveillance de masse et de censure dans l'application. Il a souligné l'ironie de l'interdiction qui lui est faite de "publier des informations sur Internet", lui dont la plateforme est l'un des plus grands messageries au monde. Sa remarque selon laquelle les responsables russes "ne semblent manifestement pas comprendre qui peut bannir qui sur Internet" a été largement reprise. Techniquement, l'administration de Telegram a le contrôle sur les chaînes présentes sur sa plateforme, y compris les comptes vérifiés des institutions et fonctionnaires russes qui continuent de l'utiliser malgré son blocage officiel dans le pays. Cela ouvre la possibilité que Durov impose des restrictions à ces canaux officiels. Cette situation survient alors que le gouvernement russe a ordonné aux fonctionnaires de migrer vers le messagerie national MAX d'ici 2030, une mesure que beaucoup contourneraient en utilisant toujours Telegram via des équipements séparés. Parallèlement, les alternatives pour les utilisateurs ordinaires se réduisent, avec des messageries comme BiP et KakaoTalk devenant récemment inaccessibles sans VPN. La situation rappelle un précédent en 2020, lorsque Roskomnadzor avait levé le blocage de Telegram, permettant aux canaux d'État de continuer à fonctionner. Désormais, la menace de restrictions pourrait venir de l'intérieur de la plateforme elle-même. La suite dépendra des actions potentielles de Durov et de la réaction des autorités russes.

cryptonews.ruIl y a 14 mins

Le terroriste Dourov va-t-il bannir les fonctionnaires russes ?

cryptonews.ruIl y a 14 mins

La société Strategy affiche une perte nette de 8,22 milliards de dollars au deuxième trimestre suite à la baisse du Bitcoin

La société Strategy, principal détenteur institutionnel de Bitcoin, a enregistré une perte nette de 8,22 milliards de dollars au deuxième trimestre, principalement due à une perte non réalisée de 8,32 milliards de dollars sur sa position en Bitcoin. Malgré cette perte comptable, l'entreprise a accru ses réserves de 25% depuis début 2024, détenant désormais 843 775 BTC. Strategy a également lancé un programme de monétisation, vendant pour 218,4 millions de dollars de Bitcoin, principalement en juillet, pour financer ses dividendes sur actions privilégiées. Parallèlement, elle a constitué une réserve de trésorerie de 3,75 milliards de dollars pour couvrir plus de deux ans d'obligations financières, se prémunissant ainsi contre la volatilité du marché. Les actions MSTR ont légèrement corrigé après la publication des résultats, reflétant la sensibilité de la société aux fluctuations du Bitcoin. L'analyse souligne que ces pertes trimestrielles importantes, similaires aux trimestres précédents, sont inhérentes à sa stratégie comptable. Le nouveau programme de vente régulier introduit une pression vendeuse sur le marché, transformant progressivement Strategy d'accumulateur net en vendeur périodique. La question centrale reste la soutenabilité de ce modèle si une baisse prolongée du Bitcoin épuisait la réserve de trésorerie au-delà de son horizon de deux ans.

cryptonews.ruIl y a 14 mins

La société Strategy affiche une perte nette de 8,22 milliards de dollars au deuxième trimestre suite à la baisse du Bitcoin

cryptonews.ruIl y a 14 mins

DeepSeek V4 version officielle est arrivée, les nouvelles capacités émergent, le combat pour le roi du rapport qualité-prix est lancé

DeepSeek a annoncé le lancement en version bêta publique de l'API DeepSeek-V4-Flash. Malgré une architecture nettement plus légère (284 milliards de paramètres totaux, 13 milliards activés contre 1600/49 pour la version Pro), cette nouvelle version démontre des performances en matière d'Agent (exécution autonome de tâches) qui rivalisent avec celles de la V4-Pro en version préliminaire d'il y a trois mois, selon des tests de référence. L'amélioration clé proviendrait principalement d'un "post-entraînement" avancé et d'optimisations au niveau du cadre d'exécution (Harness), suggérant que la qualité de l'entraînement et les méthodes l'emportent parfois sur la simple augmentation de la taille du modèle. Cette mise à jour stratégique positionne DeepSeek sur le marché en pleine croissance des Agents IA, en proposant une solution à haut rapport performances/coût. Le modèle prend également en charge le format d'API Responses d'OpenAI et est adapté pour des tâches de génération de code, marquant une volonté d'interopérabilité et de concurrence directe sur des terrains établis. Cette annonce intervient peu après un premier tour de table record de plus de 500 milliards de yuans pour DeepSeek, soulignant les attentes fortes quant à sa trajectoire technique et commerciale dans la course à l'IA, où la capacité Agent devient un critère déterminant.

marsbitIl y a 17 mins

DeepSeek V4 version officielle est arrivée, les nouvelles capacités émergent, le combat pour le roi du rapport qualité-prix est lancé

marsbitIl y a 17 mins

ChatGPT promulgue un décret d'interdiction soudain, les rédacteurs IA du monde entier privés du jour au lendemain

L'âge d'or de la rédaction par IA s'effondre. Alors que les modèles de langage deviennent techniquement plus puissants, leur capacité à produire des écrits percutants et mémorables régresse. Les récents modèles, optimisés pour des tâches comme le code grâce à des signaux de récompense clairs, s'appuient sur un capital linguistique prédéfini qui s'épuise, laissant la qualité expressive stagner voire décliner. Parallèlement, des restrictions récentes, comme le refus de ChatGPT d'imiter le style d'auteurs célèbres (Stephen King, J.K. Rowling, etc.) sur demande spécifique, limitent drastiquement son utilité créative. Ces évolutions bouleversent les attentes des utilisateurs et rendent les workflows dépendants de prompts spécifiques vulnérables. L'IA d'écriture retrouve ainsi son rôle essentiel d'outil d'assistance pour la recherche, la structure ou la révision, mais ne peut remplacer le jugement, l'expérience et l'intention humaine, qui redeviennent les véritables moteurs de valeur.

marsbitIl y a 18 mins

ChatGPT promulgue un décret d'interdiction soudain, les rédacteurs IA du monde entier privés du jour au lendemain

marsbitIl y a 18 mins

Trading

Spot

Articles tendance

Qu'est ce que $S$

Comprendre SPERO : Un aperçu complet Introduction à SPERO Alors que le paysage de l'innovation continue d'évoluer, l'émergence des technologies web3 et des projets de cryptomonnaie joue un rôle central dans la façon dont se dessine l'avenir numérique. Un projet qui a attiré l'attention dans ce domaine dynamique est SPERO, désigné comme SPERO,$$s$. Cet article vise à rassembler et à présenter des informations détaillées sur SPERO, afin d'aider les passionnés et les investisseurs à comprendre ses fondations, ses objectifs et ses innovations dans les domaines du web3 et de la crypto. Qu'est-ce que SPERO,$$s$ ? SPERO,$$s$ est un projet unique dans l'espace crypto qui cherche à tirer parti des principes de décentralisation et de la technologie blockchain pour créer un écosystème qui favorise l'engagement, l'utilité et l'inclusion financière. Le projet est conçu pour faciliter les interactions entre pairs de nouvelles manières, offrant aux utilisateurs des solutions et des services financiers innovants. Au cœur de SPERO,$$s$, l'objectif est d'autonomiser les individus en fournissant des outils et des plateformes qui améliorent l'expérience utilisateur dans l'espace des cryptomonnaies. Cela inclut la possibilité de méthodes de transaction plus flexibles, la promotion d'initiatives dirigées par la communauté et la création de voies pour des opportunités financières via des applications décentralisées (dApps). La vision sous-jacente de SPERO,$$s$ tourne autour de l'inclusivité, visant à combler les lacunes au sein de la finance traditionnelle tout en exploitant les avantages de la technologie blockchain. Qui est le créateur de SPERO,$$s$ ? L'identité du créateur de SPERO,$$s$ reste quelque peu obscure, car il existe peu de ressources publiques fournissant des informations détaillées sur son ou ses fondateurs. Ce manque de transparence peut découler de l'engagement du projet envers la décentralisation—une éthique que de nombreux projets web3 partagent, privilégiant les contributions collectives plutôt que la reconnaissance individuelle. En centrant les discussions autour de la communauté et de ses objectifs collectifs, SPERO,$$s$ incarne l'essence de l'autonomisation sans désigner des individus spécifiques. Ainsi, comprendre l'éthique et la mission de SPERO reste plus important que d'identifier un créateur unique. Qui sont les investisseurs de SPERO,$$s$ ? SPERO,$$s$ est soutenu par une diversité d'investisseurs allant des capital-risqueurs aux investisseurs providentiels dédiés à favoriser l'innovation dans le secteur crypto. L'objectif de ces investisseurs s'aligne généralement avec la mission de SPERO—priorisant les projets qui promettent des avancées technologiques sociétales, l'inclusivité financière et la gouvernance décentralisée. Ces fondations d'investisseurs s'intéressent généralement à des projets qui non seulement offrent des produits innovants, mais qui contribuent également positivement à la communauté blockchain et à ses écosystèmes. Le soutien de ces investisseurs renforce SPERO,$$s$ en tant que concurrent notable dans le domaine en rapide évolution des projets crypto. Comment fonctionne SPERO,$$s$ ? SPERO,$$s$ utilise un cadre multifacette qui le distingue des projets de cryptomonnaie conventionnels. Voici quelques-unes des caractéristiques clés qui soulignent son unicité et son innovation : Gouvernance décentralisée : SPERO,$$s$ intègre des modèles de gouvernance décentralisée, permettant aux utilisateurs de participer activement aux processus de décision concernant l'avenir du projet. Cette approche favorise un sentiment de propriété et de responsabilité parmi les membres de la communauté. Utilité du token : SPERO,$$s$ utilise son propre token de cryptomonnaie, conçu pour servir diverses fonctions au sein de l'écosystème. Ces tokens permettent des transactions, des récompenses et la facilitation des services offerts sur la plateforme, améliorant ainsi l'engagement et l'utilité globaux. Architecture en couches : L'architecture technique de SPERO,$$s$ supporte la modularité et l'évolutivité, permettant une intégration fluide de fonctionnalités et d'applications supplémentaires à mesure que le projet évolue. Cette adaptabilité est primordiale pour maintenir la pertinence dans le paysage crypto en constante évolution. Engagement communautaire : Le projet met l'accent sur des initiatives dirigées par la communauté, utilisant des mécanismes qui incitent à la collaboration et aux retours d'expérience. En cultivant une communauté forte, SPERO,$$s$ peut mieux répondre aux besoins des utilisateurs et s'adapter aux tendances du marché. Accent sur l'inclusion : En proposant des frais de transaction bas et des interfaces conviviales, SPERO,$$s$ vise à attirer une base d'utilisateurs diversifiée, y compris des individus qui n'ont peut-être pas engagé auparavant dans l'espace crypto. Cet engagement envers l'inclusion s'aligne avec sa mission globale d'autonomisation par l'accessibilité. Chronologie de SPERO,$$s$ Comprendre l'histoire d'un projet fournit des aperçus cruciaux sur sa trajectoire de développement et ses jalons. Voici une chronologie suggérée cartographiant les événements significatifs dans l'évolution de SPERO,$$s$ : Phase de conceptualisation et d'idéation : Les idées initiales formant la base de SPERO,$$s$ ont été conçues, s'alignant étroitement avec les principes de décentralisation et de concentration sur la communauté au sein de l'industrie blockchain. Lancement du livre blanc du projet : Suite à la phase conceptuelle, un livre blanc complet détaillant la vision, les objectifs et l'infrastructure technologique de SPERO,$$s$ a été publié pour susciter l'intérêt et les retours de la communauté. Construction de la communauté et engagements précoces : Des efforts de sensibilisation actifs ont été entrepris pour construire une communauté d'adopteurs précoces et d'investisseurs potentiels, facilitant les discussions autour des objectifs du projet et recueillant du soutien. Événement de génération de tokens : SPERO,$$s$ a organisé un événement de génération de tokens (TGE) pour distribuer ses tokens natifs aux premiers soutiens et établir une liquidité initiale au sein de l'écosystème. Lancement de la première dApp : La première application décentralisée (dApp) associée à SPERO,$$s$ a été mise en ligne, permettant aux utilisateurs d'interagir avec les fonctionnalités principales de la plateforme. Développement continu et partenariats : Des mises à jour et des améliorations continues des offres du projet, y compris des partenariats stratégiques avec d'autres acteurs de l'espace blockchain, ont façonné SPERO,$$s$ en un acteur compétitif et évolutif sur le marché crypto. Conclusion SPERO,$$s$ se dresse comme un témoignage du potentiel du web3 et de la cryptomonnaie pour révolutionner les systèmes financiers et autonomiser les individus. Avec un engagement envers la gouvernance décentralisée, l'engagement communautaire et des fonctionnalités conçues de manière innovante, il ouvre la voie vers un paysage financier plus inclusif. Comme pour tout investissement dans l'espace crypto en rapide évolution, les investisseurs et utilisateurs potentiels sont encouragés à mener des recherches approfondies et à s'engager de manière réfléchie avec les développements en cours au sein de SPERO,$$s$. Le projet illustre l'esprit d'innovation de l'industrie crypto, invitant à une exploration plus approfondie de ses nombreuses possibilités. Bien que le parcours de SPERO,$$s$ soit encore en cours, ses principes fondamentaux pourraient en effet influencer l'avenir de nos interactions avec la technologie, la finance et entre nous dans des écosystèmes numériques interconnectés.

194 vues totalesPublié le 2024.12.17Mis à jour le 2024.12.17

Qu'est ce que AGENT S

Agent S : L'avenir de l'interaction autonome dans Web3 Introduction Dans le paysage en constante évolution de Web3 et des cryptomonnaies, les innovations redéfinissent constamment la manière dont les individus interagissent avec les plateformes numériques. Un projet pionnier, Agent S, promet de révolutionner l'interaction homme-machine grâce à son cadre agentique ouvert. En ouvrant la voie à des interactions autonomes, Agent S vise à simplifier des tâches complexes, offrant des applications transformantes dans l'intelligence artificielle (IA). Cette exploration détaillée plongera dans les subtilités du projet, ses caractéristiques uniques et les implications pour le domaine des cryptomonnaies. Qu'est-ce qu'Agent S ? Agent S se présente comme un cadre agentique ouvert révolutionnaire, spécifiquement conçu pour relever trois défis fondamentaux dans l'automatisation des tâches informatiques : Acquisition de connaissances spécifiques au domaine : Le cadre apprend intelligemment à partir de diverses sources de connaissances externes et d'expériences internes. Cette approche double lui permet de construire un riche répertoire de connaissances spécifiques au domaine, améliorant ainsi sa performance dans l'exécution des tâches. Planification sur de longs horizons de tâches : Agent S utilise une planification hiérarchique augmentée par l'expérience, une approche stratégique qui facilite la décomposition et l'exécution efficaces de tâches complexes. Cette fonctionnalité améliore considérablement sa capacité à gérer plusieurs sous-tâches de manière efficace et efficiente. Gestion d'interfaces dynamiques et non uniformes : Le projet introduit l'Interface Agent-Ordinateur (ACI), une solution innovante qui améliore l'interaction entre les agents et les utilisateurs. En utilisant des Modèles de Langage Multimodaux de Grande Taille (MLLMs), Agent S peut naviguer et manipuler sans effort diverses interfaces graphiques. Grâce à ces fonctionnalités pionnières, Agent S fournit un cadre robuste qui aborde les complexités impliquées dans l'automatisation de l'interaction humaine avec les machines, préparant le terrain pour d'innombrables applications en IA et au-delà. Qui est le créateur d'Agent S ? Bien que le concept d'Agent S soit fondamentalement innovant, des informations spécifiques sur son créateur restent insaisissables. Le créateur est actuellement inconnu, ce qui souligne soit le stade naissant du projet, soit le choix stratégique de garder les membres fondateurs sous le radar. Quoi qu'il en soit, l'accent reste mis sur les capacités et le potentiel du cadre. Qui sont les investisseurs d'Agent S ? Étant donné qu'Agent S est relativement nouveau dans l'écosystème cryptographique, des informations détaillées concernant ses investisseurs et soutiens financiers ne sont pas explicitement documentées. Le manque d'aperçus publiquement disponibles sur les fondations d'investissement ou les organisations soutenant le projet soulève des questions sur sa structure de financement et sa feuille de route de développement. Comprendre le soutien est crucial pour évaluer la durabilité du projet et son impact potentiel sur le marché. Comment fonctionne Agent S ? Au cœur d'Agent S se trouve une technologie de pointe qui lui permet de fonctionner efficacement dans divers environnements. Son modèle opérationnel est construit autour de plusieurs caractéristiques clés : Interaction homme-ordinateur semblable à l'humain : Le cadre offre une planification IA avancée, s'efforçant de rendre les interactions avec les ordinateurs plus intuitives. En imitant le comportement humain dans l'exécution des tâches, il promet d'élever l'expérience utilisateur. Mémoire narrative : Utilisée pour tirer parti des expériences de haut niveau, Agent S utilise la mémoire narrative pour suivre les historiques de tâches, améliorant ainsi ses processus de prise de décision. Mémoire épisodique : Cette fonctionnalité fournit aux utilisateurs un accompagnement étape par étape, permettant au cadre d'offrir un soutien contextuel au fur et à mesure que les tâches se déroulent. Support pour OpenACI : Avec la capacité de fonctionner localement, Agent S permet aux utilisateurs de garder le contrôle sur leurs interactions et flux de travail, s'alignant avec l'éthique décentralisée de Web3. Intégration facile avec des API externes : Sa polyvalence et sa compatibilité avec diverses plateformes IA garantissent qu'Agent S peut s'intégrer sans effort dans des écosystèmes technologiques existants, en faisant un choix attrayant pour les développeurs et les organisations. Ces fonctionnalités contribuent collectivement à la position unique d'Agent S dans l'espace crypto, alors qu'il automatise des tâches complexes en plusieurs étapes avec un minimum d'intervention humaine. À mesure que le projet évolue, ses applications potentielles dans Web3 pourraient redéfinir la manière dont les interactions numériques se déroulent. Chronologie d'Agent S Le développement et les jalons d'Agent S peuvent être encapsulés dans une chronologie qui met en évidence ses événements significatifs : 27 septembre 2024 : Le concept d'Agent S a été lancé dans un document de recherche complet intitulé “Un cadre agentique ouvert qui utilise les ordinateurs comme un humain”, présentant les bases du projet. 10 octobre 2024 : Le document de recherche a été rendu publiquement disponible sur arXiv, offrant une exploration approfondie du cadre et de son évaluation de performance basée sur le benchmark OSWorld. 12 octobre 2024 : Une présentation vidéo a été publiée, fournissant un aperçu visuel des capacités et des caractéristiques d'Agent S, engageant davantage les utilisateurs et investisseurs potentiels. Ces jalons dans la chronologie illustrent non seulement les progrès d'Agent S, mais indiquent également son engagement envers la transparence et l'engagement communautaire. Points clés sur Agent S Alors que le cadre Agent S continue d'évoluer, plusieurs attributs clés se distinguent, soulignant sa nature innovante et son potentiel : Cadre innovant : Conçu pour offrir une utilisation intuitive des ordinateurs semblable à l'interaction humaine, Agent S propose une approche nouvelle de l'automatisation des tâches. Interaction autonome : La capacité d'interagir de manière autonome avec les ordinateurs via une interface graphique signifie un bond vers des solutions informatiques plus intelligentes et efficaces. Automatisation des tâches complexes : Avec sa méthodologie robuste, il peut automatiser des tâches complexes en plusieurs étapes, rendant les processus plus rapides et moins sujets aux erreurs. Amélioration continue : Les mécanismes d'apprentissage permettent à Agent S de s'améliorer grâce à ses expériences passées, améliorant continuellement sa performance et son efficacité. Polyvalence : Son adaptabilité à travers différents environnements d'exploitation comme OSWorld et WindowsAgentArena garantit qu'il peut servir un large éventail d'applications. Alors qu'Agent S se positionne dans le paysage Web3 et crypto, son potentiel à améliorer les capacités d'interaction et à automatiser les processus représente une avancée significative dans les technologies IA. Grâce à son cadre innovant, Agent S incarne l'avenir des interactions numériques, promettant une expérience plus fluide et efficace pour les utilisateurs à travers divers secteurs. Conclusion Agent S représente un saut audacieux en avant dans le mariage de l'IA et de Web3, avec la capacité de redéfinir notre interaction avec la technologie. Bien qu'il soit encore à ses débuts, les possibilités de son application sont vastes et convaincantes. Grâce à son cadre complet abordant des défis critiques, Agent S vise à mettre les interactions autonomes au premier plan de l'expérience numérique. À mesure que nous plongeons plus profondément dans les domaines des cryptomonnaies et de la décentralisation, des projets comme Agent S joueront sans aucun doute un rôle crucial dans la façon dont la technologie et la collaboration homme-machine évolueront à l'avenir.

943 vues totalesPublié le 2025.01.14Mis à jour le 2025.01.14

Comment acheter S

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Sonic (S) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Sonic (S).Solde ：utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers ：pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P ：tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Sonic (S)Après avoir acheté vos Sonic (S), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Sonic (S)Tradez facilement Sonic (S) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

2.0k vues totalesPublié le 2025.01.15Mis à jour le 2026.06.02

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de S (S) sont présentées ci-dessous.

a16z : Le syndrome de l'« amnésie » de l'IA, l'apprentissage continu peut-il le guérir ?

Résumé

Parlons d'abord de contexte

Modèles d'espace d'état : la version stéroïdée du contexte

Ce que le contexte omet : « L'erreur de l'armoire à classement »

Introduction à l'apprentissage continu

Contexte

Modules

Poids

Paysage des startups en apprentissage continu

Pourquoi les mises à jour de poids naïves échouent

Des « fragments de mémoire » à la véritable mémoire

Cryptos en tendance

Questions liées

Lectures associées

Les puces mémoire font un rebond violent : est-ce le retour du marché haussier ou un simple rebond technique ?

Le terroriste Dourov va-t-il bannir les fonctionnaires russes ?

La société Strategy affiche une perte nette de 8,22 milliards de dollars au deuxième trimestre suite à la baisse du Bitcoin

DeepSeek V4 version officielle est arrivée, les nouvelles capacités émergent, le combat pour le roi du rapport qualité-prix est lancé

ChatGPT promulgue un décret d'interdiction soudain, les rédacteurs IA du monde entier privés du jour au lendemain

Trading

Articles tendance

Qu'est ce que $S$

Qu'est ce que AGENT S

Comment acheter S

Discussions

Catégories populaires

Tags tendances