L'ingénieur en post-entraînement d'OpenAI, Weng Jiayi, propose une nouvelle hypothèse paradigmatique pour l'IA agentique

marsbitPublié le 2026-05-11Dernière mise à jour le 2026-05-11

Résumé

L’ingénieur post-entraînement d’OpenAI, Weng Jiayi, explore une nouvelle approche pour l’IA agentique appelée « Heuristic Learning » (HL). Contrairement aux méthodes d’apprentissage par renforcement profond qui améliorent les modèles via l’ajustement des paramètres du réseau neuronal, le HL utilise un agent de codage (comme Codex) pour écrire, exécuter, déboguer et modifier itérativement des stratégies sous forme de code logiciel explicite (règles, contrôleurs, etc.). Dans des expériences sur Atari Breakout, l’agent a développé une stratégie purement Python atteignant le score théorique maximal de 864 points. Testé sur 57 jeux Atari, le HL a montré une efficacité d’échantillonnage initiale élevée, rivalisant avec des algorithmes comme le PPO dans certains jeux, mais révélant des limites dans des tâches complexes nécessitant une planification à long terme (ex: Montezuma’s Revenge). Les avantages potentiels du HL incluent une meilleure interprétabilité, une auditabilité pour les systèmes critiques (robotique, autonome), et une intégration aux flux d’ingénierie logicielle existants pour l’apprentissage continu. Weng Jiayi envisage une synergie future où les réseaux neuronaux gèrent la perception et l’estimation d’état, le HL gère les règles, la sécurité et la mémoire, et un agent LLM supervise les retours et les améliorations. Cette approche suggère qu’avec des agents de codage suffisamment puissants, l’expérience pourrait être encapsulée dans du code maintenable plutôt que da...

Au cours de la dernière décennie, le renforcement de l'IA a principalement reposé sur une seule voie : injecter davantage de données et de puissance de calcul dans des modèles plus grands, en faisant reposer l'expérience dans les paramètres du réseau de neurones. Cette voie a permis le bond en avant des grands modèles après ChatGPT, mais a également laissé un problème : les modèles deviennent de plus en plus puissants, mais la raison de leurs succès ou de leurs échecs reste souvent difficile à expliquer et à corriger.

Les expériences récentes menées par l'ingénieur d'OpenAI, Weng Jiayi, suggèrent une autre possibilité : dans un cadre avec un objectif clair, un environnement exécutable et une boucle de rétroaction, l'IA peut non seulement s'améliorer via l'entraînement des modèles, mais aussi en « modifiant son code de manière autonome ».

Le 8 mai 2026, Weng Jiayi a systématiquement décrit ces expériences dans son blog personnel « Learning Beyond Gradients » et a simultanément rendu publics le dépôt de code, les journaux d'expérience CSV et les enregistrements vidéo. Il se concentre depuis longtemps sur l'apprentissage par renforcement et les infrastructures de post-entraînement, a participé au lancement initial de ChatGPT, et a contribué à des projets tels que GPT-4, GPT-4 Turbo, GPT-4o, la série o et GPT-5 ; avant de rejoindre OpenAI, il a obtenu son diplôme de premier cycle en informatique de l'Université de Tsinghua, a poursuivi ses études de maîtrise à l'Université Carnegie Mellon et est le principal auteur de la bibliothèque d'apprentissage par renforcement open source Tianshou et du moteur d'environnement parallèle haute performance EnvPool.

Image générée par IA

Il a demandé à Codex d'écrire de manière répétée du code de stratégie, d'exécuter des environnements, de lire les journaux, de visionner les enregistrements, de localiser les échecs, puis de modifier le code, d'ajouter des tests, et de poursuivre l'évaluation. Après plusieurs itérations, Codex a « développé » une stratégie procédurale purement Python : il a atteint le score théorique maximal de 864 points dans Atari Breakout, et a également obtenu des performances proches de celles des algorithmes courants d'apprentissage par renforcement profond dans les environnements de simulation de contrôle de robots comme MuJoCo Ant et HalfCheetah.

Ce qui est vraiment important dans ces expériences, c'est une question centrale : lorsque l'agent de codage est suffisamment puissant, l'apprentissage doit-il nécessairement se produire dans les poids du réseau neuronal ?

Dans ce cadre expérimental, l'expérience est écrite dans le code, les tests, les journaux et les enregistrements, devenant un système logiciel qui peut être lu, modifié, revu et audité. Si cette direction continue de se confirmer, la prochaine étape pour l'IA agentique pourrait ne pas être seulement d'entraîner des modèles plus grands, mais aussi de faire participer les modèles à la maintenance d'un système d'ingénierie en évolution continue.

01

De 387 points au score parfait : la boucle d'ingénierie

Dans son blog, Weng Jiayi écrit que le point de départ de cette expérience était en réalité un besoin d'ingénierie. En tant que mainteneur bénévole d'EnvPool, il avait besoin d'une manière moins coûteuse que de « lancer un réseau neuronal à chaque fois » pour tester le bon fonctionnement des environnements de jeu, car intégrer un réseau neuronal dans l'intégration continue était trop cher. La question initiale était : pouvait-on écrire des règles heuristiques bon marché, reproductibles, clairement supérieures à une stratégie aléatoire, pour amener l'environnement à un état riche en informations ?

Il a utilisé Codex (modèle de base gpt-5.4) pour essayer d'écrire une version entièrement basée sur des règles. Le prompt initial était très direct : « Écris une stratégie pour résoudre Breakout. » Le résultat n'était pas idéal. Le score bas en lui-même ne fournissait aucune information : la sémantique des actions pouvait être incorrecte, la détection d'état pouvait être fausse, le processus d'évaluation pouvait être erroné, ou la structure de la stratégie elle-même pouvait être trop faible.

Ensuite, Weng Jiayi a changé la forme de la tâche. Il n'a plus demandé à Codex de fournir directement un fichier policy.py, mais lui a demandé de maintenir un ensemble complet de boucles : explorer les actions et observations, écrire des détecteurs d'état, écrire des stratégies, exécuter des épisodes complets, enregistrer trials.jsonl et summary.csv, générer des vidéos ou des courbes, examiner les modes d'échec, modifier les stratégies, simplifier le code, exécuter des régressions.

Les enregistrements de l'expérience Breakout documentent ce processus de manière très claire. Dans le premier tour, Codex a d'abord confirmé l'espace d'action et la forme de l'observation, identifié les couleurs de la balle, de la raquette et des briques à partir des trames RGB, puis utilisé des étiquettes d'image pour scanner les 128 octets de RAM de l'Atari. Le score de base initial n'était que de 99 points. Après avoir ajouté une logique de décalage du tunnel, le score est monté à 387 points.

387 points est un score local élevé qui peut prêter à confusion. La stratégie pouvait déjà rattraper la balle de manière stable, mais la trajectoire de la balle était piégée dans une boucle périodique : pas de perte de vie, mais plus de briques cassées, le score était bloqué. Si un humain écrivait le code, il pourrait continuer à ajuster la « précision de rattrapage ». En regardant la vidéo et les dernières dizaines de trajectoires, Codex a localisé le problème dans le manque de perturbation de la trajectoire de la balle.

Figure : Capture d'écran du jeu Atari Breakout. Le joueur contrôle la raquette en bas pour faire rebondir la balle et briser les rangées de briques colorées en haut. Codex a atteint le score théorique maximal de 864 points dans ce jeu.

Codex a ensuite ajouté un mécanisme de « rupture de la boucle » : si aucune récompense n'était obtenue pendant longtemps, il ajoutait périodiquement un décalage à la prédiction du point d'impact pour sortir la balle de la boucle locale. Le score est passé de 387 à 507. En poursuivant les itérations, un nouveau problème est apparu : pour les balles basses rapides, l'interception normale faisait « trop devancer » la raquette, qui dérivait. Codex a ajouté le paramètre `fast_low_ball_lead_steps=3`, et le score est passé de 507 à 839. La dernière amélioration, de 839 à 864, ressemblait davantage à la maintenance d'un système devenu complexe : essais de deadband, décalage de service, décalage de blocage, biais d'équilibrage des briques, pas de prévision ; de nombreuses directions n'ont pas été efficaces, et la modification utile finale a été une condition tardive : « Après avoir brisé le premier mur de briques, n'activer le décalage de blocage que lorsque la balle est relativement éloignée de la raquette, et le relâcher progressivement à mesure qu'elle s'en approche. »

La configuration par défaut RAM a finalement produit de manière stable les scores 864 / 864 / 864 sur trois épisodes, atteignant la limite théorique de Breakout. Codex a ensuite migré le même contrôleur géométrique vers une version à entrée purement visuelle – sans lire la RAM, en s'appuyant uniquement sur la segmentation RGB pour identifier la raquette, la balle et l'équilibre des briques. La version visuelle a obtenu 310 points à la première tentative, puis 428 points, et a atteint 864 points après le septième épisode local, correspondant à 14504 pas d'environnement de stratégie locale.

Figure : Courbe d'efficacité des échantillons de Codex sur Breakout. La ligne bleue est la version lisant directement la mémoire du jeu (RAM), la ligne rouge est la version ne regardant que l'écran (Vision). La version RAM a connu plusieurs sauts : 99 → 387 → 507 → 839 → 864, atteignant finalement le score parfait pour la première fois au 81e épisode, après un cumul de 1,5 million de pas d'environnement ; la version Vision, bénéficiant de la structure mature migrée depuis la version RAM, a atteint 864 points en seulement 7 épisodes et environ 14 500 pas d'environnement.

Weng Jiayi souligne spécifiquement que cela ne doit pas être interprété comme « l'entrée visuelle partant de zéro et n'utilisant que 14,5 K pas pour atteindre le score parfait ». Le processus réel est que Codex a d'abord découvert le contrôleur géométrique, la rupture de boucle et le relâchement du décalage tardif dans la version RAM, et ce n'est qu'après la stabilisation de la structure qu'il a basculé la couche de lecture d'état de la RAM vers le RGB. Les 14,5 K représentent le budget de migration de la version visuelle.

02

La définition de l'Apprentissage Heuristique

Trouver un nom pour cette « stratégie logicielle » en constante évolution a été plus difficile que d'écrire la première version de la stratégie. Weng Jiayi a finalement nommé ce processus « Heuristic Learning (HL, Apprentissage Heuristique) », et a nommé l'objet ainsi maintenu « Heuristic System (HS, Système Heuristique) ».

Selon sa définition dans le blog, le HL est constitué de code de programme et, comme l'apprentissage par renforcement profond courant aujourd'hui, il dispose d'une boucle d'état, d'action, de rétroaction et de mise à jour. La différence est que l'objet mis à jour est la structure logicielle, et non les paramètres du réseau neuronal ; sa rétroaction est digérée par l'agent de codage et peut provenir de récompenses environnementales, de cas de test, de journaux, de vidéos, d'enregistrements ou de retours humains ; sa mise à jour n'utilise pas la rétropropagation, mais l'agent de codage modifie directement la stratégie, les détecteurs d'état, les tests, la configuration ou la mémoire.

Il convient de préciser que le concept « d'utiliser un programme plutôt qu'un réseau neuronal comme stratégie » n'est pas une idée originale de Weng Jiayi. Le monde académique discute depuis des années de l'Apprentissage par Renforcement Programmatique (Programmatic RL) : le cadre PROPEL proposé en 2019 par l'Université Rice et Caltech étudiait les méthodes d'apprentissage par renforcement représentant les stratégies sous forme de courts programmes dans un langage symbolique ; le travail LEAPS en 2021 a approfondi l'apprentissage de l'espace d'incorporation des programmes, combinant des stratégies programmatiques différentiables avec l'entraînement RL ; HPRL à l'ICML 2023 a proposé l'apprentissage par renforcement programmatique hiérarchique, permettant à une méta-stratégie de combiner plusieurs programmes ; le cadre LLM-GS de l'Université nationale de Taïwan et Microsoft en 2024 a utilisé les capacités de programmation et de raisonnement de sens commun des LLM pour guider la recherche de stratégies RL programmatiques.

Le consensus de ces recherches est que, par rapport aux stratégies neuronales, les stratégies programmatiques offrent une meilleure interprétabilité, une meilleure vérifiabilité formelle et une meilleure capacité de généralisation à des scénarios non vus.

La contribution substantielle de Weng Jiayi cette fois-ci réside dans la considération de l'agent de codage comme un canal d'ingénierie pour maintenir le système heuristique. Auparavant, pour faire du RL programmatique, il fallait soit s'appuyer sur des langages dédiés au domaine conçus manuellement, soit sur des algorithmes de recherche dans un espace de programmes restreint ; Weng Jiayi, quant à lui, utilise Codex pour intégrer le code, les journaux, les tests, les enregistrements vidéo, les ajustements de paramètres dans un même flux de travail de l'agent, réduisant ainsi d'un coup le coût d'itération des stratégies programmatiques. En d'autres termes, il argumente en faveur d'une nouvelle voie d'ingénierie : lorsque l'agent de codage est suffisamment puissant, les stratégies heuristiques autrefois jugées « trop coûteuses à maintenir » pourraient redevenir rentables.

Dans son blog, Weng Jiayi fournit un tableau comparatif, clarifiant les différences entre HL et Deep RL : sur la forme de la stratégie, le premier correspond à des règles, machines à états, contrôleurs, contrôle prédictif de modèle (MPC), macros-actions composant du code, le second à des paramètres de réseau neuronal ; sur la forme de l'état, le premier utilise des variables explicites, des détecteurs et des caches, le second des vecteurs d'observation lisibles par le réseau ; sur la forme de la rétroaction, le premier considère les tests, journaux, enregistrements comme des signaux efficaces, le second s'appuie principalement sur une fonction de récompense fixe ; sur la forme de la mémoire, le premier peut stocker explicitement des essais, des résumés, des causes d'échec et des diff de version, le second dans les algorithmes on-policy n'en a pratiquement pas, et dans les algorithmes off-policy s'appuie sur un tampon de rejeu.

Cette comparaison démontre que le HL possède certaines propriétés significatives d'un point de vue ingénierie : la stratégie est interprétable et peut être traduite en langage naturel ; l'efficacité des échantillons se mesure en unités de « modification de code efficace », et non en mises à jour de gradient lentes ; les anciennes capacités peuvent devenir des tests de régression, des enregistrements à graine fixe ou des cas de référence ; le surajustement aux graines d'entraînement ou aux vulnérabilités des tests peut être contraint par la simplification, les vérifications de régression et l'évaluation multi-graines ; les anciennes capacités n'existent pas uniquement dans les poids, mais peuvent aussi exister dans des ensembles de règles et des tests, ce qui répond en partie au problème de l'oubli catastrophique, longtemps mal résolu par les réseaux neuronaux.

03

Validation par lots sur Atari57 : limites et faiblesses

Si l'on ne regarde que Breakout, l'histoire peut facilement être réduite à « l'IA a écrit une stratégie parfaite ». Mais Weng Jiayi ne s'est pas arrêté à Breakout ; il a étendu ce flux de travail Codex par lots à Atari57, exécutant 57 jeux, deux modes d'observation, trois répétitions, pour un total de 342 trajectoires de recherche « sans surveillance ».

La conception de l'expérience était assez rigoureuse. Chaque jeu a été testé avec deux modes d'entrée : un lisant directement la mémoire du jeu, et l'autre ne regardant que l'écran, chaque mode étant répété indépendamment trois fois. Cela a généré un total de 342 trajectoires expérimentales « sans surveillance » : chaque agent Codex recevait le même modèle d'invite, explorait lui-même les actions, écrivait son propre code, exécutait ses propres expériences, enregistrait ses propres résultats, sans intervention humaine. Les contraintes étaient strictement définies : interdiction d'entraîner un réseau neuronal, de lire le code source du jeu, d'utiliser toute information cachée, tous les pas utilisés pour le débogage et les essais-erreurs devaient être comptabilisés dans le coût total. Ceci afin d'éviter que Codex ne triche en « regardant la réponse ».

Pour mesurer les résultats, on utilise généralement une métrique appelée HNS (Human-Normalized Score, score normalisé par rapport à l'humain) – en simplifiant, il s'agit de normaliser le score de chaque jeu par rapport au « niveau moyen d'un joueur humain = 1 », facilitant ainsi la comparaison horizontale entre différents jeux.

Figure : Comparaison de l'efficacité des échantillons sur l'ensemble complet d'Atari57. L'axe horizontal représente le nombre de pas d'environnement (échelle logarithmique), l'axe vertical le HNS (score normalisé par rapport à l'humain, 1,0 indiquant le niveau moyen d'un joueur humain). La version Codex avec entrée visuelle (ligne rouge) dépasse nettement la ligne de base PPO (lignes pointillées bleues/grises) en efficacité précoce, atteignant 0,81 à 9,7 millions de pas, proche du niveau de PPO autour de 10 millions de pas ; la version Codex avec entrée mémoire (ligne violette) converge vers 0,59.

Selon ce critère, Codex s'est montré assez brillant en termes d'efficacité précoce. En ne consommant que 1 million de pas d'environnement, le HNS médian de Codex avec entrée visuelle avait déjà atteint 0,32, et avec entrée mémoire 0,26, nettement supérieur aux niveaux d'algorithmes classiques d'apprentissage par renforcement comme PPO à la même période. À 9,7 millions de pas, la version visuelle de Codex a atteint 0,81, se rapprochant du niveau d'environ 0,88 à 0,92 de PPO à 10 millions de pas. Si l'on permet d'agréger pour chaque jeu le meilleur des deux modes d'entrée de Codex, le HNS médian de Codex est de 0,83, celui d'OpenAI Baselines PPO2 de 0,80, et celui de CleanRL EnvPool PPO de 0,98 – un match pratiquement nul.

Mais Weng Jiayi lui-même trace une limite avec calme : il s'agit uniquement d'une comparaison d'efficacité d'interaction avec l'environnement, sans prendre en compte le coût de lecture des journaux, d'écriture du code, de visionnage des vidéos par Codex. « Rapide » n'égale pas « coût total faible », ce dernier restant actuellement une boîte noire.

Plus intéressant encore, les performances de Codex sur les 57 jeux ne sont pas uniformes. Dans les jeux à structure géométrique claire comme Breakout, Boxing, Krull, les stratégies heuristiques et l'apprentissage par renforcement profond dépassent nettement le niveau humain ; dans des jeux avec des règles claires comme Asterix, Jamesbond, Tennis, les stratégies heuristiques sont même plus fortes ; mais dans des jeux au rythme rapide et aux schémas complexes comme Atlantis, VideoPinball, RoadRunner, StarGunner, PPO domine toujours.

Le contre-exemple le plus instructif est Montezuma’s Revenge. C'est un « os dur » célèbre dans le domaine de l'apprentissage par renforcement : le personnage principal doit chercher des clés, éviter des ennemis, ouvrir des portes dans un dédale de catacombes complexes, le signal de récompense est extrêmement rare, c'est un problème classique de « planification à long terme + récupération après échec ». Codex a bien obtenu 400 points sur ce jeu, mais en ouvrant le fichier de stratégie généré, on découvre qu'il ne s'agit pas d'une véritable « stratégie », mais d'une séquence codée en dur de 86 actions, correspondant à 1769 pas d'environnement : cela ressemble davantage à la mémorisation d'un chemin fixe qu'à l'apprentissage de la navigation dans un labyrinthe. Weng Jiayi souligne spécifiquement : « C'est un cas limite, qui ne doit pas être interprété comme une stratégie Montezuma générique. »

Montezuma expose les limites d'expressivité de l'Apprentissage Heuristique. Une stratégie programmatique ordinaire est essentiellement une logique réactive « faire telle action en voyant tel état », difficilement capable de traiter des tâches nécessitant une séquence d'actions stricte, une reprise de plan à partir d'un état intermédiaire, une planification à long terme. Ce type de tâche nécessite non seulement davantage de if-else, mais une structure programmatique plus proche de « combinaison de macros-actions + état de recherche récupérable + mémoire à long terme ». Cela nous dit une chose : même si l'agent de codage est très puissant, certains problèmes ne peuvent pas être contenus dans du code ordinaire.

04

Une fois le paradigme établi, quelle est sa signification industrielle ?

Revenons à l'industrie. Si la voie de l'Apprentissage Heuristique se confirme vraiment, c'est-à-dire « l'agent de codage peut maintenir de manière stable des stratégies programmatiques dépassant les règles manuelles et approchant les lignes de base RL », quelle est sa signification pratique ?

Le premier point d'application est le contrôle des robots, en particulier dans des scénarios à structure relativement stable. L'idée proposée par Weng Jiayi dans son blog est une division hiérarchique : HL au niveau articulaire, HL au niveau des membres, HL pour l'équilibre corporel, HL au niveau de la tâche. Les couches basses gèrent la sécurité et le contrôle à faible latence, les couches intermédiaires la démarche et le contact, les couches hautes la tâche et la mémoire à long terme ; l'agent de codage n'a pas besoin de « comprendre la marche », il ressemble davantage à un canal de mise à jour inséré dans le système, renvoyant les vidéos d'échec, les flux de capteurs, les résultats de simulation, et réécrivant les retours sous forme de code, paramètres, règles de protection et mémoire.

Les scénarios comme les AGV d'entrepôt, les robots d'inspection, les bras robotiques industriels, le tri standardisé, où la structure environnementale est relativement fixe et les limites de sécurité claires – si la stratégie de contrôle centrale peut être solidifiée en code léger, chaque action du robot n'a pas besoin de faire tourner un grand réseau de stratégie, la dépendance du déploiement aux cartes de calcul GPU haute consommation pour l'inférence diminue, et davantage de charge peut être confiée aux contrôleurs traditionnels et à la logique programmatique locale.

Cela ne signifie pas que les robots n'ont pas besoin de GPU ; la perception, la localisation, la cartographie, la compréhension sémantique reposent toujours sur des réseaux neuronaux ; le changement concerne le rôle du GPU, passant de « brûler des calculs pour la prise de décision actionnelle de bout en bout à chaque seconde » à « jouer un rôle périodique dans la perception, la simulation hors ligne, la génération de stratégies, l'analyse d'anomalies ».

Le deuxième point d'application est l'auditabilité dans les scénarios critiques pour la sécurité. Le problème d'ingénierie le plus épineux des stratégies neuronales est l'impossibilité de localiser la cause après un problème. Un bras robotique échoue soudainement sous un certain angle, un véhicule fait une erreur de jugement dans un scénario limite, un robot médical a un mouvement anormal dans une posture rare, les ingénieurs ne peuvent pas répondre à « quel poids a causé cette erreur », et finissent par ajouter des données, ré-entraîner, tester la régression, puis parier que le nouveau modèle n'introduit pas de nouveaux problèmes.

Si la stratégie existe sous forme de code, les variables d'état, les branches conditionnelles, les journaux d'échec et les tests de régression sont visibles ; une action dangereuse peut être interdite par codage en dur, un cas limite peut être écrit comme test, une transition d'état erronée peut être corrigée individuellement. Cela ne rend pas le système intrinsèquement plus sûr, mais permet pour la première fois que les problèmes de sécurité entrent dans un processus d'ingénierie logicielle normal – pouvant être revus en code, interceptés par l'intégration continue, traités par les équipes SRE en service. Dans des domaines nécessitant régulation et division des responsabilités comme la conduite autonome, les bras robotiques industriels, les robots médicaux, cette auditabilité a une valeur commerciale en soi.

Le troisième point d'application est l'industrialisation de l'apprentissage continu et en ligne. Weng Jiayi présente cette ligne comme l'argument principal de tout l'article dans son blog. L'oubli catastrophique des réseaux neuronaux est un problème structurel : apprendre de nouvelles choses érode les anciennes capacités. Le HL oublie aussi, mais sous une forme plus ingénierie : une nouvelle règle corrige un mode d'échec mais détruit un ancien scénario ; une nouvelle mémoire entraîne à plusieurs reprises l'agent vers une mauvaise direction ; une plage de test trop étroite, la stratégie apprend à en tirer parti ; un correctif modifie une interface partagée, les anciens chemins d'appel échouent silencieusement.

Ces problèmes ne disparaissent pas automatiquement, mais ce sont des problèmes que l'ingénierie logicielle traite depuis des décennies, avec des chaînes d'outils existantes – tests de régression, diff de versions, enregistrements à graine fixe, traces de référence, directions d'échec explicitement notées.

Un HS sain doit posséder simultanément deux opérations : absorber de nouveaux retours et compresser les correctifs historiques ; un HS ne faisant que croître finira par devenir une « boule de code » que personne n'osera toucher. En d'autres termes, le HL transforme le problème mathématique « comment mettre à jour les paramètres » en problème d'ingénierie « comment maintenir un système logiciel absorbant constamment des retours ».

Ce dernier n'est pas nécessairement plus facile, mais plus proche de la frontière des capacités humaines existantes.

Le quatrième point d'application est la sédimentation des capacités des produits Agent. Ce qui manque le plus aux produits Agent actuels, c'est l'appel d'outils stable, les chaînes d'exécution fiables, l'expérience d'échec réutilisable et les enregistrements de tâches auditable. Si la logique du HL tient, la mémoire de l'Agent pendant l'exécution se sédimentera en actifs de code réutilisables à travers les sessions, utilisateurs et tâches. Il pourra s'interfacer directement avec les processus DevOps existants, et signifiera également que les Agents de différentes entreprises et équipes pourront partager des heuristiques, sans avoir à partager les modèles, ce que la solution des réseaux neuronaux ne permet pas.

Cependant, il est important de souligner : les quatre points d'application ci-dessus dépendent tous d'une validation plus poussée de la voie HL sur des tâches plus complexes. Breakout et Ant sont des environnements relativement propres ; les robots réels font face à des variations de friction du sol, d'éclairage, de retard des actionneurs, de bruit des capteurs, qui n'ont pas encore été systématiquement évalués dans les documents publics. Le contre-exemple de Montezuma a déjà montré que les tâches à long terme nécessitent des formes programmatiques dépassant les simples if-else. Jusqu'où cette vision peut aller dépendra des expériences de la prochaine phase.

05

La dette technique se transfère des poids au code

Le jugement de Weng Jiayi dans son blog est très mesuré. Il écrit que le HL ne peut pas accomplir tout ce que font les réseaux neuronaux, il est limité par ce que le code peut exprimer, en particulier dans la perception complexe et la généralisation à long terme. Avec la compréhension actuelle, il ne peut imaginer un agent utilisant du code Python pur, sans aucun réseau neuronal, pour résoudre ImageNet. La vraie question à discuter est comment combiner les réseaux neuronaux et le HL pour traiter conjointement l'Apprentissage en Ligne et l'Apprentissage Continu.

La division du travail qu'il propose emprunte le langage Système 1 / Système 2 : des réseaux neuronaux spécialisés et peu profonds prennent en charge une partie du Système 1, responsable de la perception rapide, de la classification et de l'estimation de l'état des objets ; le HL prend également en charge une partie du Système 1, responsable du traitement des données nouvelles, des règles, tests, enregistrements, mémoire, limites de sécurité et récupération locale ; l'agent LLM joue le rôle de Système 2, fournissant des retours au HL, améliorant les données, et extrayant périodiquement des informations des données générées par le HL pour se mettre à jour.

Si l'apprentissage profond des dix dernières années a prouvé que « l'expérience peut être compressée dans les poids », l'hypothèse proposée cette fois par Weng Jiayi est une autre proposition : à l'ère des agents de codage, l'expérience pourrait peut-être redevenir un logiciel lisible, modifiable, testable.

Cet article provient du compte officiel WeChat « Tencent Technology », auteur : Xiao Jing, éditeur : Xu Qingyang

Questions liées

QQuel est le nouveau paradigme proposé par l'ingénieur d'OpenAI, Weng Jiayi, pour l'IA agentique ?

AWeng Jiayi propose un nouveau paradigme appelé 'Heuristic Learning' (HL). Dans ce paradigme, un agent IA (comme Codex) peut améliorer ses performances non pas en ajustant les poids d'un réseau neuronal via l'entraînement, mais en réécrivant et en optimisant activement son propre code source en réponse aux retours d'environnement, aux journaux, aux tests et aux vidéos. L'expérience s'accumule alors dans un système logiciel explicite et maintenable plutôt que dans des paramètres de réseau neuronal opaques.

QComment l'expérience 'Heuristic Learning' de Weng Jiayi a-t-elle atteint un score parfait dans le jeu Atari Breakout ?

AL'expérience a utilisé Codex pour maintenir une boucle de développement complète : écrire une stratégie en Python, l'exécuter dans l'environnement, lire les journaux, regarder les vidéos de jeu, identifier les échecs, et modifier le code. Après plusieurs itérations, Codex a développé une stratégie procédurale qui a atteint le score théorique maximum de 864 points. L'amélioration est passée par des étapes clés comme l'ajout d'un mécanisme pour briser les cycles de balle répétitifs (passant de 387 à 507 points) et l'ajustement de la logique d'interception pour les balles rapides (passant à 839 points).

QQuelles sont les principales différences entre le 'Heuristic Learning' (HL) et le 'Deep Reinforcement Learning' (RL) selon l'article ?

ALes principales différences sont : 1. Forme de la stratégie : HL utilise du code (règles, contrôleurs, MPC), tandis que le RL utilise des paramètres de réseau neuronal. 2. Forme de l'état : HL utilise des variables et détecteurs explicites, le RL utilise des vecteurs d'observation. 3. Forme du retour : HL intègre tests, journaux et vidéos comme signaux, le RL repose principalement sur une fonction de récompense fixe. 4. Mémoire : HL stocke explicitement les essais et échecs, le RL utilise souvent un replay buffer. Le HL offre une meilleure interprétabilité, une efficacité par modification de code, et permet de gérer l'oubli catastrophique via des tests de régression.

QQuelles sont les limites ou les faiblesses du 'Heuristic Learning' révélées par les expériences sur l'ensemble Atari57 ?

ALes expériences sur Atari57 ont montré que les performances du HL n'étaient pas uniformes. Il excelle dans les jeux à structure géométrique claire (Breakout, Boxing) mais est dépassé par le RL dans les jeux rapides et complexes (Atlantis, VideoPinball). L'exemple le plus révélateur est Montezuma's Revenge, où Codex a simplement mémorisé une séquence d'actions fixes plutôt que d'apprendre une stratégie générale de planification à long terme. Cela expose la limite d'expressivité des stratégies procédurales classiques pour les tâches nécessitant une véritable planification séquentielle et une mémoire à long terme.

QQuelles pourraient être les implications industrielles si le paradigme du 'Heuristic Learning' se confirme ?

ALes implications industrielles potentielles sont : 1. Robotique : Développement de contrôleurs légers et interprétables pour des scénarios structurés (AGV, bras robotiques), réduisant la dépendance aux inférences GPU en temps réel. 2. Sécurité et auditabilité : Les stratégies sous forme de code permettent un débogage, des tests et une validation plus faciles dans les domaines critiques (autonome, médical). 3. Apprentissage continu : L'intégration des retours dans un système logiciel permet de gérer les mises à jour et la rétrocompatibilité avec des outils d'ingénierie logicielle existants. 4. Capacités des Agents : Les expériences des agents pourraient se matérialiser en actifs logiciels réutilisables et partageables entre équipes sans partager les modèles de base.

Lectures associées

Attirer les capitaux mondiaux, l’Asie vit un nouveau « super cycle »

Les investisseurs se tournent vers l'Asie, voyant dans la région le prochain moteur de la croissance boursière mondiale, porté par une vague d'investissements dans l'IA. Morgan Stanley anticipe un « super-cycle » asiatique, avec des dépenses en capital fixes devant passer d'environ 11 000 milliards de dollars en 2025 à 16 000 milliards en 2030, soit une croissance annuelle de 7%. Le cœur de ce cycle est l'expansion massive des infrastructures liées à l'IA (puces, serveurs, centres de données, énergie). L'Asie, au centre des chaînes d'approvisionnement, en bénéficiera pleinement. La Chine développe son écosystème de puces et de plateformes cloud pour une plus grande autonomie. Parallèlement, ses exportations pourraient évoluer des véhicules électriques vers la robotique, notamment les robots humanoïdes, reproduisant une trajectoire de croissance similaire. Deux autres moteurs se conjuguent : la sécurité énergétique, avec d'importants besoins en infrastructures renouvelables et en stockage, et l'augmentation structurelle des dépenses de défense dans la région. La Chine, la Corée du Sud et le Japon, dotés d'industries manufacturières et technologiques solides, sont bien positionnés pour capter ces investissements. Cependant, des risques persistent : surcapacités potentielles, pression sur les marges, restrictions technologiques persistantes et impacts de l'IA sur l'emploi. La divergence des anticipations des marchés pourrait également accroître la volatilité.

marsbitIl y a 25 mins

Attirer les capitaux mondiaux, l’Asie vit un nouveau « super cycle »

marsbitIl y a 25 mins

Le marché obligataire japonais passe en masse à la technologie « blockchain »

En août 2025, une transaction de pensions livrées (repo) sur bons du Trésor américain a été réglée de manière atomique et en temps réel sur une blockchain en deh des heures de marché, par des institutions majeures comme Bank of America et Citadel Securities. Cela a marqué un tournant pour l'infrastructure financière. En avril 2026, le Japon a lancé un projet pilote pour migrer les obligations d'État japonaises (JGB), une garantie clé de 9 000 milliards de dollars en Asie, vers le Canton Network. Cette initiative vise à remédier aux inefficacités du système actuel, où le transfert de garanties est lent, limité aux heures d'ouverture de Tokyo, et immobilise des milliards. La pression vient des États-Unis, où des acteurs comme la DTCC utilisent déjà Canton pour tokeniser les Treasuries, les rendant disponibles 24h/24. Pour éviter de perdre son statut de garantie privilégiée, le Japon doit moderniser son système. Canton Network a été choisi car son architecture permet un règlement atomique, respecte les exigences juridiques de confidentialité (comme la loi japonaise sur le transfert d'écritures) et synchronise les données avec les registres officiels. Il devient ainsi le réseau de référence pour le mouvement transfrontalier des principales garanties souveraines. Le règlement tokenisé 24h/24 change la donne : il permet de répondre directement aux appels de marge avec des obligations, réduisant les ventes forcées en période de stress. Il élimine aussi le risque de crédit dans les repo grâce au règlement atomique (l'actif et le cash échangés simultanément). Enfin, l'intégration de dépôts bancaires tokenisés, et non de stablecoins privés, résout le problème du règlement en cash pour les institutions. En somme, Canton est en passe de devenir une infrastructure essentielle, comme SWIFT, pour le mouvement des garanties souveraines. Cette évolution représente une révolution d'efficacité pour les marchés financiers, même si elle renforce le rôle des acteurs traditionnels plutôt que de les déloger.

marsbitIl y a 1 h

Le marché obligataire japonais passe en masse à la technologie « blockchain »

marsbitIl y a 1 h

Rapport hebdomadaire sur le financement | 14 événements de financement publics, Kalshi achève un nouveau tour de financement de 10 milliards de dollars avec une valorisation de 220 milliards de dollars, dirigé par Coatue Management

**Résumé des levées de fonds hebdomadaires (4-10 mai) : 14 événements, plus de 1.049 milliard de dollars levés** **Points clés par secteur :** * **DeFi (4 deals) :** L'assureur-réassureur OnRe a levé 5 millions de dollars. Le protocole de crédit Saturn Credit a obtenu 2 millions. La plateforme de trading institutionnelle Ekiden a levé 2 millions. Coinbase a investi stratégiquement dans Centrifuge (infrastructure de tokenisation RWA). * **Infrastructure & Outils (4 deals) :** OpenTrade (produits de rendement pour stablecoins) a levé 17 millions. La plateforme RWA Balcony a levé 12,7 millions. Antier Solutions a levé 3 millions pour son infrastructure blockchain d'entreprise. Coinbase investit également dans Kemet pour intégrer ses produits dérivés. * **Marchés de prédiction (3 deals) :** Le leader Kalshi a réalisé un tour de table de 1 milliard de dollars (évaluation : 22 milliards). Les plateformes AI Elastics et Sportix ont levé respectivement 2 et 3,2 millions. * **Finance Centralisée (1 deal) :** La plateforme de trading AI Stockcoin.ai a bouclé un tour d'amorçage mené par Amber Group. * **Autres applications Web3 (2 deals) :** SC Ventures (Standard Chartered) a investi stratégiquement dans le market-maker crypto GSR. La société de réserve bitcoin Capital B a levé 1,1 million d'euros. * **Fonds d'investissement :** Haun Ventures a levé 1 milliard pour un nouveau fonds. Multi Investment a levé ~616 millions. Le fonds de Global Millennial a levé 100 millions pour cibler les opportunités pré-IPO dans la DeFi et l'IA.

marsbitIl y a 1 h

Rapport hebdomadaire sur le financement | 14 événements de financement publics, Kalshi achève un nouveau tour de financement de 10 milliards de dollars avec une valorisation de 220 milliards de dollars, dirigé par Coatue Management

marsbitIl y a 1 h

Trading

Spot
Futures

Articles tendance

Qu'est ce que GROK AI

Grok AI : Révolutionner la technologie conversationnelle à l'ère du Web3 Introduction Dans le paysage en évolution rapide de l'intelligence artificielle, Grok AI se distingue comme un projet remarquable qui fait le lien entre les domaines de la technologie avancée et de l'interaction utilisateur. Développé par xAI, une entreprise dirigée par l'entrepreneur renommé Elon Musk, Grok AI cherche à redéfinir notre engagement avec l'intelligence artificielle. Alors que le mouvement Web3 continue de prospérer, Grok AI vise à tirer parti de la puissance de l'IA conversationnelle pour répondre à des requêtes complexes, offrant aux utilisateurs une expérience à la fois informative et divertissante. Qu'est-ce que Grok AI ? Grok AI est un chatbot IA conversationnel sophistiqué conçu pour interagir dynamiquement avec les utilisateurs. Contrairement à de nombreux systèmes d'IA traditionnels, Grok AI embrasse une gamme plus large de questions, y compris celles généralement jugées inappropriées ou en dehors des réponses standard. Les objectifs principaux du projet incluent : Raisonnement fiable : Grok AI met l'accent sur le raisonnement de bon sens pour fournir des réponses logiques basées sur une compréhension contextuelle. Surveillance évolutive : L'intégration de l'assistance par outils garantit que les interactions des utilisateurs sont à la fois surveillées et optimisées pour la qualité. Vérification formelle : La sécurité est primordiale ; Grok AI intègre des méthodes de vérification formelle pour améliorer la fiabilité de ses résultats. Compréhension à long terme : Le modèle IA excelle dans la rétention et le rappel d'une vaste histoire de conversation, facilitant des discussions significatives et conscientes du contexte. Robustesse face aux adversaires : En se concentrant sur l'amélioration de ses défenses contre les entrées manipulées ou malveillantes, Grok AI vise à maintenir l'intégrité des interactions des utilisateurs. En essence, Grok AI n'est pas seulement un dispositif de récupération d'informations ; c'est un partenaire conversationnel immersif qui encourage un dialogue dynamique. Créateur de Grok AI Le cerveau derrière Grok AI n'est autre qu'Elon Musk, une personne synonyme d'innovation dans divers domaines, y compris l'automobile, le voyage spatial et la technologie. Sous l'égide de xAI, une entreprise axée sur l'avancement de la technologie IA de manière bénéfique, la vision de Musk vise à remodeler la compréhension des interactions avec l'IA. Le leadership et l'éthique fondatrice sont profondément influencés par l'engagement de Musk à repousser les limites technologiques. Investisseurs de Grok AI Bien que les détails spécifiques concernant les investisseurs soutenant Grok AI restent limités, il est publiquement reconnu que xAI, l'incubateur du projet, est fondé et soutenu principalement par Elon Musk lui-même. Les précédentes entreprises et participations de Musk fournissent un soutien solide, renforçant encore la crédibilité et le potentiel de croissance de Grok AI. Cependant, à l'heure actuelle, les informations concernant d'autres fondations d'investissement ou organisations soutenant Grok AI ne sont pas facilement accessibles, marquant un domaine à explorer potentiellement à l'avenir. Comment fonctionne Grok AI ? Les mécanismes opérationnels de Grok AI sont aussi innovants que son cadre conceptuel. Le projet intègre plusieurs technologies de pointe qui facilitent ses fonctionnalités uniques : Infrastructure robuste : Grok AI est construit en utilisant Kubernetes pour l'orchestration de conteneurs, Rust pour la performance et la sécurité, et JAX pour le calcul numérique haute performance. Ce trio garantit que le chatbot fonctionne efficacement, évolue efficacement et sert les utilisateurs rapidement. Accès aux connaissances en temps réel : L'une des caractéristiques distinctives de Grok AI est sa capacité à puiser dans des données en temps réel via la plateforme X—anciennement connue sous le nom de Twitter. Cette capacité permet à l'IA d'accéder aux dernières informations, lui permettant de fournir des réponses et des recommandations opportunes que d'autres modèles d'IA pourraient manquer. Deux modes d'interaction : Grok AI offre aux utilisateurs un choix entre le « Mode Amusant » et le « Mode Régulier ». Le Mode Amusant permet un style d'interaction plus ludique et humoristique, tandis que le Mode Régulier se concentre sur la fourniture de réponses précises et exactes. Cette polyvalence garantit une expérience sur mesure qui répond à diverses préférences des utilisateurs. En essence, Grok AI marie performance et engagement, créant une expérience à la fois enrichissante et divertissante. Chronologie de Grok AI Le parcours de Grok AI est marqué par des jalons clés qui reflètent ses étapes de développement et de déploiement : Développement initial : La phase fondamentale de Grok AI a eu lieu sur une période d'environ deux mois, au cours de laquelle l'entraînement initial et le réglage du modèle ont été réalisés. Lancement de la version bêta de Grok-2 : Dans une avancée significative, la bêta de Grok-2 a été annoncée. Ce lancement a introduit deux versions du chatbot—Grok-2 et Grok-2 mini—chacune équipée des capacités de discussion, de codage et de raisonnement. Accès public : Après son développement bêta, Grok AI est devenu accessible aux utilisateurs de la plateforme X. Ceux ayant des comptes vérifiés par un numéro de téléphone et actifs depuis au moins sept jours peuvent accéder à une version limitée, rendant la technologie disponible pour un public plus large. Cette chronologie encapsule la croissance systématique de Grok AI depuis sa création jusqu'à son engagement public, soulignant son engagement envers l'amélioration continue et l'interaction utilisateur. Caractéristiques clés de Grok AI Grok AI englobe plusieurs caractéristiques clés qui contribuent à son identité innovante : Intégration des connaissances en temps réel : L'accès à des informations actuelles et pertinentes différencie Grok AI de nombreux modèles statiques, permettant une expérience utilisateur engageante et précise. Styles d'interaction polyvalents : En offrant des modes d'interaction distincts, Grok AI répond à des préférences variées des utilisateurs, invitant à la créativité et à la personnalisation dans la conversation avec l'IA. Infrastructure technologique avancée : L'utilisation de Kubernetes, Rust et JAX fournit au projet un cadre solide pour garantir fiabilité et performance optimale. Considération du discours éthique : L'inclusion d'une fonction de génération d'images met en avant l'esprit innovant du projet. Cependant, elle soulève également des considérations éthiques concernant le droit d'auteur et la représentation respectueuse de figures reconnaissables—une discussion en cours au sein de la communauté IA. Conclusion En tant qu'entité pionnière dans le domaine de l'IA conversationnelle, Grok AI encapsule le potentiel d'expériences utilisateur transformantes à l'ère numérique. Développé par xAI et guidé par l'approche visionnaire d'Elon Musk, Grok AI intègre des connaissances en temps réel avec des capacités d'interaction avancées. Il s'efforce de repousser les limites de ce que l'intelligence artificielle peut accomplir tout en maintenant un accent sur les considérations éthiques et la sécurité des utilisateurs. Grok AI incarne non seulement l'avancement technologique mais aussi un nouveau paradigme de conversation dans le paysage Web3, promettant d'engager les utilisateurs avec à la fois une connaissance experte et une interaction ludique. Alors que le projet continue d'évoluer, il se dresse comme un témoignage de ce que l'intersection de la technologie, de la créativité et de l'interaction humaine peut accomplir.

451 vues totalesPublié le 2024.12.26Mis à jour le 2024.12.26

Qu'est ce que GROK AI

Qu'est ce que ERC AI

Euruka Tech : Un aperçu de $erc ai et de ses ambitions dans le Web3 Introduction Dans le paysage en évolution rapide de la technologie blockchain et des applications décentralisées, de nouveaux projets émergent fréquemment, chacun avec des objectifs et des méthodologies uniques. L'un de ces projets est Euruka Tech, qui opère dans le vaste domaine des cryptomonnaies et du Web3. L'objectif principal d'Euruka Tech, en particulier de son token $erc ai, est de présenter des solutions innovantes conçues pour exploiter les capacités croissantes de la technologie décentralisée. Cet article vise à fournir un aperçu complet d'Euruka Tech, une exploration de ses objectifs, de sa fonctionnalité, de l'identité de son créateur, de ses investisseurs potentiels et de son importance dans le contexte plus large du Web3. Qu'est-ce qu'Euruka Tech, $erc ai ? Euruka Tech est caractérisé comme un projet qui tire parti des outils et des fonctionnalités offerts par l'environnement Web3, en se concentrant sur l'intégration de l'intelligence artificielle dans ses opérations. Bien que les détails spécifiques sur le cadre du projet soient quelque peu évasifs, il est conçu pour améliorer l'engagement des utilisateurs et automatiser les processus dans l'espace crypto. Le projet vise à créer un écosystème décentralisé qui facilite non seulement les transactions, mais qui intègre également des fonctionnalités prédictives grâce à l'intelligence artificielle, d'où la désignation de son token, $erc ai. L'objectif est de fournir une plateforme intuitive qui facilite des interactions plus intelligentes et un traitement efficace des transactions dans la sphère Web3 en pleine expansion. Qui est le créateur d'Euruka Tech, $erc ai ? À l'heure actuelle, les informations concernant le créateur ou l'équipe fondatrice derrière Euruka Tech restent non spécifiées et quelque peu opaques. Cette absence de données soulève des préoccupations, car la connaissance des antécédents de l'équipe est souvent essentielle pour établir la crédibilité dans le secteur de la blockchain. Par conséquent, nous avons classé cette information comme inconnue jusqu'à ce que des détails concrets soient rendus disponibles dans le domaine public. Qui sont les investisseurs d'Euruka Tech, $erc ai ? De même, l'identification des investisseurs ou des organisations de soutien pour le projet Euruka Tech n'est pas facilement fournie par les recherches disponibles. Un aspect crucial pour les parties prenantes potentielles ou les utilisateurs envisageant de s'engager avec Euruka Tech est l'assurance qui découle de partenariats financiers établis ou du soutien d'entreprises d'investissement réputées. Sans divulgations sur les affiliations d'investissement, il est difficile de tirer des conclusions complètes sur la sécurité financière ou la pérennité du projet. Conformément aux informations trouvées, cette section se trouve également au statut de inconnue. Comment fonctionne Euruka Tech, $erc ai ? Malgré le manque de spécifications techniques détaillées pour Euruka Tech, il est essentiel de considérer ses ambitions innovantes. Le projet cherche à exploiter la puissance de calcul de l'intelligence artificielle pour automatiser et améliorer l'expérience utilisateur dans l'environnement des cryptomonnaies. En intégrant l'IA avec la technologie blockchain, Euruka Tech vise à fournir des fonctionnalités telles que des transactions automatisées, des évaluations de risques et des interfaces utilisateur personnalisées. L'essence innovante d'Euruka Tech réside dans son objectif de créer une connexion fluide entre les utilisateurs et les vastes possibilités offertes par les réseaux décentralisés. Grâce à l'utilisation d'algorithmes d'apprentissage automatique et d'IA, il vise à minimiser les défis rencontrés par les utilisateurs pour la première fois et à rationaliser les expériences transactionnelles dans le cadre du Web3. Cette symbiose entre l'IA et la blockchain souligne l'importance du token $erc ai, agissant comme un pont entre les interfaces utilisateur traditionnelles et les capacités avancées des technologies décentralisées. Chronologie d'Euruka Tech, $erc ai Malheureusement, en raison des informations limitées dont nous disposons concernant Euruka Tech, nous ne sommes pas en mesure de présenter une chronologie détaillée des développements majeurs ou des étapes importantes dans le parcours du projet. Cette chronologie, généralement inestimable pour tracer l'évolution d'un projet et comprendre sa trajectoire de croissance, n'est pas actuellement disponible. À mesure que des informations sur des événements notables, des partenariats ou des ajouts fonctionnels deviennent évidentes, des mises à jour amélioreront sûrement la visibilité d'Euruka Tech dans la sphère crypto. Clarification sur d'autres projets “Eureka” Il est à noter que plusieurs projets et entreprises partagent une nomenclature similaire avec “Eureka”. Des recherches ont identifié des initiatives comme un agent IA de NVIDIA Research, qui se concentre sur l'enseignement de tâches complexes aux robots en utilisant des méthodes génératives, ainsi que Eureka Labs et Eureka AI, qui améliorent l'expérience utilisateur dans l'éducation et l'analyse du service client, respectivement. Cependant, ces projets sont distincts d'Euruka Tech et ne doivent pas être confondus avec ses objectifs ou ses fonctionnalités. Conclusion Euruka Tech, aux côtés de son token $erc ai, représente un acteur prometteur mais actuellement obscur dans le paysage du Web3. Bien que les détails concernant son créateur et ses investisseurs restent non divulgués, l'ambition centrale de combiner l'intelligence artificielle avec la technologie blockchain constitue un point d'intérêt focal. Les approches uniques du projet pour favoriser l'engagement des utilisateurs grâce à une automatisation avancée pourraient le distinguer à mesure que l'écosystème Web3 progresse. Alors que le marché des cryptomonnaies continue d'évoluer, les parties prenantes devraient garder un œil attentif sur les avancées concernant Euruka Tech, car le développement d'innovations documentées, de partenariats ou d'une feuille de route définie pourrait présenter des opportunités significatives dans un avenir proche. En l'état, nous attendons des informations plus substantielles qui pourraient révéler le potentiel d'Euruka Tech et sa position dans le paysage concurrentiel des cryptomonnaies.

478 vues totalesPublié le 2025.01.02Mis à jour le 2025.01.02

Qu'est ce que ERC AI

Qu'est ce que DUOLINGO AI

DUOLINGO AI : Intégration de l'apprentissage des langues avec l'innovation Web3 et IA À une époque où la technologie redéfinit l'éducation, l'intégration de l'intelligence artificielle (IA) et des réseaux blockchain annonce une nouvelle frontière pour l'apprentissage des langues. Entrez dans DUOLINGO AI et sa cryptomonnaie associée, $DUOLINGO AI. Ce projet aspire à fusionner la puissance éducative des principales plateformes d'apprentissage des langues avec les avantages de la technologie décentralisée Web3. Cet article explore les aspects clés de DUOLINGO AI, en examinant ses objectifs, son cadre technologique, son développement historique et son potentiel futur tout en maintenant une clarté entre la ressource éducative originale et cette initiative de cryptomonnaie indépendante. Vue d'ensemble de DUOLINGO AI Au cœur de DUOLINGO AI, l'objectif est d'établir un environnement décentralisé où les apprenants peuvent gagner des récompenses cryptographiques pour atteindre des jalons éducatifs en matière de compétence linguistique. En appliquant des contrats intelligents, le projet vise à automatiser les processus de vérification des compétences et d'attribution de jetons, en respectant les principes de Web3 qui mettent l'accent sur la transparence et la propriété des utilisateurs. Le modèle s'écarte des approches traditionnelles de l'acquisition des langues en s'appuyant fortement sur une structure de gouvernance pilotée par la communauté, permettant aux détenteurs de jetons de suggérer des améliorations au contenu des cours et à la distribution des récompenses. Parmi les objectifs notables de DUOLINGO AI, on trouve : Apprentissage ludique : Le projet intègre des réalisations basées sur la blockchain et des jetons non fongibles (NFT) pour représenter les niveaux de compétence linguistique, favorisant la motivation grâce à des récompenses numériques engageantes. Création de contenu décentralisée : Il ouvre des voies pour que les éducateurs et les passionnés de langues contribuent à leurs cours, facilitant un modèle de partage des revenus qui bénéficie à tous les contributeurs. Personnalisation alimentée par l'IA : En utilisant des modèles d'apprentissage automatique avancés, DUOLINGO AI personnalise les leçons pour s'adapter aux progrès d'apprentissage individuels, semblable aux fonctionnalités adaptatives trouvées dans les plateformes établies. Créateurs du projet et gouvernance À partir d'avril 2025, l'équipe derrière $DUOLINGO AI reste pseudonyme, une pratique fréquente dans le paysage décentralisé des cryptomonnaies. Cette anonymat est destiné à promouvoir la croissance collective et l'engagement des parties prenantes plutôt qu'à se concentrer sur des développeurs individuels. Le contrat intelligent déployé sur la blockchain Solana note l'adresse du portefeuille du développeur, ce qui signifie l'engagement envers la transparence concernant les transactions malgré l'identité inconnue des créateurs. Selon sa feuille de route, DUOLINGO AI vise à évoluer vers une Organisation Autonome Décentralisée (DAO). Cette structure de gouvernance permet aux détenteurs de jetons de voter sur des questions critiques telles que les mises en œuvre de fonctionnalités et les allocations de trésorerie. Ce modèle s'aligne avec l'éthique de l'autonomisation communautaire que l'on trouve dans diverses applications décentralisées, soulignant l'importance de la prise de décision collective. Investisseurs et partenariats stratégiques Actuellement, il n'y a pas d'investisseurs institutionnels ou de capital-risqueurs identifiables publiquement liés à $DUOLINGO AI. Au lieu de cela, la liquidité du projet provient principalement des échanges décentralisés (DEX), marquant un contraste frappant avec les stratégies de financement des entreprises de technologie éducative traditionnelles. Ce modèle de base indique une approche pilotée par la communauté, reflétant l'engagement du projet envers la décentralisation. Dans son livre blanc, DUOLINGO AI mentionne la formation de collaborations avec des “plateformes d'éducation blockchain” non spécifiées visant à enrichir ses offres de cours. Bien que des partenariats spécifiques n'aient pas encore été divulgués, ces efforts collaboratifs laissent entrevoir une stratégie visant à mélanger l'innovation blockchain avec des initiatives éducatives, élargissant l'accès et l'engagement des utilisateurs à travers diverses voies d'apprentissage. Architecture technologique Intégration de l'IA DUOLINGO AI intègre deux composants majeurs alimentés par l'IA pour améliorer ses offres éducatives : Moteur d'apprentissage adaptatif : Ce moteur sophistiqué apprend des interactions des utilisateurs, similaire aux modèles propriétaires des grandes plateformes éducatives. Il ajuste dynamiquement la difficulté des leçons pour répondre aux défis spécifiques des apprenants, renforçant les points faibles par des exercices ciblés. Agents conversationnels : En utilisant des chatbots alimentés par GPT-4, DUOLINGO AI offre une plateforme permettant aux utilisateurs de s'engager dans des conversations simulées, favorisant une expérience d'apprentissage des langues plus interactive et pratique. Infrastructure blockchain Construit sur la blockchain Solana, $DUOLINGO AI utilise un cadre technologique complet qui comprend : Contrats intelligents de vérification des compétences : Cette fonctionnalité attribue automatiquement des jetons aux utilisateurs qui réussissent des tests de compétence, renforçant la structure d'incitation pour des résultats d'apprentissage authentiques. Badges NFT : Ces jetons numériques signifient divers jalons que les apprenants atteignent, tels que la complétion d'une section de leur cours ou la maîtrise de compétences spécifiques, leur permettant d'échanger ou de montrer leurs réalisations numériquement. Gouvernance DAO : Les membres de la communauté dotés de jetons peuvent participer à la gouvernance en votant sur des propositions clés, facilitant une culture participative qui encourage l'innovation dans les offres de cours et les fonctionnalités de la plateforme. Chronologie historique 2022–2023 : Conceptualisation Les bases de DUOLINGO AI commencent avec la création d'un livre blanc, mettant en avant la synergie entre les avancées de l'IA dans l'apprentissage des langues et le potentiel décentralisé de la technologie blockchain. 2024 : Lancement Beta Un lancement beta limité introduit des offres dans des langues populaires, récompensant les premiers utilisateurs avec des incitations en jetons dans le cadre de la stratégie d'engagement communautaire du projet. 2025 : Transition vers la DAO En avril, un lancement complet sur le mainnet a lieu avec la circulation de jetons, suscitant des discussions communautaires concernant d'éventuelles expansions vers les langues asiatiques et d'autres développements de cours. Défis et orientations futures Obstacles techniques Malgré ses objectifs ambitieux, DUOLINGO AI fait face à des défis significatifs. La scalabilité reste une préoccupation constante, en particulier pour équilibrer les coûts associés au traitement de l'IA et le maintien d'un réseau décentralisé réactif. De plus, garantir la qualité de la création et de la modération de contenu au sein d'une offre décentralisée pose des complexités pour maintenir des normes éducatives. Opportunités stratégiques En regardant vers l'avenir, DUOLINGO AI a le potentiel de tirer parti de partenariats de micro-certification avec des institutions académiques, fournissant des validations vérifiées par blockchain des compétences linguistiques. De plus, une expansion inter-chaînes pourrait permettre au projet de toucher des bases d'utilisateurs plus larges et d'autres écosystèmes blockchain, améliorant son interopérabilité et sa portée. Conclusion DUOLINGO AI représente une fusion innovante de l'intelligence artificielle et de la technologie blockchain, présentant une alternative axée sur la communauté aux systèmes d'apprentissage des langues traditionnels. Bien que son développement pseudonyme et son modèle économique émergent présentent certains risques, l'engagement du projet envers l'apprentissage ludique, l'éducation personnalisée et la gouvernance décentralisée éclaire une voie à suivre pour la technologie éducative dans le domaine de Web3. Alors que l'IA continue d'avancer et que l'écosystème blockchain évolue, des initiatives comme DUOLINGO AI pourraient redéfinir la manière dont les utilisateurs s'engagent dans l'éducation linguistique, autonomisant les communautés et récompensant l'engagement grâce à des mécanismes d'apprentissage innovants.

514 vues totalesPublié le 2025.04.11Mis à jour le 2025.04.11

Qu'est ce que DUOLINGO AI

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de AI (AI) sont présentées ci-dessous.

活动图片