Du code à la cognition : un guide de dix mille mots sur l'évolution du cerveau robotique

marsbitPublié le 2026-06-07Dernière mise à jour le 2026-06-07

Résumé

Auteur: Matt White, CTO AI mondial de la Linux Foundation. Compilé par: Felix, PANews. Cette longue exploration retrace l'évolution de l'intelligence des robots, des systèmes classiques codés à la main aux approches modernes fondées sur l'IA. **L'ère pré-LLM** était dominée par une pile logicielle modulaire (perception, estimation d'état, planification, contrôle) et des arbres de comportement, prévisible mais peu adaptable. **L'apprentissage automatique** a ensuite révolutionné la perception (réseaux neuronaux) et le contrôle (apprentissage par renforcement, imitation), mais chaque compétence restait étroite et spécifique. **L'avènement des LLM** a introduit un planificateur en langage naturel, capable de décomposer une instruction en séquences d'actions atomiques exécutées par des contrôleurs existants (ex: SayCan de Google). Le saut suivant fut les **modèles Vision-Langage-Action (VLA)**, comme RT-2 de DeepMind ou OpenVLA. Ces réseaux de neurones unifiés fusionnent flux visuel et instruction linguistique pour générer directement des commandes motrices, couplant raisonnement et action. Les architectures les plus performantes, comme le GR00T de NVIDIA ou Helix de Figure AI, adoptent une **stratégie à "deux cerveaux"** : un système 2 lent (VLA, ~7-9 Hz) pour la réflexion et un système 1 rapide (~200 Hz) pour l'exécution réactive, avec parfois un système 0 réflexe pour l'équilibre. Les calculs critiques s'exécutent localement (ex: sur module NVIDIA Jetson) pour la laten...

Auteur : Matt White, CTO mondial de l'IA, Linux Foundation

Traduction : Felix, PANews

Wang Xingxing (PDO d'Unitree) avec Matt White

Il y a quelques semaines à Shanghai, un ami avec qui je voyageais (quelqu'un d'intelligent, qui suit l'actualité et observe le monde, mais qui ne connaît pas vraiment la robotique) m'a posé, pendant le dîner, la question qui mûrissait depuis le début du voyage.

"Ces robots-chiens que l'on voit courir partout, ces robots humanoïdes qui font des démonstrations de kung-fu sur scène au bureau d'Unitree, et ces bras robotiques qui plient des vêtements. Comment font-ils ? Sont-ils pilotés par des grands modèles de langage (LLM) ? Comment cela fonctionne-t-il exactement ? Y a-t-il une sorte de modèle de langage qui contrôle leurs mouvements ?"

C'est une excellente question, et pour être franc : en un sens, oui, mais la vraie histoire est bien plus intéressante. Les robots que vous voyez sur les réseaux sociaux ne sont pas des ChatGPT dans une carrosserie métallique. Ils exécutent une pile technologique (plusieurs couches d'IA travaillant ensemble). Cette pile a plus changé au cours des trois dernières années que pendant les trente années précédentes. Les modèles de langage en font partie. Les modèles visuels, les modèles d'action, les arbres de comportement, les boucles de contrôle classiques, ainsi qu'une nouvelle famille de systèmes appelés "modèles du monde" le sont également. Et les "modèles du monde" sont peut-être le développement le plus important de tous.

Ceci est un long article. Il partira du début, puis expliquera chaque changement majeur, pour finalement arriver à l'étape actuelle : les robots peuvent non seulement réagir au monde, mais aussi l'imaginer.

I : L'ère pré-LLM : quand les robots n'étaient que des logiciels

Pendant des décennies, construire un robot signifiait écrire beaucoup de code, et presque tout ce code n'avait pas besoin d'apprendre.

Les robots industriels classiques étaient des tours soigneusement conçues de modules empilés. Pensez aux bras orange des années 90 qui soudaient les châssis Toyota, ou au BigDog de Boston Dynamics au début des années 2000.

Perception : Filtrer les flux de caméra, détecter les contours, utiliser la correspondance géométrique pour identifier la position des pièces.
Estimation d'état : Combiner codeurs de roues, gyroscopes et accéléromètres (fusion de capteurs) pour déterminer la position et la vitesse du robot.
Planification : Étant donné une posture cible, calculer un chemin sans collision dans une carte connue en utilisant des algorithmes comme A* ou RRT.
Contrôle : Au niveau le plus bas, les contrôleurs PID ajustent le couple des moteurs des centaines ou milliers de fois par seconde pour suivre ce chemin.

Ces couches étaient généralement écrites par différentes personnes dans différents laboratoires, puis minutieusement assemblées. Les comportements (par exemple "si la tasse est rouge, la saisir, sinon attendre") étaient codés sous forme de machines à états ou d'arbres de comportement : des organigrammes que le robot exécutait étape par étape.

Les avantages de cette approche sont évidents. Elle est prévisible, conforme aux normes de sécurité. C'est pourquoi votre voiture a un système ABS efficace.

Les inconvénients sont tout aussi évidents. Un tel robot n'était intelligent que dans les scénarios imaginés par l'ingénieur. Placez-le dans une nouvelle usine, sous un nouvel éclairage, ou avec une nouvelle couleur de tasse, et il échouait. Sa capacité de généralisation était quasi nulle.

II : L'apprentissage automatique s'immisce discrètement

Dans les années 2010, l'apprentissage profond a commencé à s'attaquer à la couche de perception. Les réseaux de neurones convolutifs (CNN) qui battaient les humains au classement d'images ImageNet pouvaient être recyclés pour détecter des points de préhension sur des objets, segmenter des meubles dans une pièce, ou reconnaître la posture d'une personne. Soudain, la couche "Perception" en haut de la pile n'avait plus besoin d'être conçue à la main, on pouvait simplement l'entraîner.

Puis, l'apprentissage s'est propagé à la couche de "Contrôle". Des chercheurs de Berkeley, DeepMind et OpenAI ont montré que l'apprentissage par renforcement (laisser un agent robotique essayer des millions de fois dans une simulation et renforcer les comportements efficaces) pouvait produire des démarches étonnamment habiles, des manipulations d'objets à la main (le cube Rubik's résolu à une main par OpenAI en 2019 a été une étape importante), et des stratégies de locomotion adaptées à différents terrains.

Un autre axe de recherche parallèle était l'apprentissage par imitation, souvent appelé clonage comportemental : enregistrer des centaines d'essais où un humain télé-opère un robot pour accomplir une tâche, puis entraîner un réseau de neurones à prédire quelle action l'humain prendrait compte tenu de ce que le robot a observé.

Le point clé dans tout cela : chaque politique apprise était trop étroite. Entraînez un réseau à ramasser un cube rouge, il ne sait pas quoi faire d'une tasse jaune. Entraînez-le à marcher sur de l'herbe, il chute sur du carrelage. La généralisation restait le grand problème non résolu.

Notons qu'une infrastructure de base est apparue à cette époque et soutient encore aujourd'hui presque tout : ROS, le système d'exploitation pour robots (première version en novembre 2007). ROS n'est pas un système d'exploitation au sens de Windows ou Linux, mais un cadre middleware, un système de pipeline générique pour robots. Il permet aux "nœuds caméra", "nœuds de navigation", "nœuds contrôleurs de bras robotique" et des dizaines d'autres de publier et s'abonner à des messages via un bus partagé.

La version actuelle, ROS2, fonctionne en sous-couche de la grande majorité des robots de recherche et commerciaux dans le monde, des laboratoires de Stanford aux startups chinoises de robots humanoïdes. Lorsque les gens parlent du "système d'exploitation" d'un robot, ils font presque toujours référence à ROS2 plus les différents paquets logiciels de perception, planification et contrôle qui tournent dessus.

ROS2 : ce n'est pas un système d'exploitation, mais le pipeline universel permettant aux logiciels robotiques indépendants de communiquer entre eux

III : Les LLM arrivent dans la robotique

Puis ChatGPT est arrivé.

Soudain, il y avait cette chose : le LLM. Il pouvait lire des instructions simples en anglais, faire un raisonnement en plusieurs étapes, écrire du code et appeler des fonctions. Les roboticiennes et roboticiens ont presque immédiatement réalisé que c'était la pièce manquante qu'ils essayaient de résoudre depuis des années. Le plus difficile pour qu'un robot accomplisse des tâches utiles dans une maison ou un bureau, ce n'était généralement pas le contrôle des moteurs, mais l'interaction : comment l'humain dit au robot quoi faire, et comment le robot décompose cet objectif en actions atomiques qu'il sait déjà exécuter ?

La première vague de travaux appliquant les LLM aux robots consistait à considérer le modèle de langage comme un compilateur en langage naturel s'exécutant au-dessus de ROS. Le schéma était le suivant :

L'utilisateur dit en anglais : "Apporte-moi la tasse de café sur le plan de travail et pose-la sur mon bureau."
Le LLM génère un plan basé sur la liste des compétences atomiques disponibles pour le robot : cela peut être une séquence d'appels de fonctions, une machine à états, ou un arbre de comportement écrit en XML.
Les nœuds ROS2 exécutent ce plan étape par étape. Si une étape échoue, l'échec est signalé au LLM pour qu'il puisse replanifier.

Le projet SayCan de Google en 2022 était une version très élégante de cette idée : le LLM propose des compétences, un modèle "d'affordance" indépendant évalue la probabilité de succès actuelle de chaque compétence, et le robot choisit la combinaison avec le score combiné le plus élevé. Des cadres ouverts comme ROS-LLM, ROSGPT et ROSA (menés par le laboratoire de recherche de Huawei) ont popularisé ce schéma.

C'était effectivement un bond en avant significatif. Soudain, vous pouviez dire au robot "nettoie la table, mets les recyclables dans la poubelle bleue", et il essayait une séquence d'actions raisonnable. Mais remarquez ceci : le modèle de langage reste encore au niveau de la planification. Les commandes d'action réelles sont toujours générées par les contrôleurs sous-jacents, soigneusement conçus ou entraînés de manière spécialisée. Le modèle de langage n'est qu'un planificateur intelligent, il ne conduit pas.

IV : Les modèles Vision-Langage-Action (VLA), quand le cerveau commence à piloter le robot

Le robot Keenon XMAN-R1 prélève des médicaments sur des étagères dans la pharmacie automatisée de Galbot à Pékin. Pour seulement 100 000 dollars.

Le prochain bond a été plus difficile et plus important. Les chercheurs se sont posé une question plus ambitieuse : Et si le modèle pouvait non seulement planifier, mais aussi générer directement les commandes d'action ? Et si on mettait directement l'image de la caméra et l'instruction langagière dans un réseau de neurones, et qu'on obtenait le mouvement des articulations pour la milliseconde suivante ?

C'est cela, le modèle Vision-Langage-Action (VLA). C'est aujourd'hui le paradigme dominant dans le domaine des robots humanoïdes et quadrupèdes.

Le premier robot visio-langagier largement connu a été RT-2 de Google DeepMind en 2023. L'astuce était : utiliser un grand modèle visio-langagier (déjà entraîné pour décrire des images et répondre à des questions), et continuer à l'entraîner avec des données de démonstration robotiques, mais en traitant les actions du robot comme un autre type de jeton à prédire. Le même réseau neuronal qui pouvait produire "le chat est assis sur le tapis" pouvait maintenant produire une série de jetons codant "déplace la patte avant droite de 3 cm, referme la pince, lève de 5 cm". Le raisonnement et l'action étaient dans le même modèle.

Puis, mi-2024, une équipe menée par Stanford a publié OpenVLA, un modèle VLA open source à 7 milliards de paramètres, entraîné sur le jeu de données Open X-Embodiment. Ce dernier regroupe plus d'un million de segments d'entraînement provenant de 21 laboratoires de recherche différents, couvrant 22 corps robotiques différents. C'était la première fois que quelqu'un en dehors de Google pouvait télécharger un modèle robotique généraliste et commencer à le modifier. Cela a changé le domaine du jour au lendemain.

Aujourd'hui, les VLA leaders sont peu nombreux mais évoluent rapidement :

π0 et π0.5 de Physical Intelligence : excellente adaptation aux tâches.
NVIDIA Isaac GR00T N1.7 : poids ouverts, licence commerciale, conçu pour les humanoïdes, c'est le modèle que la plupart des entreprises de matériel chinoises affinent actuellement avec leurs propres données.
Helix et le plus récent Helix-02 de Figure AI : propriétaire, mais très important architecturalement.
Genie Envisioner d'AgiBot : une plateforme basée sur un modèle du monde chinois.
SmolVLA, NORA, ACoT-VLA, CogACT : une myriade de VLA académiques émergeant, explorant différentes directions de conception.

Comment fonctionne un VLA (sans mathématiques)

Imaginez un VLA comme fusionnant trois flux d'entrée en un seul flux de sortie.

Le premier flux de données est la vision. Une caméra RVB (parfois un capteur de profondeur ou un lidar), parfois des capteurs tactiles sur les bouts des doigts, traités par un encodeur visuel (généralement un modèle Transformer comme DINOv2 ou SigLIP) qui compresse chaque image en quelques centaines de "jetons visuels", résumant ce que le robot voit.

Le deuxième flux est le langage. Votre instruction ("passe-moi le tournevis") est convertie en jetons comme dans ChatGPT.

Ces deux flux sont concaténés et introduits dans un "tronc" Transformer (souvent un petit modèle de langage open source comme Qwen3 ou Llama). Ce tronc fait le raisonnement, combinant ce qu'il voit avec ce qu'on lui demande.

Le troisième flux : l'action, sort de l'autre côté. C'est là que les choix architecturaux divergent :

Jetons d'action discrets : le modèle génère directement des jetons décodables en angles d'articulation ou positions de l'effecteur terminal, comme ChatGPT génère des mots. Simple, mais peut être saccadé à haute fréquence.
Tête d'action par diffusion ou appariement de flux (flow-matching) : un petit réseau indépendant prend la sortie du tronc et débruite pour produire une trajectoire lisse de positions articulaires, comme un modèle de diffusion d'images, sauf qu'il génère du mouvement. C'est ce que fait π0, produisant des actions plus fluides et naturelles.
Chunking d'actions : au lieu de prédire la prochaine commande unique, prédire un bloc de commandes pour la prochaine demi-seconde, lissant ainsi les saccades.

Dans un modèle VLA : deux flux d'entrée, instructions de mouvement en sortie, raisonnement et action fusionnés dans un réseau.

C'est le changement architectural crucial : le raisonnement et l'action ne sont plus séparés. Apprendre au réseau neuronal à reconnaître une tasse lui apprend aussi comment la saisir. C'est ce couplage qui permet aux VLA de généraliser là où leurs prédécesseurs ne le pouvaient pas.

V : La stratégie du double cerveau : comment LLM et VLA travaillent ensemble

Voici un détail rarement expliqué clairement dans le marketing. Les robots humanoïdes les plus performants aujourd'hui ne font pas tourner un seul système VLA, mais deux modèles à des vitesses différentes, qui se parlent. Cela est parfois appelé architecture à double système ou Système 1 / Système 2, empruntant au cadre psychologique de Daniel Kahneman qui postule que les humains ont un cerveau intuitif rapide et un cerveau réfléchi lent.

Helix de Figure AI a rendu cette conception classique, et maintenant elle (et ses variantes) est copiée presque partout. De façon particulièrement importante, le GR00T N1.7 de NVIDIA utilise ce design, et la plupart des robots humanoïdes chinois également. La structure est la suivante :

Système 2 (S2) : le cerveau lent réfléchi. Un modèle visio-langagier à 7 milliards de paramètres, fonctionnant à environ 7–9 Hz (c'est-à-dire 7 à 9 fois par seconde). Son travail est d'observer la scène, d'analyser l'instruction, de faire un raisonnement en plusieurs étapes (par exemple, "le bol est derrière la boîte de céréales ; je dois d'abord déplacer la boîte"), et d'émettre une intention de haut niveau – généralement un ensemble de vecteurs internes compacts, pas des mots.
Système 1 (S1) : le cerveau réactif rapide. Une politique visuo-motrice beaucoup plus petite (environ 80 millions de paramètres), fonctionnant à 200 Hz. Elle prend le vecteur d'intention du S2 plus les dernières données des capteurs, et produit des commandes articulaires continues. Elle ne "pense" pas vraiment, elle réagit.

Récemment, Helix-02 de Figure a ajouté un Système 0. Il se trouve sous le double cerveau, c'est une couche réflexe, pas une troisième couche cognitive. C'est un réseau de 10 millions de paramètres fonctionnant à 1 kHz, qui gère l'équilibre basique et la coordination corporelle, remplaçant plus de 100 000 lignes de code C++ de contrôle du mouvement écrit à la main. Vous pouvez voir le S0 comme une moelle épinière apprise : il ne raisonne ni ne planifie, il maintient juste le corps debout et coordonné, tandis que la réflexion est faite par le double cerveau au-dessus.

L'architecture du double cerveau d'un robot humanoïde moderne : le Système 2 pense lentement, le Système 1 réagit vite – et en dessous, un Système 0 réflexe pour l'équilibre, le contact tactile et la coordination corporelle

Cette division vient des contraintes de la physique. Si on émet une commande de mouvement seulement toutes les 200 millisecondes (la vitesse d'un grand VLA), le robot se déplace comme sous l'eau. Les commandes de mouvement doivent être mises à jour plus vite que l'oscillation naturelle des articulations qu'elles contrôlent, ce qui signifie des centaines ou milliers d'updates par seconde. Aucun Transformer à 7 milliards de paramètres ne peut tourner aussi vite sur un robot alimenté par batterie.

Ainsi, la charge cognitive est divisée : le gros modèle lent pense ; le petit modèle rapide agit. Ils ne communiquent pas en anglais, mais via des vecteurs latents appris : le modèle lent émet un objectif abstrait, et le modèle rapide sait comment l'interpréter.

VI : Le cloud, le edge computing et la question de l'emplacement du "cerveau"

Où se fait réellement tout ce calcul ?

Il y a aujourd'hui un quasi-consensus fort, presque idéologique, parmi les équipes robotiques : les boucles de contrôle critiques pour la sécurité doivent fonctionner localement. Deux raisons :

La latence. Le temps d'aller-retour en WiFi ou réseau cellulaire est de 30-80 ms même dans les meilleurs cas. Les commandes d'action ont besoin d'être mises à jour toutes les 1-5 ms. Une boucle réseau ne peut tout simplement pas fonctionner.

La fiabilité. Les robots fonctionnent dans des usines, entrepôts, cuisines, hôpitaux. Le réseau peut tomber à tout moment. Si le robot s'arrête dès que le Wi-Fi est coupé, c'est un danger.

Ainsi, la division moderne est grossièrement la suivante :

Embarqué (local), fonctionnant sur un module comme NVIDIA Jetson Thor ou AGX Thor (environ 2 000 TFLOPS, 128 Go de RAM, 40–130 W de consommation) :

Tout S0/S1 : équilibre, locomotion, contrôle des mouvements fins.
Le VLA lui-même (Système 2), de plus en plus quantifié en FP8 ou FP4 pour tenir dans les contraintes matérielles. Les modèles de 2 à 7 milliards de paramètres peuvent tourner sur l'appareil aujourd'hui.
La perception, la fusion de capteurs, et tout programme de surveillance de sécurité couvrant le reste.

Cloud ou serveur distant (si présent) :

Interface conversationnelle ("Hé robot, qu'est-ce que je devrais préparer pour le dîner ?") : celles-ci peuvent tolérer la latence.
Apprentissage en essaim : des milliers de robots envoient des données de télé-opération à un serveur pour être agrégées dans la version suivante du modèle.
Planification à long terme à grande échelle, peut-être avec des modèles à l'état de l'art.
Tableau de bord et monitoring de l'opérateur.

Il y a aussi une couche intermédiaire grandissante : des serveurs edge locaux dans l'usine ou l'entrepôt, parlant au cluster de robots via un réseau local avec une latence à un chiffre de ms. Des LLM plus grands pourraient vivre à ce niveau, faisant de la planification de haut niveau que chaque robot n'a pas besoin de gérer seul.

C'est sur cette hypothèse que la vague chinoise de robots humanoïdes est construite : Unitree, AgiBot, XPeng IRON, Fourier, EngineAI. Leurs robots embarquent du calcul (souvent Jetson, parfois des puces chinoises comme Huawei Ascend), le cloud étant utilisé pour l'apprentissage en essaim et l'interface conversationnelle, pas pour la boucle de contrôle.

Où le cerveau du robot fonctionne réellement : les boucles critiques pour la sécurité fonctionnent localement, le cloud pour ce qui peut attendre

VII : Pourquoi les modèles open source deviennent discrètement le point central

Si vous ne regardez que les démos, vous pourriez penser que le domaine est dominé par quelques entreprises américaines bien financées. Mais la réalité est plus complexe. La vitesse de développement de l'IA physique est en grande partie déterminée par des modèles open source dont les poids peuvent être téléchargés et affinés par n'importe qui.

La liste qui suit n'est pas longue, mais significative :

OpenVLA (Stanford) : le premier modèle robotique généraliste open source à 7B.
NVIDIA Isaac GR00T (N1, N1.5, N1.7) : les poids ouverts sont à venir, licence commerciale à venir, formé sur des dizaines de milliers d'heures de vidéo à la première personne humaine. GR00T N1.7 est sorti en mars 2026, permettant à tout utilisateur avec un humanoïde d'utiliser son architecture à double système gratuitement.
π0 de Physical Intelligence : poids publiés pour la recherche.
NVIDIA Cosmos : un modèle de base du monde ouvert.
AgiBot World : un immense jeu de données open source d'une startup de Shanghai, contenant des démonstrations de télé-opération de robots humanoïdes.
LeRobot de Hugging Face : une librairie ouverte, devenue le point de convergence de toutes les plateformes ci-dessus.
mimic-video de Mimic robotics : un modèle vidéo-action open source, 10 fois plus efficace en échantillons que les VLA traditionnels.

C'est important pour deux raisons. D'abord, une startup en robotique n'a pas à dépenser des dizaines de millions pour pré-entraîner un modèle de base : elle peut prendre GR00T ou π0, et l'affiner avec les données de son propre robot. C'est ce que font Unitree, EngineAI, Booster, Galbot, et des dizaines de petites entreprises chinoises. C'est pourquoi une entreprise de quelques centaines d'employés peut produire un humanoïde qui marche, parle et plie du linge : elle se tient sur les épaules d'une pile technologique open source.

Ensuite, les modèles open source sont le seul moyen réaliste de résoudre les problèmes de sécurité. Si un modèle complètement fermé fonctionne dans un robot sur un sol d'usine, sans aucune visibilité sur sa logique de raisonnement, c'est un cauchemar réglementaire. Les modèles ouverts permettent aux auditeurs, chercheurs et opérateurs d'inspecter réellement ce sur quoi le robot a été entraîné.

VIII : Quels problèmes ne sont toujours pas résolus

Si vous avez vu assez de vidéos de démonstration de robots, vous en avez aussi vu beaucoup d'échecs. La génération actuelle de robots LLM+VLA est impressionnante, mais présente clairement des limites. Voici ses problèmes :

La récupération en cours de tâche. Les VLA sont meilleurs que toute technologie précédente pour gérer les changements inattendus. Mais quand les choses tournent vraiment mal (saisie ratée, objet qui roule, quelqu'un qui entre dans la zone de travail), retrouver le bon chemin reste un point faible. Le robot répète bêtement l'action qui a échoué.
L'efficacité en échantillons. Former un VLA de zéro nécessite des dizaines de milliers d'heures de données de télé-opération. Un humain apprend à utiliser un nouvel outil en quelques minutes. L'écart d'efficacité est énorme.
La généralisation inter-entités. Un modèle entraîné sur un bras Franka au labo de Stanford ne transfère pas parfaitement à un robot humanoïde Unitree dans un entrepôt de Shenzhen. Les corps sont physiquement différents.
Les tâches longues. Tout comportement cohérent sur plus de 30-60 secondes, avec de multiples sous-objectifs, a tendance à dériver. "Prépare-moi le petit-déjeuner" reste hors de portée.
Le bon sens physique. Les VLA sont entraînés par imitation, pas par compréhension. Ils ne comprennent pas réellement que l'eau se renverse si on heurte un verre. Ils ont juste vu des exemples et prédisent ce qui vient ensuite par correspondance de motifs.
Le raisonnement spatial. Bien que multimodaux, ils sont étonnamment faibles pour des tâches comme "contourner l'obstacle plutôt que de passer à travers" ou "empiler ces choses sans qu'elles tombent".

Cette dernière série de faiblesses est ce qui pousse le domaine à parier sur un type de modèle radicalement différent.

IX : Les modèles du monde

Imaginons : et si au lieu d'entraîner un robot à prédire une action, on l'entraînait à prédire les conséquences d'une action ?

Un modèle du monde (World Model) est un réseau neuronal qui prédit à quoi ressemblera le monde ensuite, étant donné son état actuel (généralement une vidéo ou une séquence de trames) et une action proposée. En termes simples, voyez-le comme un prédicteur vidéo apprenant avec un volant. Vous lui donnez la dernière seconde de flux de caméra, et dites-lui "le robot bouge son bras de 10 cm vers l'avant", et il génère une vidéo réaliste prédisant la seconde suivante.

Pourquoi est-ce important ?

Parce qu'avec un modèle du monde, un robot peut penser avant d'agir. Il peut imaginer trois ou quatre actions candidates différentes, prédire leurs résultats, les noter, et choisir la meilleure. Tout cela avant que le moteur ne bouge. C'est exactement comment fonctionne un moteur d'échecs : il ne mémorise pas les coups, il simule le futur. Nous n'avons jamais eu cette capacité en robotique physique auparavant, parce que nous n'avions jamais eu de modèle assez précis pour simuler la complexité du monde réel.

Les modèles du monde permettent aux robots de simuler plusieurs futurs possibles, de les noter, et de choisir le meilleur avant que le moindre moteur ne démarre

À quoi ressemblent les modèles du monde en 2026 ?

L'état de l'art actuel est varié mais évolue rapidement. Voici quelques modèles :

NVIDIA Cosmos : une famille de modèles de base du monde ouvert, incluant Cosmos Predict 2.5 (génératif), Cosmos Transfer 2.5 (simulation contrôlable), Cosmos Reason 2 (raisonneur visio-langagier pour robots) et le plus récent Cosmos Policy. Cosmos Policy va plus loin en affinant un modèle du monde pour sortir directement des actions pour le contrôle. Cosmos est entraîné sur des dizaines de milliers d'heures GPU de données vidéo (Cosmos Predict 2.5 est le modèle du monde dans la famille).
DeepMind Genie 3 : un modèle du monde interactif qui peut générer des environnements entièrement navigables à partir d'indications textuelles, à 24 ips, et rester stable pendant des minutes. Conçu initialement pour les jeux.
Meta V-JEPA 2 : pré-entraîné sur plus d'un million d'heures de vidéos web, puis conditionné avec seulement 62 heures de vidéos robotiques. Atteint 80% de taux de succès en ramassage-dépose zero-shot sur de vrais bras robotiques dans différents labos. L'approche "JEPA" est architecturalement différente des autres.
DeepMind Dreamer 4 : a appris à collecter des diamants dans Minecraft (une tâche de 20k pas) en utilisant uniquement des données hors ligne, sans aucune interaction avec l'environnement. Preuve qu'un vrai apprentissage par renforcement est possible dans un monde virtuel.
Genie Envisioner d'AgiBot : une plateforme de modèle du monde unifié chinoise, entraînée sur plus de 3000 heures de vidéos de télé-opération de robots humanoïdes réels. Elle peut générer à la fois des trajectoires prédites et des trajectoires d'action exécutables. AgiBot utilise NVIDIA Cosmos Predict 2 comme tronc, affiné avec ses propres données. C'est exactement le schéma "pile open source + données propres" décrit précédemment.
Le modèle du monde de Toyota Research basé sur Cosmos : pour l'augmentation de données de télé-opération et la navigation.

Les six modèles du monde les plus importants de 2025-2026, chacun proposant une vision différente de comment une machine devrait apprendre la physique.

X : Architectures alternatives, car le domaine n'est pas encore tranché

Il n'y a pas de manière standard de construire un modèle du monde. Le débat architectural est l'une des discussions les plus intéressantes en IA aujourd'hui, et il affecte directement ce que les robots pourront faire à l'avenir. Trois écoles méritent d'être suivies :

Diffusion vidéo au niveau pixel (école Cosmos/Sora) : Utilise un modèle de diffusion pour prédire les pixels réels des futures trames. Avantage : peut servir de générateur de données synthétiques, peut rendre de nouvelles démonstrations robotiques qui ne se sont jamais produites. Inconvénient : coûteux, parfois enfreint la physique, et prédire des pixels qu'on ne verra jamais est un gaspillage.

Architecture de prédiction d'embedding conjoint, ou JEPA (école LeCun) : Ne prédit pas les pixels, prédit l'embedding abstrait de la trame suivante. Rejette les détails texturés, ne garde que l'essence sémantique de ce qu'il y a dans la scène. Avantage : efficace, se concentre sur ce qui importe pour l'action. Inconvénient : difficile à utiliser. V-JEPA, V-JEPA 2 et de nouveaux modèles hybrides JEPA-VLA explorent cet espace.

Modèles du monde à action latente (école Genie/Dreamer) : Apprend à compresser des vidéos entières dans un "langage d'action" latent qui capture la structure du comportement, puis entraîne un modèle du monde à prédire le prochain état latent étant donné la prochaine action latente. Avantage : permet d'utiliser des vidéos web sans action pour l'entraînement, puis d'ajouter un peu de données robotiques réelles. Inconvénient : les actions latentes ne sont pas interprétables par les humains, l'analyse de sécurité devient complexe.

Diffusion de pixels, JEPA et action latente : même objectif, des façons radicalement différentes de construire un modèle du monde

XI : L'application pratique des robots basés sur un modèle du monde

Si on avance de quelques années, l'architecture d'un robot humanoïde de pointe pourrait ressembler à ceci :

Un VLA avec un modèle du monde au-dessus. Quand le robot rencontre une nouvelle situation, il exécute quelque chose comme ceci :

Le VLA propose quelques actions candidates possibles (il reste la politique).
Le modèle du monde prend chaque action candidate et simule 1-3 secondes de vidéo hypothétique.
Un évaluateur de valeur note les résultats imaginés : la tasse a-t-elle été saisie ? Quelque chose est-il tombé ? Une personne a-t-elle été touchée ?
Le robot choisit l'action avec le score le plus élevé et n'exécute que sa première partie.
Les données réelles des capteurs reviennent ; la boucle se répète.

C'est le contrôle prédictif par modèle, une technique utilisée pendant des années pour stabiliser des fusées et des quadricoptères, mais en remplaçant les équations physiques dérivées à la main par un modèle du monde appris. Son évolutivité vient du fait que le modèle du monde est pré-entraîné sur des millions d'heures de vidéo, et non parce que quelqu'un a écrit les équations de Navier-Stokes pour une cuisine.

Les bénéfices s'empilent :

Meilleure récupération. Si une saisie échoue, le modèle du monde peut imaginer plusieurs chemins de correction et choisir le plus prometteur.
Meilleure généralisation. Un modèle du monde entraîné sur des vidéos web a vu plus de "phénomènes physiques" que n'importe quel jeu de données de télé-opération robotique, par plusieurs ordres de grandeur.
Planification à long terme viable. Planifier dans l'imagination, pas dans la réalité.
Réduction du fossé simulation-réalité. Avant, il fallait s'entraîner dans son propre simulateur (par exemple Isaac Sim, Newton Physics Engine) et espérer que cela se transfère. Maintenant, on peut s'entraîner dans un simulateur qui a appris à correspondre à de vraies vidéos. Le fossé est donc plus petit.
Explosion des données synthétiques. Un modèle du monde peut générer des millions de trajectoires robotiques différentes, avec différents éclairages, matériaux et configurations d'objets, pratiquement gratuitement. Cela résout l'un des plus grands goulots d'étranglement du domaine.

Il a aussi un avantage de sécurité important. Un robot capable de simuler les conséquences d'une action peut refuser d'exécuter une action dangereuse : pas à cause d'une règle codée en dur, mais parce qu'il a prévu que quelqu'un pourrait être blessé dans le futur.

Deux façons de se déplacer : le VLA réagit à ce qu'il voit ; le robot avec modèle du monde pense avant de bouger

XII : Ce qu'il faut aussi savoir

Le problème des données est le vrai problème central : Toutes les innovations architecturales du monde ne servent à rien si vous ne pouvez pas alimenter le modèle. Actuellement, la télé-opération (un humain portant un casque VR contrôlant le robot comme une marionnette) est le principal goulot d'étranglement technique. Le fossé concurrentiel d'une entreprise robotique dépend de plus en plus de son pipeline d'acquisition de données, pas du modèle lui-même. AgiBot a construit des entrepôts remplis d'opérateurs. La loi d'échelle de dextérité du NVIDIA GR00T N1.7 montre que plus de vidéos à la première personne humaine améliore directement et prédictiblement la dextérité du robot. C'est aussi une zone où la Chine a un avantage structurel : coût de la main-d'œuvre pour la collecte de données plus faible, environnement de déploiement plus permissif, et l'État coordonnant activement la chaîne d'approvisionnement.

La simulation est un univers parallèle. Isaac Sim de NVIDIA, le nouveau moteur physique open source Newton (la version 1.0 sortira officiellement en avril 2026), et la plateforme Omniverse, permettent aux entreprises d'entraîner des robots dans des millions d'environnements simulés en parallèle sans les déployer dans le monde réel. La plupart de ce qui semble être de "l'intelligence robotique" est en fait cultivé en simulation puis transféré sur le matériel.

L'économie commence à apparaître. Unitree a livré environ 5500 robots humanoïdes en 2025 et prévoit 10k à 20k en 2026. Le prix moyen est passé de 85k à 25k USD en deux ans. L'Unitree R1 se vend 5900 USD. Le Noetix Bumi est lancé à 1400 USD. Le matériel des robots humanoïdes s'approche des prix de l'électronique grand public, tandis que l'IA à l'intérieur est encore en retard sur les démos. Cet écart va se combler, et lorsque cela arrivera, l'effet d'échelle du marché sera prononcé.

Les modes de défaillance sont étranges. Lorsque les robots basés sur des LLM échouent, ils le font souvent d'une manière que les robots traditionnels ne pouvaient pas. Par exemple, faire confiance en faisant une erreur, percevoir "hallucinatoirement" une fonctionnalité, s'enfermer dans une boucle de conversation avec son propre planificateur. Le monde de la robotique traditionnelle est assez sceptique, avec raison, insistant sur le fait que les systèmes apprenants doivent être surveillés par la sécurité et contraints par le comportement. Les robots déployés les plus fiables aujourd'hui sont hybrides : un cerveau VLA placé dans une cage de sécurité conçue à la main.

Le récit du "moment ChatGPT" est une métaphore utile mais trompeuse : Jensen Huang a dit à tout le monde que le moment ChatGPT pour les robots est arrivé. Il le dit parce que NVIDIA vend des pelles et des pioches. La version plus honnête est : Nous en sommes à peu près à l'ère GPT-2 de l'IA physique. C'est puissant, ça peut vous impressionner ; mais pas assez pour être déployé sans surveillance. Ça évolue rapidement, mais ce n'est pas encore un point d'inflexion viral, c'est une trajectoire ascendante lente et régulière.

Conclusion

L'évolution des quadrupèdes Unitree (de droite à gauche)

Dans la démonstration vue au bureau d'Unitree, cinq robots humanoïdes G1 exécutaient des arts martiaux, leurs mouvements chorégraphiés, leur contrôleur de type VLA embarqué ajustant finement, un opérateur de télé-opération s'assurant que tout se passe bien. Il n'était pas fondamentalement autonome. Mais l'ensemble du pipeline : perception, planification, contrôle du mouvement, était remplacé par des réseaux neuronaux. Deux ans plus tard, le même robot fera le même mouvement sans chorégraphie, parce qu'il aura pré-imaginé le mouvement entier et choisi la meilleure version.

Tout le développement décrit ici : des contrôleurs écrits à la main, à la perception par apprentissage automatique, au planificateur LLM, au VLA, à l'architecture à double système, et enfin au modèle du monde, est en fait un lent déplacement de l'endroit où se trouve l'intelligence robotique. Cela a commencé dans l'esprit de l'ingénieur, puis est devenu du code écrit à la main, puis est passé dans la couche de perception, dans le planificateur, dans la politique. Et maintenant, il se dirige enfin vers des modèles qui apprennent le monde lui-même.

Chaque transition a rendu les robots plus généraux, plus adaptables, plus utiles. Si la transition vers les modèles du monde fonctionne, elle donnera vraiment aux robots des capacités profondes : assez profondes pour que la question ne soit plus "Que peuvent faire les robots ?", mais "Que devrions-nous les laisser faire ?"

Lecture connexe : Un inventaire de plus de 30 entreprises de robots humanoïdes : Qui l'emportera en 2026 ?

Questions liées

QComment fonctionnaient les robots avant l'ère des LLM, et quelles étaient leurs principales limitations ?

AAvant l'ère des LLM, les robots fonctionnaient avec des piles de logiciels codés à la main, comme des contrôles PID, des algorithmes de planification de trajectoire (A*, RRT) et des arbres comportementaux. Leurs principales limitations étaient un manque total de capacité de généralisation : ils ne pouvaient fonctionner que dans des environnements et pour des tâches spécifiquement prévues par les ingénieurs. Face à une situation nouvelle (un nouvel objet, un éclairage différent), ils échouaient.

QQuelle est la différence fondamentale entre un modèle VLA (Vision-Language-Action) et l'utilisation d'un LLM comme planificateur pour un robot ?

ALa différence fondamentale réside dans l'intégration. Un LLM utilisé comme planificateur génère une séquence de compétences ou d'actions de haut niveau (ex: 'aller à la cuisine', 'saisir la tasse') qui sont ensuite exécutées par des contrôleurs séparés. Un modèle VLA, lui, fusionne la perception (vision), la compréhension (langage) et l'action en un seul réseau neuronal. Il ingère directement les images de la caméra et l'instruction en langage naturel, et produit en sortie les commandes de mouvement précises pour les articulations, unifiant ainsi le raisonnement et l'action.

QQu'est-ce que l'architecture 'double cerveau' (Système 1 / Système 2) dans les robots humanoïdes modernes, et pourquoi est-elle nécessaire ?

AL'architecture 'double cerveau' sépare la cognition rapide de la lente. Le Système 2 (S2) est un grand modèle visio-linguistique (ex: 7B paramètres) qui raisonne lentement (7-9 Hz), analyse la scène et génère des intentions de haut niveau. Le Système 1 (S1) est un petit modèle visuomoteur (ex: 80M paramètres) qui réagit très vite (200 Hz), prenant les intentions de S2 et les données sensorielles pour produire des commandes motrices fluides. Cette division est nécessaire pour des raisons physiques : un grand modèle ne peut pas tourner assez vite pour un contrôle moteur fluide, et un petit modèle seul manquerait de capacités de raisonnement complexes.

QQu'est-ce qu'un 'modèle du monde' (World Model) en robotique, et en quoi pourrait-il représenter une avancée majeure par rapport aux VLA ?

AUn 'modèle du monde' est un réseau neuronal qui apprend à prédire les conséquences des actions. Au lieu de prédire directement une action comme un VLA, il prédit comment l'état du monde (souvent sous forme de séquence vidéo) va évoluer suite à une action hypothétique. L'avancée majeure est qu'il permet au robot de 'penser avant d'agir' : il peut simuler mentalement plusieurs actions candidates, évaluer leurs résultats potentiels, et choisir la meilleure. Cela améliore la reprise après erreur, la planification à long terme et la généralisation, car le modèle est entraîné sur une quantité massive de vidéos du monde réel.

QQuel est le rôle des modèles open-source dans l'évolution rapide de la robotique, particulièrement en Chine ?

ALes modèles open-source (comme OpenVLA, GR00T N1.7, π0) sont un accélérateur crucial. Ils permettent aux startups robotiques, sans les ressources pour pré-entraîner un modèle de base de zéro, de se baser sur ces 'cerveaux' génériques puissants et de les affiner (fine-tuning) avec leurs propres données de démonstration. C'est la stratégie adoptée par de nombreuses entreprises chinoises (Unitree, AgiBot, etc.). Cela réduit considérablement les coûts et le temps de développement, démocratisant l'accès à une IA robotique de pointe et permettant une innovation et une commercialisation plus rapides.

Lectures associées

Zcash subit un effondrement historique alors que des milliards s'évaporent de sa valorisation boursière

Le marché des cryptomonnaies a été secoué par un effondrement dramatique du prix du Zcash, l'actif numérique axé sur la confidentialité perdant plus de la moitié de sa valeur en 24 heures. Cette chute a éliminé des milliards de dollars de sa capitalisation boursière. Le déclin pourrait être lié à la peur entourant une vulnérabilité récemment révélée affectant l'infrastructure de confidentialité du réseau. Un chercheur a identifié un bug permettant potentiellement de créer de faux ZEC, bien que celui-ci ait été corrigé. Le problème fondamental est que la conception privée de Zcash rend impossible la vérification de l'intégrité de l'offre totale, contrairement au Bitcoin. Cette situation souligne le compromis entre confidentialité et transparence. L'équipe de développement souligne que des chercheurs de classe mondiale travaillent constamment à renforcer le réseau, considérant la découverte de cette vulnérabilité comme un signe positif de ce processus de sécurisation actif. Une mise à niveau du réseau est envisagée pour permettre la vérification de l'offre totale et restaurer la confiance.

bitcoinistIl y a 1 h

Zcash subit un effondrement historique alors que des milliards s'évaporent de sa valorisation boursière

bitcoinistIl y a 1 h

La narration du BTC en tant qu'« or numérique » a-t-elle échoué ?

**Résumé en français :** L'article aborde la récente chute brutale du Bitcoin (plus de 50% depuis son pic de 2025) pour explorer la solidité de son récit de "l'or numérique". L'auteur développe trois points principaux. **1. La nature de l'actif Bitcoin :** Il est présenté comme une catégorie d'actif nouvelle et potentiellement supérieure à l'or physique en raison de son plafond fixe (21 millions), de sa facilité de transfert et de sa traçabilité sur la blockchain. L'auteur souligne son stade encore précoce (taux de pénétration ~3-4%), similaire à Internet dans les années 2000, ce qui explique une volatilité extrême. **2. Comprendre la correction actuelle :** Cette chute est interprétée comme une vente cyclique prévisible post-halving (2024), amplifiée par un "grand transfert" historique. L'arrivée des ETF a permis aux investisseurs institutionnels d'entrer, incitant les premiers détenteurs (miners, early adopters) à réaliser leurs bénéfices. L'auteur note que l'amplitude des baisses historiques diminue (93% → ~50%), signe d'une maturation et d'une diversification des détenteurs. **3. Perspective à long terme :** Le potentiel est évalué par rapport à la capitalisation boursière de l'or (~20 000 Md$). Même si le Bitcoin n'en captait que 30 à 50%, sa valorisation actuelle (~1 400 Md$) laisse une marge de hausse significative. Le véritable risque n'est pas la disparition du Bitcoin, mais une mauvaise gestion de portefeuille (effet de levier, allocation excessive) ou un manque de conviction qui empêcherait de supporter les fortes volatilités. **Conclusion :** L'auteur compare cette phase à la chute d'Amazon après la bulle internet. La question n'est pas de savoir si le Bitcoin va augmenter, mais si l'investisseur a la structure et la conviction pour survivre aux turbulences. La divergence actuelle entre la performance de l'or et celle du Bitcoin refléterait moins un échec du récit qu'une période nécessaire de transition et de consolidation vers un actif de placement mature.

marsbitIl y a 1 h

La narration du BTC en tant qu'« or numérique » a-t-elle échoué ?

marsbitIl y a 1 h

Le récit du Bitcoin en tant qu'« or numérique » a-t-il échoué ?

L'auteur Jason propose un cadre de réflexion sur le bitcoin, en abordant trois points essentiels. Il voit le bitcoin comme un nouvel actif, une forme de « digital gold » supérieur sur le long terme : offre fixe à 21 millions d'unités, transferabilité facile et vérifiabilité totale via la blockchain. Comparant sa pénétration actuelle (3-4%) à celle d'internet ou du e-commerce à leurs débuts, il souligne son potentiel de croissance, tout en rappelant sa très grande volatilité inhérente à ce stade précoce. Concernant la récente forte baisse (de 126 000 $ à environ 61 000 $), il l'interprète comme une vente cyclique attendue après le pic post-réduction de moitié (« halving ») de 2024, et surtout comme un « grand transfert » historique des premiers détenteurs vers les nouveaux investisseurs institutionnels via les ETF. Il note que l'amplitude des corrections historiques diminue (de -93% en 2011 à -50% actuellement), signe d'une maturité croissante de l'actif. Sur le long terme, en comparant la capitalisation du bitcoin (environ 7% de celle de l'or), il estime que son potentiel de hausse reste important si le récit d'« or numérique » se réalise, même partiellement. Il met cependant en garde : le risque principal n'est pas que le bitcoin échoue, mais une mauvaise gestion du portefeuille (position trop importante, effet de levier) ou un manque de compréhension profonde de l'actif, qui pourraient forcer une sortie prématurée lors des fortes corrections. La clé, comme pour Amazon après l'éclatement de la bulle internet, est de « survivre » assez longtemps pour bénéficier de la tendance à long terme.

链捕手Il y a 2 h

Le récit du Bitcoin en tant qu'« or numérique » a-t-il échoué ?

链捕手Il y a 2 h

La bulle de l'IA est en train d'éclater

Le titre "La bulle de l'IA est en train d'éclater" reflète les discussions actuelles sur une potentielle surévaluation du secteur. Des figures comme Ray Dalio de Bridgewater évoquent une bulle "relativement élevée", tandis que Jensen Huang de NVIDIA souligne le potentiel de croissance de la demande en capacité de calcul. L'article compare cette situation à la bulle Internet des années 2000. Bien que celle-ci ait provoqué un krach, les infrastructures construites à l'époque (câbles sous-marins, réseaux) ont ensuite permis l'émergence de géants comme Amazon, Netflix ou le cloud. De même, les investissements massifs actuels dans l'infrastructure AI (data centers, refroidissement, énergie), estimés à 5 300 milliards de dollars d'ici 2030, pourraient jeter les bases d'une transformation durable. Un paradoxe clé est observé : le coût de l'intelligence artificielle s'effondre (baisse de >99,7% du coût par token entre 2023 et 2025), mais les dépenses des entreprises en cloud AI ont triplé. Ceci s'explique par la "Paradoxe de Jevons" appliquée à l'IA : une efficacité accrue et un coût réduit déclenchent une explosion de la demande et de nouveaux cas d'usage (agents autonomes, RAG, multimodale), intégrant l'IA dans tous les secteurs. La bulle se dégonfle déjà au niveau des startups sans réelle innovation. Le marché entre dans une phase de maturation où la valeur migre des dépenses d'investissement (CapEx) vers les applications qui optimisent les dépenses opérationnelles (OpEx). La consolidation est inévitable, éliminant les acteurs superficiels. En conclusion, comme pour Internet, une correction du marché est probable, mais elle nettoiera le terrain. Les investissements en infrastructure et la baisse radicale du coût de l'"intelligence" préparent l'avènement d'une ère où l'IA+ sera omniprésente, transformant fondamentalement tous les secteurs industriels. La bulle spéculative passera, mais l'élan de la productivité sous-jacente, lui, est bien réel.

链捕手Il y a 2 h

La bulle de l'IA est en train d'éclater

Ces derniers jours, des turbulences sur les marchés ont ravivé les débats sur une « bulle de l'IA ». Des figures comme Ray Dalio de Bridgewater évoquent un niveau de surévaluation « relativement élevé », tandis que Jensen Huang de NVIDIA souligne que la demande en capacité de calcul ne fait que commencer. Les deux ont raison. Une comparaison avec la bulle Internet des années 2000 est pertinente. Malgré l'effondrement de l'époque, les infrastructures physiques excédentaires et bon marché ont ensuite permis l'émergence des géants d'aujourd'hui. C'est la loi d'Amara : on surestime l'impact à court terme d'une technologie, mais on sous-estime son impact à long terme. La bulle actuelle de l'IA semble similaire. En 2026, les cinq grands fournisseurs de cloud prévoient des dépenses en capital de 690 milliards de dollars, largement consacrées aux infrastructures physiques (refroidissement, énergie, réseau), tandis que les revenus combinés des principaux acteurs purs de l'IA devraient atteindre environ 40 milliards de dollars. Cependant, un point clé est souvent négligé : le coût de l'intelligence s'effondre. Entre mars 2023 et avril 2025, le prix par million de tokens pour un niveau d'intelligence similaire est passé d'environ 30 dollars à 0,1-0,15 dollars, une baisse de plus de 99,7%. Paradoxalement (paradoxe de Jevons), cela a entraîné une explosion de la demande et des dépenses des entreprises, car une intelligence quasi gratuite a débloqué une multitude de nouveaux cas d'usage (agents intelligents, analyse de documents, simulations). Le marché est donc en pleine correction, éliminant les startups sans réelle valeur ajoutée. Trois évolutions profondes sont en cours : 1) le transfert de valeur des dépenses d'investissement (CapEx) vers les gains d'exploitation (OpEx) dans les applications verticales, 2) la digestion des valorisations élevées par une croissance rapide des bénéfices dans les infrastructures, et 3) l'adoption tangible de l'IA dans tous les secteurs (industrie, finance, droit, santé), où elle devient un outil indispensable. En définitive, si une bulle spéculative se dégonfle, l'élan fondamental de la productivité, lui, est bien réel. Nous nous dirigeons irréversiblement vers une ère où toutes les industries seront transformées et alimentées par l'IA, à l'image de la révolution Internet passée.

marsbitIl y a 2 h

Trading

Spot

Futures

Articles tendance

Qu'est ce que GROK AI

Grok AI : Révolutionner la technologie conversationnelle à l'ère du Web3 Introduction Dans le paysage en évolution rapide de l'intelligence artificielle, Grok AI se distingue comme un projet remarquable qui fait le lien entre les domaines de la technologie avancée et de l'interaction utilisateur. Développé par xAI, une entreprise dirigée par l'entrepreneur renommé Elon Musk, Grok AI cherche à redéfinir notre engagement avec l'intelligence artificielle. Alors que le mouvement Web3 continue de prospérer, Grok AI vise à tirer parti de la puissance de l'IA conversationnelle pour répondre à des requêtes complexes, offrant aux utilisateurs une expérience à la fois informative et divertissante. Qu'est-ce que Grok AI ? Grok AI est un chatbot IA conversationnel sophistiqué conçu pour interagir dynamiquement avec les utilisateurs. Contrairement à de nombreux systèmes d'IA traditionnels, Grok AI embrasse une gamme plus large de questions, y compris celles généralement jugées inappropriées ou en dehors des réponses standard. Les objectifs principaux du projet incluent : Raisonnement fiable : Grok AI met l'accent sur le raisonnement de bon sens pour fournir des réponses logiques basées sur une compréhension contextuelle. Surveillance évolutive : L'intégration de l'assistance par outils garantit que les interactions des utilisateurs sont à la fois surveillées et optimisées pour la qualité. Vérification formelle : La sécurité est primordiale ; Grok AI intègre des méthodes de vérification formelle pour améliorer la fiabilité de ses résultats. Compréhension à long terme : Le modèle IA excelle dans la rétention et le rappel d'une vaste histoire de conversation, facilitant des discussions significatives et conscientes du contexte. Robustesse face aux adversaires : En se concentrant sur l'amélioration de ses défenses contre les entrées manipulées ou malveillantes, Grok AI vise à maintenir l'intégrité des interactions des utilisateurs. En essence, Grok AI n'est pas seulement un dispositif de récupération d'informations ; c'est un partenaire conversationnel immersif qui encourage un dialogue dynamique. Créateur de Grok AI Le cerveau derrière Grok AI n'est autre qu'Elon Musk, une personne synonyme d'innovation dans divers domaines, y compris l'automobile, le voyage spatial et la technologie. Sous l'égide de xAI, une entreprise axée sur l'avancement de la technologie IA de manière bénéfique, la vision de Musk vise à remodeler la compréhension des interactions avec l'IA. Le leadership et l'éthique fondatrice sont profondément influencés par l'engagement de Musk à repousser les limites technologiques. Investisseurs de Grok AI Bien que les détails spécifiques concernant les investisseurs soutenant Grok AI restent limités, il est publiquement reconnu que xAI, l'incubateur du projet, est fondé et soutenu principalement par Elon Musk lui-même. Les précédentes entreprises et participations de Musk fournissent un soutien solide, renforçant encore la crédibilité et le potentiel de croissance de Grok AI. Cependant, à l'heure actuelle, les informations concernant d'autres fondations d'investissement ou organisations soutenant Grok AI ne sont pas facilement accessibles, marquant un domaine à explorer potentiellement à l'avenir. Comment fonctionne Grok AI ? Les mécanismes opérationnels de Grok AI sont aussi innovants que son cadre conceptuel. Le projet intègre plusieurs technologies de pointe qui facilitent ses fonctionnalités uniques : Infrastructure robuste : Grok AI est construit en utilisant Kubernetes pour l'orchestration de conteneurs, Rust pour la performance et la sécurité, et JAX pour le calcul numérique haute performance. Ce trio garantit que le chatbot fonctionne efficacement, évolue efficacement et sert les utilisateurs rapidement. Accès aux connaissances en temps réel : L'une des caractéristiques distinctives de Grok AI est sa capacité à puiser dans des données en temps réel via la plateforme X—anciennement connue sous le nom de Twitter. Cette capacité permet à l'IA d'accéder aux dernières informations, lui permettant de fournir des réponses et des recommandations opportunes que d'autres modèles d'IA pourraient manquer. Deux modes d'interaction : Grok AI offre aux utilisateurs un choix entre le « Mode Amusant » et le « Mode Régulier ». Le Mode Amusant permet un style d'interaction plus ludique et humoristique, tandis que le Mode Régulier se concentre sur la fourniture de réponses précises et exactes. Cette polyvalence garantit une expérience sur mesure qui répond à diverses préférences des utilisateurs. En essence, Grok AI marie performance et engagement, créant une expérience à la fois enrichissante et divertissante. Chronologie de Grok AI Le parcours de Grok AI est marqué par des jalons clés qui reflètent ses étapes de développement et de déploiement : Développement initial : La phase fondamentale de Grok AI a eu lieu sur une période d'environ deux mois, au cours de laquelle l'entraînement initial et le réglage du modèle ont été réalisés. Lancement de la version bêta de Grok-2 : Dans une avancée significative, la bêta de Grok-2 a été annoncée. Ce lancement a introduit deux versions du chatbot—Grok-2 et Grok-2 mini—chacune équipée des capacités de discussion, de codage et de raisonnement. Accès public : Après son développement bêta, Grok AI est devenu accessible aux utilisateurs de la plateforme X. Ceux ayant des comptes vérifiés par un numéro de téléphone et actifs depuis au moins sept jours peuvent accéder à une version limitée, rendant la technologie disponible pour un public plus large. Cette chronologie encapsule la croissance systématique de Grok AI depuis sa création jusqu'à son engagement public, soulignant son engagement envers l'amélioration continue et l'interaction utilisateur. Caractéristiques clés de Grok AI Grok AI englobe plusieurs caractéristiques clés qui contribuent à son identité innovante : Intégration des connaissances en temps réel : L'accès à des informations actuelles et pertinentes différencie Grok AI de nombreux modèles statiques, permettant une expérience utilisateur engageante et précise. Styles d'interaction polyvalents : En offrant des modes d'interaction distincts, Grok AI répond à des préférences variées des utilisateurs, invitant à la créativité et à la personnalisation dans la conversation avec l'IA. Infrastructure technologique avancée : L'utilisation de Kubernetes, Rust et JAX fournit au projet un cadre solide pour garantir fiabilité et performance optimale. Considération du discours éthique : L'inclusion d'une fonction de génération d'images met en avant l'esprit innovant du projet. Cependant, elle soulève également des considérations éthiques concernant le droit d'auteur et la représentation respectueuse de figures reconnaissables—une discussion en cours au sein de la communauté IA. Conclusion En tant qu'entité pionnière dans le domaine de l'IA conversationnelle, Grok AI encapsule le potentiel d'expériences utilisateur transformantes à l'ère numérique. Développé par xAI et guidé par l'approche visionnaire d'Elon Musk, Grok AI intègre des connaissances en temps réel avec des capacités d'interaction avancées. Il s'efforce de repousser les limites de ce que l'intelligence artificielle peut accomplir tout en maintenant un accent sur les considérations éthiques et la sécurité des utilisateurs. Grok AI incarne non seulement l'avancement technologique mais aussi un nouveau paradigme de conversation dans le paysage Web3, promettant d'engager les utilisateurs avec à la fois une connaissance experte et une interaction ludique. Alors que le projet continue d'évoluer, il se dresse comme un témoignage de ce que l'intersection de la technologie, de la créativité et de l'interaction humaine peut accomplir.

492 vues totalesPublié le 2024.12.26Mis à jour le 2024.12.26

Qu'est ce que ERC AI

Euruka Tech : Un aperçu de $erc ai et de ses ambitions dans le Web3 Introduction Dans le paysage en évolution rapide de la technologie blockchain et des applications décentralisées, de nouveaux projets émergent fréquemment, chacun avec des objectifs et des méthodologies uniques. L'un de ces projets est Euruka Tech, qui opère dans le vaste domaine des cryptomonnaies et du Web3. L'objectif principal d'Euruka Tech, en particulier de son token $erc ai, est de présenter des solutions innovantes conçues pour exploiter les capacités croissantes de la technologie décentralisée. Cet article vise à fournir un aperçu complet d'Euruka Tech, une exploration de ses objectifs, de sa fonctionnalité, de l'identité de son créateur, de ses investisseurs potentiels et de son importance dans le contexte plus large du Web3. Qu'est-ce qu'Euruka Tech, $erc ai ? Euruka Tech est caractérisé comme un projet qui tire parti des outils et des fonctionnalités offerts par l'environnement Web3, en se concentrant sur l'intégration de l'intelligence artificielle dans ses opérations. Bien que les détails spécifiques sur le cadre du projet soient quelque peu évasifs, il est conçu pour améliorer l'engagement des utilisateurs et automatiser les processus dans l'espace crypto. Le projet vise à créer un écosystème décentralisé qui facilite non seulement les transactions, mais qui intègre également des fonctionnalités prédictives grâce à l'intelligence artificielle, d'où la désignation de son token, $erc ai. L'objectif est de fournir une plateforme intuitive qui facilite des interactions plus intelligentes et un traitement efficace des transactions dans la sphère Web3 en pleine expansion. Qui est le créateur d'Euruka Tech, $erc ai ? À l'heure actuelle, les informations concernant le créateur ou l'équipe fondatrice derrière Euruka Tech restent non spécifiées et quelque peu opaques. Cette absence de données soulève des préoccupations, car la connaissance des antécédents de l'équipe est souvent essentielle pour établir la crédibilité dans le secteur de la blockchain. Par conséquent, nous avons classé cette information comme inconnue jusqu'à ce que des détails concrets soient rendus disponibles dans le domaine public. Qui sont les investisseurs d'Euruka Tech, $erc ai ? De même, l'identification des investisseurs ou des organisations de soutien pour le projet Euruka Tech n'est pas facilement fournie par les recherches disponibles. Un aspect crucial pour les parties prenantes potentielles ou les utilisateurs envisageant de s'engager avec Euruka Tech est l'assurance qui découle de partenariats financiers établis ou du soutien d'entreprises d'investissement réputées. Sans divulgations sur les affiliations d'investissement, il est difficile de tirer des conclusions complètes sur la sécurité financière ou la pérennité du projet. Conformément aux informations trouvées, cette section se trouve également au statut de inconnue. Comment fonctionne Euruka Tech, $erc ai ? Malgré le manque de spécifications techniques détaillées pour Euruka Tech, il est essentiel de considérer ses ambitions innovantes. Le projet cherche à exploiter la puissance de calcul de l'intelligence artificielle pour automatiser et améliorer l'expérience utilisateur dans l'environnement des cryptomonnaies. En intégrant l'IA avec la technologie blockchain, Euruka Tech vise à fournir des fonctionnalités telles que des transactions automatisées, des évaluations de risques et des interfaces utilisateur personnalisées. L'essence innovante d'Euruka Tech réside dans son objectif de créer une connexion fluide entre les utilisateurs et les vastes possibilités offertes par les réseaux décentralisés. Grâce à l'utilisation d'algorithmes d'apprentissage automatique et d'IA, il vise à minimiser les défis rencontrés par les utilisateurs pour la première fois et à rationaliser les expériences transactionnelles dans le cadre du Web3. Cette symbiose entre l'IA et la blockchain souligne l'importance du token $erc ai, agissant comme un pont entre les interfaces utilisateur traditionnelles et les capacités avancées des technologies décentralisées. Chronologie d'Euruka Tech, $erc ai Malheureusement, en raison des informations limitées dont nous disposons concernant Euruka Tech, nous ne sommes pas en mesure de présenter une chronologie détaillée des développements majeurs ou des étapes importantes dans le parcours du projet. Cette chronologie, généralement inestimable pour tracer l'évolution d'un projet et comprendre sa trajectoire de croissance, n'est pas actuellement disponible. À mesure que des informations sur des événements notables, des partenariats ou des ajouts fonctionnels deviennent évidentes, des mises à jour amélioreront sûrement la visibilité d'Euruka Tech dans la sphère crypto. Clarification sur d'autres projets “Eureka” Il est à noter que plusieurs projets et entreprises partagent une nomenclature similaire avec “Eureka”. Des recherches ont identifié des initiatives comme un agent IA de NVIDIA Research, qui se concentre sur l'enseignement de tâches complexes aux robots en utilisant des méthodes génératives, ainsi que Eureka Labs et Eureka AI, qui améliorent l'expérience utilisateur dans l'éducation et l'analyse du service client, respectivement. Cependant, ces projets sont distincts d'Euruka Tech et ne doivent pas être confondus avec ses objectifs ou ses fonctionnalités. Conclusion Euruka Tech, aux côtés de son token $erc ai, représente un acteur prometteur mais actuellement obscur dans le paysage du Web3. Bien que les détails concernant son créateur et ses investisseurs restent non divulgués, l'ambition centrale de combiner l'intelligence artificielle avec la technologie blockchain constitue un point d'intérêt focal. Les approches uniques du projet pour favoriser l'engagement des utilisateurs grâce à une automatisation avancée pourraient le distinguer à mesure que l'écosystème Web3 progresse. Alors que le marché des cryptomonnaies continue d'évoluer, les parties prenantes devraient garder un œil attentif sur les avancées concernant Euruka Tech, car le développement d'innovations documentées, de partenariats ou d'une feuille de route définie pourrait présenter des opportunités significatives dans un avenir proche. En l'état, nous attendons des informations plus substantielles qui pourraient révéler le potentiel d'Euruka Tech et sa position dans le paysage concurrentiel des cryptomonnaies.

512 vues totalesPublié le 2025.01.02Mis à jour le 2025.01.02

Qu'est ce que DUOLINGO AI

DUOLINGO AI : Intégration de l'apprentissage des langues avec l'innovation Web3 et IA À une époque où la technologie redéfinit l'éducation, l'intégration de l'intelligence artificielle (IA) et des réseaux blockchain annonce une nouvelle frontière pour l'apprentissage des langues. Entrez dans DUOLINGO AI et sa cryptomonnaie associée, $DUOLINGO AI. Ce projet aspire à fusionner la puissance éducative des principales plateformes d'apprentissage des langues avec les avantages de la technologie décentralisée Web3. Cet article explore les aspects clés de DUOLINGO AI, en examinant ses objectifs, son cadre technologique, son développement historique et son potentiel futur tout en maintenant une clarté entre la ressource éducative originale et cette initiative de cryptomonnaie indépendante. Vue d'ensemble de DUOLINGO AI Au cœur de DUOLINGO AI, l'objectif est d'établir un environnement décentralisé où les apprenants peuvent gagner des récompenses cryptographiques pour atteindre des jalons éducatifs en matière de compétence linguistique. En appliquant des contrats intelligents, le projet vise à automatiser les processus de vérification des compétences et d'attribution de jetons, en respectant les principes de Web3 qui mettent l'accent sur la transparence et la propriété des utilisateurs. Le modèle s'écarte des approches traditionnelles de l'acquisition des langues en s'appuyant fortement sur une structure de gouvernance pilotée par la communauté, permettant aux détenteurs de jetons de suggérer des améliorations au contenu des cours et à la distribution des récompenses. Parmi les objectifs notables de DUOLINGO AI, on trouve : Apprentissage ludique : Le projet intègre des réalisations basées sur la blockchain et des jetons non fongibles (NFT) pour représenter les niveaux de compétence linguistique, favorisant la motivation grâce à des récompenses numériques engageantes. Création de contenu décentralisée : Il ouvre des voies pour que les éducateurs et les passionnés de langues contribuent à leurs cours, facilitant un modèle de partage des revenus qui bénéficie à tous les contributeurs. Personnalisation alimentée par l'IA : En utilisant des modèles d'apprentissage automatique avancés, DUOLINGO AI personnalise les leçons pour s'adapter aux progrès d'apprentissage individuels, semblable aux fonctionnalités adaptatives trouvées dans les plateformes établies. Créateurs du projet et gouvernance À partir d'avril 2025, l'équipe derrière $DUOLINGO AI reste pseudonyme, une pratique fréquente dans le paysage décentralisé des cryptomonnaies. Cette anonymat est destiné à promouvoir la croissance collective et l'engagement des parties prenantes plutôt qu'à se concentrer sur des développeurs individuels. Le contrat intelligent déployé sur la blockchain Solana note l'adresse du portefeuille du développeur, ce qui signifie l'engagement envers la transparence concernant les transactions malgré l'identité inconnue des créateurs. Selon sa feuille de route, DUOLINGO AI vise à évoluer vers une Organisation Autonome Décentralisée (DAO). Cette structure de gouvernance permet aux détenteurs de jetons de voter sur des questions critiques telles que les mises en œuvre de fonctionnalités et les allocations de trésorerie. Ce modèle s'aligne avec l'éthique de l'autonomisation communautaire que l'on trouve dans diverses applications décentralisées, soulignant l'importance de la prise de décision collective. Investisseurs et partenariats stratégiques Actuellement, il n'y a pas d'investisseurs institutionnels ou de capital-risqueurs identifiables publiquement liés à $DUOLINGO AI. Au lieu de cela, la liquidité du projet provient principalement des échanges décentralisés (DEX), marquant un contraste frappant avec les stratégies de financement des entreprises de technologie éducative traditionnelles. Ce modèle de base indique une approche pilotée par la communauté, reflétant l'engagement du projet envers la décentralisation. Dans son livre blanc, DUOLINGO AI mentionne la formation de collaborations avec des “plateformes d'éducation blockchain” non spécifiées visant à enrichir ses offres de cours. Bien que des partenariats spécifiques n'aient pas encore été divulgués, ces efforts collaboratifs laissent entrevoir une stratégie visant à mélanger l'innovation blockchain avec des initiatives éducatives, élargissant l'accès et l'engagement des utilisateurs à travers diverses voies d'apprentissage. Architecture technologique Intégration de l'IA DUOLINGO AI intègre deux composants majeurs alimentés par l'IA pour améliorer ses offres éducatives : Moteur d'apprentissage adaptatif : Ce moteur sophistiqué apprend des interactions des utilisateurs, similaire aux modèles propriétaires des grandes plateformes éducatives. Il ajuste dynamiquement la difficulté des leçons pour répondre aux défis spécifiques des apprenants, renforçant les points faibles par des exercices ciblés. Agents conversationnels : En utilisant des chatbots alimentés par GPT-4, DUOLINGO AI offre une plateforme permettant aux utilisateurs de s'engager dans des conversations simulées, favorisant une expérience d'apprentissage des langues plus interactive et pratique. Infrastructure blockchain Construit sur la blockchain Solana, $DUOLINGO AI utilise un cadre technologique complet qui comprend : Contrats intelligents de vérification des compétences : Cette fonctionnalité attribue automatiquement des jetons aux utilisateurs qui réussissent des tests de compétence, renforçant la structure d'incitation pour des résultats d'apprentissage authentiques. Badges NFT : Ces jetons numériques signifient divers jalons que les apprenants atteignent, tels que la complétion d'une section de leur cours ou la maîtrise de compétences spécifiques, leur permettant d'échanger ou de montrer leurs réalisations numériquement. Gouvernance DAO : Les membres de la communauté dotés de jetons peuvent participer à la gouvernance en votant sur des propositions clés, facilitant une culture participative qui encourage l'innovation dans les offres de cours et les fonctionnalités de la plateforme. Chronologie historique 2022–2023 : Conceptualisation Les bases de DUOLINGO AI commencent avec la création d'un livre blanc, mettant en avant la synergie entre les avancées de l'IA dans l'apprentissage des langues et le potentiel décentralisé de la technologie blockchain. 2024 : Lancement Beta Un lancement beta limité introduit des offres dans des langues populaires, récompensant les premiers utilisateurs avec des incitations en jetons dans le cadre de la stratégie d'engagement communautaire du projet. 2025 : Transition vers la DAO En avril, un lancement complet sur le mainnet a lieu avec la circulation de jetons, suscitant des discussions communautaires concernant d'éventuelles expansions vers les langues asiatiques et d'autres développements de cours. Défis et orientations futures Obstacles techniques Malgré ses objectifs ambitieux, DUOLINGO AI fait face à des défis significatifs. La scalabilité reste une préoccupation constante, en particulier pour équilibrer les coûts associés au traitement de l'IA et le maintien d'un réseau décentralisé réactif. De plus, garantir la qualité de la création et de la modération de contenu au sein d'une offre décentralisée pose des complexités pour maintenir des normes éducatives. Opportunités stratégiques En regardant vers l'avenir, DUOLINGO AI a le potentiel de tirer parti de partenariats de micro-certification avec des institutions académiques, fournissant des validations vérifiées par blockchain des compétences linguistiques. De plus, une expansion inter-chaînes pourrait permettre au projet de toucher des bases d'utilisateurs plus larges et d'autres écosystèmes blockchain, améliorant son interopérabilité et sa portée. Conclusion DUOLINGO AI représente une fusion innovante de l'intelligence artificielle et de la technologie blockchain, présentant une alternative axée sur la communauté aux systèmes d'apprentissage des langues traditionnels. Bien que son développement pseudonyme et son modèle économique émergent présentent certains risques, l'engagement du projet envers l'apprentissage ludique, l'éducation personnalisée et la gouvernance décentralisée éclaire une voie à suivre pour la technologie éducative dans le domaine de Web3. Alors que l'IA continue d'avancer et que l'écosystème blockchain évolue, des initiatives comme DUOLINGO AI pourraient redéfinir la manière dont les utilisateurs s'engagent dans l'éducation linguistique, autonomisant les communautés et récompensant l'engagement grâce à des mécanismes d'apprentissage innovants.

551 vues totalesPublié le 2025.04.11Mis à jour le 2025.04.11

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de AI (AI) sont présentées ci-dessous.

Du code à la cognition : un guide de dix mille mots sur l'évolution du cerveau robotique

Résumé

I : L'ère pré-LLM : quand les robots n'étaient que des logiciels

II : L'apprentissage automatique s'immisce discrètement

III : Les LLM arrivent dans la robotique

IV : Les modèles Vision-Langage-Action (VLA), quand le cerveau commence à piloter le robot

V : La stratégie du double cerveau : comment LLM et VLA travaillent ensemble

VI : Le cloud, le edge computing et la question de l'emplacement du "cerveau"

VII : Pourquoi les modèles open source deviennent discrètement le point central

VIII : Quels problèmes ne sont toujours pas résolus

IX : Les modèles du monde

X : Architectures alternatives, car le domaine n'est pas encore tranché

XI : L'application pratique des robots basés sur un modèle du monde

XII : Ce qu'il faut aussi savoir

Conclusion

Questions liées

Lectures associées

Zcash subit un effondrement historique alors que des milliards s'évaporent de sa valorisation boursière

La narration du BTC en tant qu'« or numérique » a-t-elle échoué ?

Le récit du Bitcoin en tant qu'« or numérique » a-t-il échoué ?

La bulle de l'IA est en train d'éclater

La bulle de l'IA est en train d'éclater

Trading

Articles tendance

Qu'est ce que GROK AI

Qu'est ce que ERC AI

Qu'est ce que DUOLINGO AI

Discussions

Catégories populaires

Tags tendances