Dernier article de Fei-Fei Li : Alors que la génération vidéo, la robotique et NVIDIA revendiquent tous le titre de "modèle du monde", nous avons besoin d'une taxonomie

链捕手Publié le 2026-07-05Dernière mise à jour le 2026-07-05

Résumé

L'article de Fei-Fei Li propose une taxonomie pour clarifier le concept de « modèle du monde », de plus en plus utilisé de manière disparate dans l'IA. En s'appuyant sur le cadre classique du POMDP (Processus de Décision Markovien Partiellement Observable), elle distingue trois fonctions distinctes : 1. **Le moteur de rendu** : Il génère des observations visuelles (pixels) à partir d'actions ou de prompts. Son objectif est la fidélité visuelle, mais il ne garantit pas l'exactitude physique (ex. : Sora, Genie). 2. **Le simulateur** : Il produit un **état** du monde précis sur les plans géométrique, physique et dynamique. Il sert à la fois aux humains (conception, visualisation) et aux programmes (entraînement de robots, tests). C'est le pivot crucial, sous-estimé, car il fournit la base structurelle pour le rendu et la planification. 3. **Le planificateur** : À partir d'une observation et d'un objectif, il détermine les **actions** à exécuter. C'est le plus excitant mais le moins mature, l'écart entre les démonstrations en laboratoire et les déploiements réels restant important (ex. : modèles vision-langage-action). L'article souligne que ces trois catégories, bien que distinctes, partagent une compréhension sous-jacente commune du monde (géométrie, physique). La tendance actuelle est à leur **fusion**. Un modèle unifié pourrait, à terme, basculer entre ces modes selon les besoins. Le simulateur y joue un rôle central : maîtriser la simulation permet de dériver à la fois l...

Auteur : Fei-Fei Li

Traduction : Jiayang

Le "modèle du monde" est probablement le concept le plus chaud et le plus confus dans le domaine de l'IA depuis 2025. Lorsque Sora est sorti, OpenAI l'a appelé simulateur du monde ; Genie, qui vous permet de vous déplacer dans des images générées, s'appelle également modèle du monde ; les entreprises de robotique disent qu'elles travaillent sur des modèles du monde, NVIDIA dit qu'Omniverse est l'infrastructure des modèles du monde, et même les moteurs de jeu ont été intégrés dans ce récit. Tout le monde utilise le même terme, mais chacun parle de choses totalement différentes.

Aujourd'hui, Fei-Fei Li a publié un nouvel article sur son Substack pour clarifier ce concept. Elle revient d'abord au diagramme classique des manuels d'apprentissage par renforcement (la boucle POMDP : agent → action → état → observation → agent), puis souligne : les choses actuellement appelées "modèles du monde" sont en fait trois projections différentes de cette boucle fermée. Ce qui produit des pixels (observations) est un rendu ; ce qui produit des états est un simulateur ; ce qui produit des actions est un planificateur. Le critère de classification est très simple : il suffit de regarder quelle partie de la boucle est produite en sortie.

(Source : MIT Technology Review)

Elle juge que parmi les trois, le rendu est le plus mature commercialement mais a un plafond (une belle apparence ne signifie pas une exactitude physique), le planificateur est le plus excitant mais le plus éloigné du déploiement réel (l'écart entre les démonstrations en laboratoire et la disponibilité pratique reste énorme), tandis que le simulateur est le pivot clé gravement sous-estimé. Parce que le simulateur travaille au niveau de la géométrie, de la physique et de la dynamique, il peut à la fois se projeter vers le haut en pixels pour la consommation humaine et déduire les conséquences des actions pour l'utilisation des robots. Maîtriser la simulation signifie avoir simultanément les bases du rendu et de la planification ; l'inverse n'est pas vrai.

Cet article est bien sûr aussi une déclaration produit de World Labs. Leur modèle Marble produit déjà simultanément des "Gaussian splats" et des maillages de collision, essayant d'unifier le rendu et le simulateur dans un seul modèle. La fin de l'article décrit un aboutissement ultime : un modèle de base du monde unifié capable de basculer librement entre rendu, simulation et planification en fonction des besoins en aval. La question de savoir si cette vision peut être réalisée est une autre histoire, mais en tant que cadre d'analyse, la tripartition rendu/simulateur/planificateur aide peut-être vraiment à percer une partie du bruit actuel autour du concept de "modèle du monde".

La traduction complète est la suivante.

"Le monde est tout ce qui arrive." — Wittgenstein, Tractatus logico-philosophicus, 1921

Le monde n'est pas fait de mots.

Dans un article précédent, nous avons proposé que l'intelligence spatiale soit la prochaine frontière de l'IA, et que les modèles du monde en soient la voie. Ici, l'équipe de World Labs et moi-même souhaitons aller plus loin : parmi la multitude de choses appelées aujourd'hui "modèles du monde", quels modules fonctionnels constituent véritablement cette capacité ? Et à quoi servent-ils ?

Les modèles de langage ont donné aux machines une puissante maîtrise des concepts, du vocabulaire et du raisonnement, mais le monde physique, qu'il soit virtuel ou réel, fonctionne sur un substrat totalement différent. Les modèles de langage apprennent la structure statistique du texte, les modèles du monde apprennent la structure statistique de l'espace et du temps : comment la lumière tombe sur une surface, comment un jardin apparaît sous un angle jamais capturé par une caméra, comment les objets répondent aux forces et suivent les lois de la physique.

Cela fait du "modèle du monde" l'un des termes les plus importants et les plus galvaudés dans le domaine de l'IA aujourd'hui. La vision par ordinateur, la robotique, l'apprentissage par renforcement et l'IA générative affirment tous construire des modèles du monde, mais chacun parle de choses radicalement différentes. Un modèle vidéo générant des flammes magnifiques mais physiquement impossibles, un modèle de langage improvisant un jeu jouable, un moteur physique simulant fidèlement le processus de combustion, ils sont tous appelés du même nom.

Les Grecs anciens ne sont jamais parvenus à un accord sur ce qui constitue le monde, que ce soit le feu, l'eau ou des atomes indivisibles, car le "monde" n'a jamais été une chose unique. Il a toujours été un substitut utilisé par un penseur pour raisonner sur une certaine totalité. L'IA a hérité du même problème, et cela arrive précisément au moment où le domaine a le plus besoin de précision.

La boucle fermée derrière la taxonomie

Pour démêler cette confusion, on peut partir d'un diagramme plus ancien que toutes ces technologies. Tous les manuels d'apprentissage par renforcement, y compris le classique Sutton et Barto, utilisent depuis des décennies des variantes d'un même diagramme pour décrire comment un agent interagit avec le monde. Son nom formel est le Processus de décision markovien partiellement observable (POMDP), et la définition originale du terme "modèle du monde" appartient à cette tradition.

Un agent (qui peut être un humain, un robot ou un système logiciel) exécute une action. Cette action modifie l'état du monde. Mais l'agent ne voit jamais directement l'état lui-même ; ce qu'il reçoit, c'est une observation : les photons tombant sur la rétine, les lectures des capteurs, les pixels d'une trame vidéo. Une nouvelle observation guide une nouvelle action, et ainsi de suite.

Le terme "état" mérite d'être décomposé, car son sens varie selon les domaines. Il ne s'agit pas ici de l'état du chimiste, de la distinction entre solide, liquide et gazeux. C'est l'état du physicien et du roboticien : une description complète de tout ce qui se passe dans le monde à un instant donné, incluant chaque objet, chaque position, chaque vitesse, chaque attribut. L'état est la réalité sous-jacente du monde, en principe complète, mais jamais directement observable pour aucun agent qui y évolue. L'observation est la perspective locale que l'agent a de cette réalité. L'action est la réponse que l'agent fait en conséquence.

Cette boucle fermée (agent → action → état → observation → agent) est précisément la structure qui donne au terme "modèle du monde" sa signification technique. L'expression elle-même est plus ancienne, remontant à la proposition de Kenneth Craik en 1943 selon laquelle l'esprit raisonne en exécutant des "modèles à petite échelle" de la réalité, et à la fin des années 1980 et au début des années 1990, ce concept a été introduit dans le domaine des réseaux neuronaux. Cette boucle fermée explique également ce que les gens entendent aujourd'hui lorsqu'ils utilisent ce terme. Les différentes choses maintenant appelées modèles du monde sont en fait des projections différentes de cette même boucle fermée, chacune produisant en sortie une partie différente de la boucle.

Les trois fonctions d'un modèle du monde

Le premier type de modèle du monde est le moteur de rendu. Le moteur de rendu produit des observations, spécifiquement des pixels destinés à l'œil humain, et la métrique de qualité la plus importante est la fidélité visuelle. Un modèle vidéo qui transforme une invite textuelle en séquences cinématographiques de type drone est un moteur de rendu ; des systèmes interactifs comme Genie 3 de Google ou RTFM de World Labs lui-même, qui génèrent des images en temps réel en fonction des entrées utilisateur, sont également des moteurs de rendu. Ces modèles n'ont pas de compréhension explicite de la structure tridimensionnelle. Ils génèrent ce que le spectateur verra, et non à quoi les choses ressemblent réellement. Les bâtiments dans une séquence de drone peuvent être parfaits vus du ciel, mais essayez de naviguer dans la ville en dessous, et ils s'effondreront.

Le second type est le simulateur. Le simulateur produit des états : une représentation du monde fidèle sur les plans géométrique, physique ou dynamique, sur laquelle les humains et les programmes informatiques peuvent calculer et interagir. Le contrat du moteur de rendu est purement visuel, tandis que le contrat du simulateur est structurel ; il exige que la géométrie soit robuste, que la physique suive les lois de Newton, et que les comportements dynamiques se conforment aux attentes des lois physiques. Le simulateur sert deux types d'utilisateurs. Les professionnels comme les architectes, designers, cinéastes, développeurs de jeux ont besoin d'une exactitude allant au-delà de la crédibilité visuelle. Les programmes informatiques comme les agents d'apprentissage par renforcement, les contrôleurs robotiques, les véhicules autonomes utilisent le simulateur comme terrain d'entraînement, interagissant à grande échelle avec le monde, testant des scénarios qui seraient dangereux, coûteux ou tout simplement impossibles à exécuter dans la réalité.

Le troisième type est le planificateur. Le planificateur produit des actions. Étant donné une observation et un objectif, le planificateur répond à la question : que doit faire l'agent ensuite ? En un sens, le planificateur est le processus inverse du moteur de rendu. Le moteur de rendu prend une action en entrée et produit une observation, le planificateur prend une observation en entrée et produit une action, fermant ainsi la boucle perception-action. Les modèles vision-langage-action (VLA), les systèmes à base de modèles, ainsi que la nouvelle vague de modèles d'action du monde (World Action Models) sont toutes des tentatives de planificateurs : permettre au système de décider ce qu'un robot doit faire dans un monde non structuré.

Ces trois catégories couvrent la majorité des travaux actuellement mis en œuvre, et leur distinction est utile en pratique. Mais ces trois catégories ne sont pas fondamentalement séparées. Elles partagent la même connaissance sous-jacente du fonctionnement du monde : la géométrie, la physique, la dynamique. Un modèle capable de rendre une tasse sous n'importe quel angle devrait en principe être capable de simuler ce qui se passe si la tasse est poussée, et de planifier le mouvement d'une main pour la saisir. De plus en plus des recherches les plus intéressantes brouillent délibérément les frontières entre ces trois aspects.

Diagramme | Les trois types de modèles du monde (Source : Substack)

Pourquoi la simulation est le pivot clé

Parmi les trois catégories, le simulateur reçoit le moins d'attention publique, mais c'est le plus important des trois. Cet article vise à corriger cette asymétrie.

Le moteur de rendu est actuellement le plus avancé commercialement. De nombreux produits d'image ou de texte-à-vidéo se déploient rapidement sur les marchés grand public et d'entreprise. Le modèle Nano Banana de Google a apporté des capacités de génération d'images de niveau moteur de rendu à potentiellement des centaines de millions d'utilisateurs. La technologie est réelle, le marché aussi. Cependant, le moteur de rendu optimise pour la crédibilité visuelle plutôt que pour l'exactitude physique, et ce plafond est important. Leurs productions sont belles, mais on ne peut pas les utiliser pour concevoir un bâtiment ou entraîner un robot.

Le planificateur est le plus excitant et le moins mature, étroitement lié au domaine de l'apprentissage robotique en rapide évolution. Ces deux dernières années, ce domaine a produit de nombreuses démonstrations robotiques impressionnantes en vidéo, mais nous devons être francs sur ce que ces démonstrations montrent réellement. Presque toutes se limitent à des environnements de laboratoire hautement contraints, avec un nombre limité d'objets et des tâches de courte durée. Aucune n'a été soumise à la complexité, à la diversité et à la durée continue requises pour un déploiement réel. L'écart entre une vidéo de démonstration impressionnante et un robot capable de fonctionner de manière fiable dans une cuisine, un entrepôt ou une salle d'opération reste immense.

Malgré cela, les paris commerciaux restent substantiels. Une vague de nouveaux entrants bien financés se précipitent pour lancer des systèmes de planification généraux, tandis que les grands acteurs d'infrastructure construisent des capacités de planification sur des piles de simulation plus larges.

La simulation est le pont entre les deux. Si le langage est une abstraction du monde, les pixels sont une projection du monde, alors la géométrie, la physique et la dynamique sont le monde lui-même. Le simulateur doit opérer à ce niveau : c'est le squelette structurel à partir duquel peuvent être dérivées à la fois la représentation visuelle (pour le moteur de rendu) et les conséquences des actions (pour le planificateur).

Un modèle qui maîtrise la simulation peut projeter sa compréhension en pixels pour la consommation humaine, et également en prédictions d'actions pour les agents incarnés. Un modèle qui ne maîtrise que le rendu ou la planification ne peut faire ni l'un ni l'autre. L'espace commercial ici est extrêmement vaste. Rien que pour l'Omniverse de NVIDIA, le marché cible est estimé par la société à plus de mille milliards de dollars, couvrant les usines, les entrepôts, les chaînes d'approvisionnement et les jumeaux numériques. L'entraînement des robots, les tests de conduite autonome, la visualisation architecturale, l'ingénierie, la découverte de médicaments dépendent tous d'une forme de simulation.

Les questions ouvertes les plus difficiles de ce domaine se concentrent également ici. Les données tridimensionnelles avec une géométrie explicite, des attributs de matériaux et des annotations physiques sont de plusieurs ordres de grandeur plus rares que les vidéos Internet utilisées pour l'entraînement des moteurs de rendu. L'écart "sim-to-real" (différence entre le comportement des objets en simulation et dans le monde réel) persiste. Les simulateurs génératifs introduisent de nouveaux risques supplémentaires : la géométrie générée par l'IA peut sembler correcte mais contenir des problèmes d'auto-intersection ou de mauvaise échelle, conduisant à des résultats physiques absurdes. Le coût computationnel de la simulation multi-physique à grande échelle (corps rigides, objets déformables, fluides, tissus interagissant simultanément) reste de plusieurs ordres de grandeur supérieur à celui de la simulation dans un domaine unique.

Chez World Labs, Marble est notre premier pas dans cette direction. Il accepte des entrées multimodales (texte, image, vidéo ou croquis spatial), génère des environnements 3D explorables, et produit simultanément des "Gaussian splats" pour l'exploration visuelle et des maillages de collision pour les moteurs physiques. Mais Marble n'est que le premier chapitre d'un long arc. Alors que les frontières entre rendu, simulation et planification commencent à s'estomper, tout le domaine écrit cette histoire.

Les frontières s'estompent, et ce qui va suivre

La tendance la plus importante dans ce domaine actuellement est la fusion des trois catégories. Le consensus sous-jacent est : les connaissances nécessaires pour rendre un monde, le simuler et y agir sont en grande partie les mêmes. Reprenant l'exemple précédent, un modèle qui comprend réellement comment une tasse repose sur une table (sa forme géométrique, ses attributs matériels, sa réponse aux forces, etc.) devrait être capable de rendre cette tasse sous n'importe quel angle, de simuler ce qui se passe si la tasse est poussée, et de planifier le mouvement d'une main pour la saisir. Les trois catégories sont trois projections d'une même compréhension sous-jacente.

Par exemple, il y a eu récemment un petit nombre croissant de travaux émanant de différents laboratoires de robotique, montrant une possibilité au moins conceptuellement viable : un moteur de rendu vidéo pré-entraîné peut servir de réseau de base pour la prédiction conjointe du monde et des actions, permettant à un modèle unique d'imaginer à la fois "ce qui va se passer" et "ce qu'il faut faire", établissant ainsi un pont entre le moteur de rendu et le planificateur. Marble de World Labs peut déjà produire simultanément des "Gaussian splats" et des maillages de collision à partir d'un seul modèle, effaçant la frontière entre moteur de rendu et simulateur. À chaque niveau, on passe d'une sortie passive à des systèmes interactifs : les moteurs de rendu deviennent conditionnés par des actions, les mondes générés par les simulateurs deviennent plus contrôlables et modifiables, les planificateurs commencent à raisonner de manière délibérée plutôt que de simplement réagir.

Le point d'arrivée logique est un modèle du monde unifié : un modèle de base capable de rendre des vues photoréalistes, de générer des structures physiquement exactes, de planifier des séquences d'actions, et de basculer entre ces modalités de sortie en fonction des besoins de l'utilisateur final. Nous ferons face à une série de défis redoutables. Le paysage des données est extrêmement déséquilibré, les moteurs de rendu disposant d'une abondance de vidéos Internet, tandis que les simulateurs et planificateurs souffrent d'une grave pénurie de données d'actifs 3D et de démonstrations robotiques. L'optimisation pour l'esthétique visuelle peut sacrifier la précision nécessaire à la robotique ou à la simulation haute fidélité. Réconcilier ces tensions au sein d'une architecture unique est le problème ouvert central de la recherche actuelle sur les modèles du monde, et celui que World Labs s'efforce de résoudre en faisant évoluer continuellement Marble.

(Source : Substack)

Mais la grande direction est déjà claire. Depuis la fin des années 1980 jusqu'à aujourd'hui, le pari du domaine a toujours été le même : si le modèle du monde est suffisamment riche, alors tout ce dont un agent a besoin pour voir le monde, le construire et y agir s'y trouve. Ce pari guide désormais une génération entière de recherche. Et ce qui lui donne véritablement de la substance, c'est la fusion déjà en cours : les trois lignes de rendu, simulation et planification, chacune soutenant déjà des industries de plusieurs milliards de dollars, étaient à l'origine des axes de recherche indépendants, et commencent maintenant à converger. Lorsque les frontières disparaissent, la confluence des trois redéfinira quelque chose de plus grand : la relation entre l'intelligence des machines et le monde physique qu'elles habitent, c'est-à-dire la trajectoire à long terme de l'intelligence spatiale.

Le langage a donné aux machines un moyen de parler de ce monde. Les modèles du monde sont le chemin par lequel les machines pourront finalement comprendre, imaginer, raisonner et interagir avec lui.

Références : 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

Cryptos en tendance

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Questions liées

QQuels sont les trois types fonctionnels de "modèles du monde" identifiés par Li Fei-Fei dans l'article ?

ALes trois types fonctionnels de "modèles du monde" identifiés sont : 1) Le **rendu** (ou *renderer*), qui génère des observations (pixels pour l'œil humain). 2) Le **simulateur** (ou *simulator*), qui génère des états du monde (représentations géométriques et physiques). 3) Le **planificateur** (ou *planner*), qui génère des actions pour un agent intelligent.

QSelon l'article, pourquoi le simulateur est-il considéré comme un carrefour crucial parmi les trois types de modèles ?

ALe simulateur est considéré comme un carrefour crucial car il opère au niveau de la structure sous-jacente du monde (géométrie, physique, dynamique). Un modèle maîtrisant la simulation peut projeter sa compréhension à la fois en pixels pour les humains (rendu) et en prédictions d'actions pour les agents (planification). Il sert ainsi de pont essentiel entre le rendu et la planification.

QQuelle est la vision à long terme ou le "point d'arrivée logique" évoqué par Li Fei-Fei pour les modèles du monde ?

ALa vision à long terme est un **modèle du monde unifié** : un modèle de base capable de générer des rendus photo-réalistes, des structures physiquement précises et de planifier des séquences d'actions. Il pourrait basculer entre ces modalités de sortie en fonction des besoins de l'utilisateur final, fusionnant ainsi les capacités de rendu, de simulation et de planification.

QQuels sont les principaux défis mentionnés dans le développement des simulateurs génératifs ?

ALes principaux défis sont : 1) La **pénurie de données** 3D annotées avec des propriétés géométriques, matérielles et physiques, bien moins abondantes que les vidéos pour l'entraînement des *renderers*. 2) L'écart **simulation-réalité** (*sim-to-real gap*). 3) Les risques liés aux **géométries générées** par IA pouvant sembler correctes mais contenir des erreurs (auto-intersections, proportions) menant à des simulations physiques absurdes. 4) Le **coût computationnel** élevé des simulations multi-physiques à grande échelle.

QQuel est le projet concret de World Labs (la société de Li Fei-Fei) présenté dans l'article, et que fait-il ?

ALe projet concret de World Labs est **Marble**. Il s'agit d'un modèle qui prend des entrées multimodales (texte, image, vidéo, croquis spatial) et génère des environnements 3D explorables. Il produit simultanément des **"Gaussian splats"** pour l'exploration visuelle (rendu) et des **maillages de collision** pour les moteurs physiques (simulation), effaçant ainsi la frontière entre le rendu et la simulation.

Lectures associées

Pourquoi les 14 336 transferts d'ETH du hacker d'UXLINK soulèvent de nouvelles questions pour la DeFi

L'exploitant de UXLINK, responsable d'un piratage survenu en septembre 2025, continue de blanchir les fonds volés, selon de récentes activités on-chain. L'attaquant a échangé des millions de DAI restants pour environ 6 000,8 ETH, avant de déposer au total 14 336,6 ETH dans le mélangeur Tornado Cash au cours des deux dernières semaines. Parallèlement, un portefeuille lié à l'ancien système présumé de Ponzi Mining Express a converti 5 004 ETH pour 8,8 millions de DAI, puis a acheminé une partie de ces actifs vers Tornado Cash. Ces cas mettent en lumière une faille significative dans l'écosystème DeFi : bien qu'il permette des transferts d'actifs sans permission, il manque encore de mécanismes efficaces pour empêcher ou traiter les flux de fonds illicites une fois qu'ils sont en mouvement. Pour protéger la décentralisation et la vie privée, les protocoles doivent renforcer la coordination inter-réseaux et mettre en œuvre une détection des menaces en temps réel.

ambcryptoIl y a 24 mins

Pourquoi les 14 336 transferts d'ETH du hacker d'UXLINK soulèvent de nouvelles questions pour la DeFi

ambcryptoIl y a 24 mins

Dernier article long de Fei-Fei Li : Lorsque la génération vidéo, la robotique et NVIDIA se disent tous des modèles du monde, nous avons besoin d'une taxonomie

Dans un article, Li Fei-Fei propose une taxonomie pour clarifier le terme largement utilisé et souvent confus de « modèle du monde » en IA. Elle s'appuie sur le cadre classique du POMDP (processus de décision markovien partiellement observable) où un agent exécute des actions qui modifient l'état du monde, et reçoit en retour des observations. Elle distingue trois catégories fonctionnelles de « modèles du monde » selon leur sortie dans cette boucle : 1. **Le moteur de rendu (Renderer)** : Génère des observations (pixels visuels). Son critère est la fidélité visuelle (ex : Sora, Genie). Commercialement mature, il a une limite car la beauté ne garantit pas l'exactitude physique. 2. **Le simulateur (Simulator)** : Génère ou modélise des états du monde, avec une représentation géométrique et physiquement précise (ex : Omniverse de NVIDIA). C'est le pont clé et sous-estimé, car il sert à la fois aux humains (visualisation) et aux machines (entraînement de robots, planification). Il travaille sur la structure même du monde (géométrie, physique). 3. **Le planificateur (Planner)** : Génère des actions. À partir d'une observation et d'un but, il détermine la prochaine action d'un agent (ex : modèles vision-langage-action). C'est le plus excitant mais le moins mature, avec un écart important entre les démonstrations en labo et un déploiement réel fiable. Li Fei-Fei argue que le simulateur est le pivot crucial, car la maîtrise de la simulation fournit une base pour le rendu et la planification. La tendance actuelle est à la fusion de ces trois catégories, reposant sur l'idée qu'elles partagent une compréhension sous-jacente commune du monde. L'objectif final est un modèle du monde unifié capable de basculer entre ces fonctions. Cette convergence redéfinira l'intelligence spatiale, permettant aux machines non seulement de parler du monde (via le langage) mais de le comprendre, de l'imaginer et d'interagir avec lui.

marsbitIl y a 57 mins

Dernier article long de Fei-Fei Li : Lorsque la génération vidéo, la robotique et NVIDIA se disent tous des modèles du monde, nous avons besoin d'une taxonomie

marsbitIl y a 57 mins

Dossier Forbes : Les paiements transfrontaliers en stablecoin sont plus rapides, mais pas encore moins chers

Les paiements transfrontaliers par stablecoins connaissent une croissance rapide, offrant des transactions plus rapides et accessibles, mais sans avantage de coût significatif pour l'instant. Alors que les courtiers en devises traditionnels facturent 60 à 70 points de base, le potentiel des stablecoins est de réduire ces frais à 2-5 points de base. Cependant, cet avantage reste théorique en raison du manque de liquidités institutionnelles suffisantes sur ces corridors. L'adoption réelle en B2B se heurte à la barrière de la confiance dans les relations établies avec les agents de change traditionnels. Les entreprises comme Caliza, qui connaît une croissance mensuelle supérieure à 40%, démontrent que la clé du succès est de compléter les infrastructures existantes comme Swift pour la fiabilité, plutôt que de les remplacer. Les acteurs durables seront ceux qui construiront une combinaison solide de licences, d'accès aux monnaies fiduciaires et de liquidités.

marsbitIl y a 1 h

Dossier Forbes : Les paiements transfrontaliers en stablecoin sont plus rapides, mais pas encore moins chers

marsbitIl y a 1 h

Forbes : Les paiements transfrontaliers en stablecoins sont plus rapides, mais pas encore moins chers

L'article examine la croissance rapide du secteur des paiements transfrontaliers en stablecoins, tout en soulignant un décalage entre la promesse de réduction des coûts et la réalité actuelle. Lors d'une conférence à Mexico, les professionnels ont confirmé que la technologie est mature, la régulation s'améliore et les volumes augmentent. Les stablecoins offrent des avantages en termes de vitesse, d'accessibilité 24/7 et de fiabilité. Cependant, ils ne sont pas encore significativement moins chers que les méthodes traditionnelles (frais de 60-70 points de base via les courtiers en devises). La raison principale est l'absence de pools de liquidités profonds et institutionnels nécessaires pour matérialiser la promesse théorique de frais de 2 à 5 points de base. Imran Ahmad de Bitso Business estime que les prix ne baisseront que lorsque les banques interviendront directement. Un autre obstacle majeur est la confiance. Les entreprises entretiennent souvent des relations de longue date avec leurs courtiers en devises, valorisant la fiabilité plus que les économies marginales. Ezra Kebrab, PDG de Caliza, une entreprise de paiements, insiste sur l'importance de la confiance et de l'exactitude des transactions, surtout pour les paiements aux fournisseurs où une erreur peut bloquer une cargaison. Contrairement à certains récits, les entreprises performantes comme Caliza ne cherchent pas à remplacer les infrastructures existantes comme Swift, mais à les compléter. Elles utilisent les stablecoins pour la vitesse tout en s'appuyant sur Swift pour la standardisation et la précision des informations requises. Cette approche a permis à Caliza une croissance mensuelle supérieure à 40%. En conclusion, le secteur est en forte croissance mais doit surmonter les défis de la liquidité, de la confiance et de l'intégration avec les systèmes traditionnels pour réaliser pleinement son potentiel de réduction des coûts. Une consolidation future est attendue, où seules les entreprises disposant de licences, de corridors fiables fiat-crypto et de liquidités solides survivront.

链捕手Il y a 1 h

Forbes : Les paiements transfrontaliers en stablecoins sont plus rapides, mais pas encore moins chers

链捕手Il y a 1 h

Bitcoin : Voici pourquoi la hausse des prix au T3 pourrait faire face à un test de liquidité

Les signaux indiquant un possible plancher pour Bitcoin se renforcent. Les données on-chain, comme le ratio de profits/pertes réalisés à son plus bas niveau depuis 43 mois, suggèrent une phase finale de capitulation des vendeurs. Parallèlement, les ETF spot américains ont enregistré des entrées nettes significatives, marquant un retour de la demande institutionnelle. Cependant, la reprise fait face à un défi majeur : la liquidité. Malgré l'amélioration de la demande, la capitalisation boursière des stablecoins (USDC et USDT) continue de se contracter, avec plus d'un milliard de dollars sortis récemment. Cette pénurie de liquidités pourrait ne pas suffire à soutenir la pression d'achat nécessaire, d'autant plus que l'effet de levier sur le marché recommence à augmenter. En résumé, bien que les perspectives de rebond au troisième trimestre s'améliorent, la faiblesse persistante des liquidités représente un risque important et pourrait entraver la solidité de la reprise, exposant Bitcoin à des corrections potentielles.

ambcryptoIl y a 1 h

Bitcoin : Voici pourquoi la hausse des prix au T3 pourrait faire face à un test de liquidité

ambcryptoIl y a 1 h

Trading

Spot

Articles tendance

Qu'est ce que $S$

Comprendre SPERO : Un aperçu complet Introduction à SPERO Alors que le paysage de l'innovation continue d'évoluer, l'émergence des technologies web3 et des projets de cryptomonnaie joue un rôle central dans la façon dont se dessine l'avenir numérique. Un projet qui a attiré l'attention dans ce domaine dynamique est SPERO, désigné comme SPERO,$$s$. Cet article vise à rassembler et à présenter des informations détaillées sur SPERO, afin d'aider les passionnés et les investisseurs à comprendre ses fondations, ses objectifs et ses innovations dans les domaines du web3 et de la crypto. Qu'est-ce que SPERO,$$s$ ? SPERO,$$s$ est un projet unique dans l'espace crypto qui cherche à tirer parti des principes de décentralisation et de la technologie blockchain pour créer un écosystème qui favorise l'engagement, l'utilité et l'inclusion financière. Le projet est conçu pour faciliter les interactions entre pairs de nouvelles manières, offrant aux utilisateurs des solutions et des services financiers innovants. Au cœur de SPERO,$$s$, l'objectif est d'autonomiser les individus en fournissant des outils et des plateformes qui améliorent l'expérience utilisateur dans l'espace des cryptomonnaies. Cela inclut la possibilité de méthodes de transaction plus flexibles, la promotion d'initiatives dirigées par la communauté et la création de voies pour des opportunités financières via des applications décentralisées (dApps). La vision sous-jacente de SPERO,$$s$ tourne autour de l'inclusivité, visant à combler les lacunes au sein de la finance traditionnelle tout en exploitant les avantages de la technologie blockchain. Qui est le créateur de SPERO,$$s$ ? L'identité du créateur de SPERO,$$s$ reste quelque peu obscure, car il existe peu de ressources publiques fournissant des informations détaillées sur son ou ses fondateurs. Ce manque de transparence peut découler de l'engagement du projet envers la décentralisation—une éthique que de nombreux projets web3 partagent, privilégiant les contributions collectives plutôt que la reconnaissance individuelle. En centrant les discussions autour de la communauté et de ses objectifs collectifs, SPERO,$$s$ incarne l'essence de l'autonomisation sans désigner des individus spécifiques. Ainsi, comprendre l'éthique et la mission de SPERO reste plus important que d'identifier un créateur unique. Qui sont les investisseurs de SPERO,$$s$ ? SPERO,$$s$ est soutenu par une diversité d'investisseurs allant des capital-risqueurs aux investisseurs providentiels dédiés à favoriser l'innovation dans le secteur crypto. L'objectif de ces investisseurs s'aligne généralement avec la mission de SPERO—priorisant les projets qui promettent des avancées technologiques sociétales, l'inclusivité financière et la gouvernance décentralisée. Ces fondations d'investisseurs s'intéressent généralement à des projets qui non seulement offrent des produits innovants, mais qui contribuent également positivement à la communauté blockchain et à ses écosystèmes. Le soutien de ces investisseurs renforce SPERO,$$s$ en tant que concurrent notable dans le domaine en rapide évolution des projets crypto. Comment fonctionne SPERO,$$s$ ? SPERO,$$s$ utilise un cadre multifacette qui le distingue des projets de cryptomonnaie conventionnels. Voici quelques-unes des caractéristiques clés qui soulignent son unicité et son innovation : Gouvernance décentralisée : SPERO,$$s$ intègre des modèles de gouvernance décentralisée, permettant aux utilisateurs de participer activement aux processus de décision concernant l'avenir du projet. Cette approche favorise un sentiment de propriété et de responsabilité parmi les membres de la communauté. Utilité du token : SPERO,$$s$ utilise son propre token de cryptomonnaie, conçu pour servir diverses fonctions au sein de l'écosystème. Ces tokens permettent des transactions, des récompenses et la facilitation des services offerts sur la plateforme, améliorant ainsi l'engagement et l'utilité globaux. Architecture en couches : L'architecture technique de SPERO,$$s$ supporte la modularité et l'évolutivité, permettant une intégration fluide de fonctionnalités et d'applications supplémentaires à mesure que le projet évolue. Cette adaptabilité est primordiale pour maintenir la pertinence dans le paysage crypto en constante évolution. Engagement communautaire : Le projet met l'accent sur des initiatives dirigées par la communauté, utilisant des mécanismes qui incitent à la collaboration et aux retours d'expérience. En cultivant une communauté forte, SPERO,$$s$ peut mieux répondre aux besoins des utilisateurs et s'adapter aux tendances du marché. Accent sur l'inclusion : En proposant des frais de transaction bas et des interfaces conviviales, SPERO,$$s$ vise à attirer une base d'utilisateurs diversifiée, y compris des individus qui n'ont peut-être pas engagé auparavant dans l'espace crypto. Cet engagement envers l'inclusion s'aligne avec sa mission globale d'autonomisation par l'accessibilité. Chronologie de SPERO,$$s$ Comprendre l'histoire d'un projet fournit des aperçus cruciaux sur sa trajectoire de développement et ses jalons. Voici une chronologie suggérée cartographiant les événements significatifs dans l'évolution de SPERO,$$s$ : Phase de conceptualisation et d'idéation : Les idées initiales formant la base de SPERO,$$s$ ont été conçues, s'alignant étroitement avec les principes de décentralisation et de concentration sur la communauté au sein de l'industrie blockchain. Lancement du livre blanc du projet : Suite à la phase conceptuelle, un livre blanc complet détaillant la vision, les objectifs et l'infrastructure technologique de SPERO,$$s$ a été publié pour susciter l'intérêt et les retours de la communauté. Construction de la communauté et engagements précoces : Des efforts de sensibilisation actifs ont été entrepris pour construire une communauté d'adopteurs précoces et d'investisseurs potentiels, facilitant les discussions autour des objectifs du projet et recueillant du soutien. Événement de génération de tokens : SPERO,$$s$ a organisé un événement de génération de tokens (TGE) pour distribuer ses tokens natifs aux premiers soutiens et établir une liquidité initiale au sein de l'écosystème. Lancement de la première dApp : La première application décentralisée (dApp) associée à SPERO,$$s$ a été mise en ligne, permettant aux utilisateurs d'interagir avec les fonctionnalités principales de la plateforme. Développement continu et partenariats : Des mises à jour et des améliorations continues des offres du projet, y compris des partenariats stratégiques avec d'autres acteurs de l'espace blockchain, ont façonné SPERO,$$s$ en un acteur compétitif et évolutif sur le marché crypto. Conclusion SPERO,$$s$ se dresse comme un témoignage du potentiel du web3 et de la cryptomonnaie pour révolutionner les systèmes financiers et autonomiser les individus. Avec un engagement envers la gouvernance décentralisée, l'engagement communautaire et des fonctionnalités conçues de manière innovante, il ouvre la voie vers un paysage financier plus inclusif. Comme pour tout investissement dans l'espace crypto en rapide évolution, les investisseurs et utilisateurs potentiels sont encouragés à mener des recherches approfondies et à s'engager de manière réfléchie avec les développements en cours au sein de SPERO,$$s$. Le projet illustre l'esprit d'innovation de l'industrie crypto, invitant à une exploration plus approfondie de ses nombreuses possibilités. Bien que le parcours de SPERO,$$s$ soit encore en cours, ses principes fondamentaux pourraient en effet influencer l'avenir de nos interactions avec la technologie, la finance et entre nous dans des écosystèmes numériques interconnectés.

127 vues totalesPublié le 2024.12.17Mis à jour le 2024.12.17

Qu'est ce que AGENT S

Agent S : L'avenir de l'interaction autonome dans Web3 Introduction Dans le paysage en constante évolution de Web3 et des cryptomonnaies, les innovations redéfinissent constamment la manière dont les individus interagissent avec les plateformes numériques. Un projet pionnier, Agent S, promet de révolutionner l'interaction homme-machine grâce à son cadre agentique ouvert. En ouvrant la voie à des interactions autonomes, Agent S vise à simplifier des tâches complexes, offrant des applications transformantes dans l'intelligence artificielle (IA). Cette exploration détaillée plongera dans les subtilités du projet, ses caractéristiques uniques et les implications pour le domaine des cryptomonnaies. Qu'est-ce qu'Agent S ? Agent S se présente comme un cadre agentique ouvert révolutionnaire, spécifiquement conçu pour relever trois défis fondamentaux dans l'automatisation des tâches informatiques : Acquisition de connaissances spécifiques au domaine : Le cadre apprend intelligemment à partir de diverses sources de connaissances externes et d'expériences internes. Cette approche double lui permet de construire un riche répertoire de connaissances spécifiques au domaine, améliorant ainsi sa performance dans l'exécution des tâches. Planification sur de longs horizons de tâches : Agent S utilise une planification hiérarchique augmentée par l'expérience, une approche stratégique qui facilite la décomposition et l'exécution efficaces de tâches complexes. Cette fonctionnalité améliore considérablement sa capacité à gérer plusieurs sous-tâches de manière efficace et efficiente. Gestion d'interfaces dynamiques et non uniformes : Le projet introduit l'Interface Agent-Ordinateur (ACI), une solution innovante qui améliore l'interaction entre les agents et les utilisateurs. En utilisant des Modèles de Langage Multimodaux de Grande Taille (MLLMs), Agent S peut naviguer et manipuler sans effort diverses interfaces graphiques. Grâce à ces fonctionnalités pionnières, Agent S fournit un cadre robuste qui aborde les complexités impliquées dans l'automatisation de l'interaction humaine avec les machines, préparant le terrain pour d'innombrables applications en IA et au-delà. Qui est le créateur d'Agent S ? Bien que le concept d'Agent S soit fondamentalement innovant, des informations spécifiques sur son créateur restent insaisissables. Le créateur est actuellement inconnu, ce qui souligne soit le stade naissant du projet, soit le choix stratégique de garder les membres fondateurs sous le radar. Quoi qu'il en soit, l'accent reste mis sur les capacités et le potentiel du cadre. Qui sont les investisseurs d'Agent S ? Étant donné qu'Agent S est relativement nouveau dans l'écosystème cryptographique, des informations détaillées concernant ses investisseurs et soutiens financiers ne sont pas explicitement documentées. Le manque d'aperçus publiquement disponibles sur les fondations d'investissement ou les organisations soutenant le projet soulève des questions sur sa structure de financement et sa feuille de route de développement. Comprendre le soutien est crucial pour évaluer la durabilité du projet et son impact potentiel sur le marché. Comment fonctionne Agent S ? Au cœur d'Agent S se trouve une technologie de pointe qui lui permet de fonctionner efficacement dans divers environnements. Son modèle opérationnel est construit autour de plusieurs caractéristiques clés : Interaction homme-ordinateur semblable à l'humain : Le cadre offre une planification IA avancée, s'efforçant de rendre les interactions avec les ordinateurs plus intuitives. En imitant le comportement humain dans l'exécution des tâches, il promet d'élever l'expérience utilisateur. Mémoire narrative : Utilisée pour tirer parti des expériences de haut niveau, Agent S utilise la mémoire narrative pour suivre les historiques de tâches, améliorant ainsi ses processus de prise de décision. Mémoire épisodique : Cette fonctionnalité fournit aux utilisateurs un accompagnement étape par étape, permettant au cadre d'offrir un soutien contextuel au fur et à mesure que les tâches se déroulent. Support pour OpenACI : Avec la capacité de fonctionner localement, Agent S permet aux utilisateurs de garder le contrôle sur leurs interactions et flux de travail, s'alignant avec l'éthique décentralisée de Web3. Intégration facile avec des API externes : Sa polyvalence et sa compatibilité avec diverses plateformes IA garantissent qu'Agent S peut s'intégrer sans effort dans des écosystèmes technologiques existants, en faisant un choix attrayant pour les développeurs et les organisations. Ces fonctionnalités contribuent collectivement à la position unique d'Agent S dans l'espace crypto, alors qu'il automatise des tâches complexes en plusieurs étapes avec un minimum d'intervention humaine. À mesure que le projet évolue, ses applications potentielles dans Web3 pourraient redéfinir la manière dont les interactions numériques se déroulent. Chronologie d'Agent S Le développement et les jalons d'Agent S peuvent être encapsulés dans une chronologie qui met en évidence ses événements significatifs : 27 septembre 2024 : Le concept d'Agent S a été lancé dans un document de recherche complet intitulé “Un cadre agentique ouvert qui utilise les ordinateurs comme un humain”, présentant les bases du projet. 10 octobre 2024 : Le document de recherche a été rendu publiquement disponible sur arXiv, offrant une exploration approfondie du cadre et de son évaluation de performance basée sur le benchmark OSWorld. 12 octobre 2024 : Une présentation vidéo a été publiée, fournissant un aperçu visuel des capacités et des caractéristiques d'Agent S, engageant davantage les utilisateurs et investisseurs potentiels. Ces jalons dans la chronologie illustrent non seulement les progrès d'Agent S, mais indiquent également son engagement envers la transparence et l'engagement communautaire. Points clés sur Agent S Alors que le cadre Agent S continue d'évoluer, plusieurs attributs clés se distinguent, soulignant sa nature innovante et son potentiel : Cadre innovant : Conçu pour offrir une utilisation intuitive des ordinateurs semblable à l'interaction humaine, Agent S propose une approche nouvelle de l'automatisation des tâches. Interaction autonome : La capacité d'interagir de manière autonome avec les ordinateurs via une interface graphique signifie un bond vers des solutions informatiques plus intelligentes et efficaces. Automatisation des tâches complexes : Avec sa méthodologie robuste, il peut automatiser des tâches complexes en plusieurs étapes, rendant les processus plus rapides et moins sujets aux erreurs. Amélioration continue : Les mécanismes d'apprentissage permettent à Agent S de s'améliorer grâce à ses expériences passées, améliorant continuellement sa performance et son efficacité. Polyvalence : Son adaptabilité à travers différents environnements d'exploitation comme OSWorld et WindowsAgentArena garantit qu'il peut servir un large éventail d'applications. Alors qu'Agent S se positionne dans le paysage Web3 et crypto, son potentiel à améliorer les capacités d'interaction et à automatiser les processus représente une avancée significative dans les technologies IA. Grâce à son cadre innovant, Agent S incarne l'avenir des interactions numériques, promettant une expérience plus fluide et efficace pour les utilisateurs à travers divers secteurs. Conclusion Agent S représente un saut audacieux en avant dans le mariage de l'IA et de Web3, avec la capacité de redéfinir notre interaction avec la technologie. Bien qu'il soit encore à ses débuts, les possibilités de son application sont vastes et convaincantes. Grâce à son cadre complet abordant des défis critiques, Agent S vise à mettre les interactions autonomes au premier plan de l'expérience numérique. À mesure que nous plongeons plus profondément dans les domaines des cryptomonnaies et de la décentralisation, des projets comme Agent S joueront sans aucun doute un rôle crucial dans la façon dont la technologie et la collaboration homme-machine évolueront à l'avenir.

889 vues totalesPublié le 2025.01.14Mis à jour le 2025.01.14

Comment acheter S

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Sonic (S) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Sonic (S).Solde ：utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers ：pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P ：tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Sonic (S)Après avoir acheté vos Sonic (S), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Sonic (S)Tradez facilement Sonic (S) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

1.9k vues totalesPublié le 2025.01.15Mis à jour le 2026.06.02

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de S (S) sont présentées ci-dessous.