Panorama du marché de l'inférence IA : comment les projets crypto peuvent-ils se démarquer ?

Foresight NewsPublié le 2026-06-25Dernière mise à jour le 2026-06-25

Résumé

**Résumé : Le marché de l'inférence AI, nouvel enjeu économique** Le centre de gravité de l'économie AI se déplace de l'entraînement des modèles vers l'**inférence** – le processus de génération de réponses par un modèle. Ce marché, comparé à un jeu de "Risk", voit divers acteurs se disputer des territoires distincts. Les **fournisseurs traditionnels** (hyperscalers comme AWS, routeurs comme OpenRouter, spécialistes des modèles open source) dominent sur la fiabilité, l'expérience développeur et les processus d'entreprise. Les **réseaux cryptographiques** (Chutes, Akash, io.net, Targon, Venice, etc.) explorent des avantages différents : accès ouvert, offre à moindre coût, **confidentialité**, calcul vérifiable et nouveaux mécanismes d'incitation natifs pour les agents autonomes. Le **niveau routeur** (ex: OpenRouter) devient stratégique. Il agrège l'offre et achemine chaque requête vers le meilleur fournisseur selon le prix, la latence ou la confidentialité, devenant l'interface du marché. L'analyse distingue plusieurs catégories dans le camp crypto : réseaux d'inférence sans serveur (Chutes), marchés de GPU décentralisés (Akash, io.net), calcul confidentiel (Targon), applications privées (Venice, Darkbloom) et couches d'orchestration (NuNet). Pour réussir, les projets crypto doivent démontrer une **demande payante réelle**, une intégration aux routeurs, des garanties de vérification et de confidentialité solides, et une capture de valeur tangible par leurs jetons. La c...


Article rédigé par : 0xSammy (Khala Research)

Compilé par : AIdidiaoJP, Foresight News


Le marché actuel de l'inférence IA ne ressemble plus à un simple marché de services cloud, mais plutôt à une partie d'échecs « risquée ». Chaque fournisseur se bat pour des territoires différents : les hyperscalers contrôlent le continent des entreprises, les routeurs tiennent les routes commerciales, et les réseaux décentralisés se battent farouchement en première ligne ouverte.


Le cœur du précédent cycle IA était l'entraînement des modèles, mais il devient de plus en plus évident que l'inférence contient une énorme valeur économique. Beaucoup entendent peut-être le terme « inférence » pour la première fois, alors de quoi s'agit-il exactement ?


L'entraînement crée des modèles IA, tandis que l'inférence est le processus par lequel le modèle génère une réponse lorsque quelqu'un lui pose une question ou lui donne une tâche.


Panorama du marché de l'inférence IA


La phase d'entraînement fait la une car elle sous-tend les sorties impressionnantes. Mais en réalité, l'inférence capture actuellement la majeure partie de la valeur économique - chaque prompt, boucle d'agent, génération d'image, exécution de transaction, appel d'outil et édition de code doit s'exécuter quelque part.


Les routeurs sont le véritable goulet d'étranglement


Dans une partie d'échecs « risquée », les territoires les plus précieux sont souvent les goulets d'étranglement étroits qui déterminent le prochain mouvement des armées. Dans le marché de l'inférence, les routeurs jouent exactement le même rôle. Positionnés entre la demande et l'offre, ils décident où chaque requête est acheminée et quel fournisseur est rémunéré.


Un exemple typique est OpenRouter, dont le protocole a traité 4700 billions de tokens la semaine dernière.


Cette activité économique ne montre aucun signe de ralentissement, surtout avec des billions d'agents sur le point de se déployer.



De quoi a donc besoin un marché complet de l'inférence ? Les éléments clés incluent :


  • Le token devient l'unité de compte
  • OpenRouter devient rapidement la couche d'échange centrale, avec 4700 billions de tokens utilisés la semaine dernière via son marché de LLM.
  • Côté offre spécialisée : Fireworks, Together, Replicate, Baseten, Groq et les grands hyperscalers.
  • Réseaux IA crypto : des projets comme Chutes, Akash, io.net, Nosana, Targon, Venice, NuNet, construisent la version sous-jacente sans autorisation.


Il ne faut pas considérer tous ces fournisseurs comme étant en compétition sur le même marché – ce n'est pas du tout le cas.


Les fournisseurs traditionnels vendent la fiabilité, l'expérience développeur et les processus d'approvisionnement d'entreprise.


Les réseaux IA crypto mettent en avant une offre moins chère, l'accès ouvert, la confidentialité, la vérifiabilité et de nouvelles boucles d'incitation.


L'événement récent où Anthropic a interdit l'utilisation de son modèle Mythos (Fable 5) aux utilisateurs hors des États-Unis a rappelé à beaucoup les risques de dépendre excessivement à un seul modèle propriétaire de pointe.


Il est intéressant de noter que les deux mondes commencent à se chevaucher : confidentialité, calcul confidentiel ou paiements natifs pour agents (Venice et Targon excellent dans ce domaine).


Comment envisager le marché de la puissance de calcul IA


Une meilleure perspective consiste à diviser le marché en deux grands camps : traditionnel et crypto.



Le côté traditionnel vend la fiabilité, l'expérience développeur et l'approvisionnement d'entreprise.


Les réseaux crypto sont principalement en compétition sur l'accès ouvert, une offre à coût inférieur, la confidentialité, la vérifiabilité et de nouveaux mécanismes d'incitation, pour coordonner le capital de manière transparente à l'échelle mondiale.


Pourquoi l'inférence est le véritable marché de l'IA


La couche modèle reste importante, mais la qualité des modèles se comprime à une vitesse qui dépasse les attentes. Les modèles open source atteignent 90 à 95 % de la qualité des modèles de pointe, pour seulement 10 % de leur coût (par exemple, GLM-5.2 de Z.ai).



Les modèles open source itèrent continuellement, les laboratoires chinois continuent de faire baisser les prix. Les modèles de pointe maintiennent encore une prime, mais en dessous, la concurrence sur les prix des tokens est déjà féroce.



C'est précisément pourquoi la couche de routage devient cruciale : le même modèle open source peut être proposé par cinq fournisseurs différents à cinq prix différents. Les développeurs ne veulent pas coder en dur un point de terminaison pour toujours, ils ont besoin d'un routeur.



Un routeur peut choisir en fonction du prix, de la latence, de la confidentialité, de la fiabilité et de nombreux autres facteurs.



Il se situe au-dessus de tous les fournisseurs, transformant un paysage chaotique en une interface propre et unifiée.


C'est ce qu'OpenRouter fait bien, et cela explique pourquoi les fonds de capital-risque ont investi 113 millions de dollars dans un tour de financement série B récent pour saisir cette opportunité de routage.



OpenRouter devient rapidement l'interface du marché : une seule clé pour accéder à des centaines de modèles sur de multiples fournisseurs. La vraie valeur ne réside pas dans la liste des modèles, mais dans le fait qu'une même requête peut être acheminée vers le fournisseur le plus adapté à la tâche.


Cela commence à ressembler au marché de l'énergie : les utilisateurs ne se soucient pas de savoir quelle centrale électrique a produit l'électricité, ils veulent juste que la lumière s'allume, que le prix soit équitable et que le système soit stable.



Les utilisateurs d'IA penseront de plus en plus ainsi – ils ne se soucient pas de savoir quel cluster de GPU a servi ce token, ils veulent juste une réponse rapide, peu coûteuse, privée et fiable.


Fournisseurs d'inférence traditionnels



Le côté traditionnel se différencie en quatre catégories :


i) Hyperscalers : AWS, Google, Microsoft


Ils contrôlent les « continents fortifiés ». Ils ne gagnent pas parce qu'ils sont toujours les moins chers, mais parce qu'ils contrôlent déjà les processus d'approvisionnement d'entreprise, de conformité, d'identité, de sécurité et de facturation. Attaquer de front cette position coûte très cher.


Ils gagnent grâce à la confiance des entreprises. Les grandes entreprises n'achètent pas seulement des tokens, mais aussi la conformité, la sécurité, la facilité d'approvisionnement et la responsabilité en cas de problème.


ii) Marchés de routage : OpenRouter et diverses passerelles IA


Les routeurs se situent au-dessus des fournisseurs de modèles, envoyant chaque requête vers la meilleure option. Alors que le leadership des modèles change chaque semaine, coder en dur un seul modèle semble de plus en plus fragile. L'IA a besoin d'agrégateurs, tout comme dans l'espace crypto.


iii) Service de modèles open source optimisés : Together, Fireworks, Baseten, Groq


Ce ne sont pas seulement des API bon marché, mais des entreprises d'infrastructure de performance axées sur la vitesse, le traitement par lots, la mise à l'échelle, le fine-tuning, les points de terminaison personnalisés et le support de production.


iv) Marchés de modèles : Replicate et plateformes similaires comme Hugging Face


L'inférence va bien au-delà du chat. Les images, la vidéo, la voix, les embeddings, les modèles robotiques, la simulation et les agents multimodaux nécessitent tous l'exécution de modèles. Les marchés rendent accessibles les besoins en modèles de longue traîne.


Fournisseurs d'inférence IA crypto


Les réseaux décentralisés sont les « territoires de guérilla ».


Les réseaux d'inférence crypto n'essaient pas de dépenser plus d'argent sur le champ de bataille principal d'AWS. Ils ouvrent de nouveaux fronts : modèles sans censure, offre GPU moins chère, inférence privée, paiements natifs pour agents, et charges de travail ne nécessitant pas la fiabilité au niveau des hyperscalers.


Le côté crypto est souvent simplement étiqueté comme « puissance de calcul décentralisée », ce qui est trop vague. Il existe au moins cinq orientations différentes :


  • Réseaux d'inférence sans serveur
  • Marchés GPU décentralisés
  • Réseaux de calcul confidentiel
  • Applications et passerelles IA privées
  • Couche d'orchestration


Ils ne doivent pas être analysés de manière équivalente.


i) Chutes : inférence native crypto


@chutes_ai est mieux compris comme une plateforme d'inférence décentralisée, et non comme un simple marché de GPU.


L'essentiel est que les développeurs ne veulent pas louer de GPU ou gérer l'infrastructure, ils veulent un point de terminaison qui fonctionne. Chutes sert des modèles open source via une API familière, en utilisant une offre GPU décentralisée en coulisses.


La question clé est de savoir s'il peut transformer l'utilisation de pointe en demande payante et récurrente. Des tokens bon marché sont utiles, mais seulement si les développeurs font confiance à son temps de disponibilité, sa latence et sa fiabilité.


Son revenu par trillion de tokens continue d'augmenter, montrant un potentiel de rentabilité/viabilité durable.



ii) Akash : couche d'enchères GPU


@akashnet est un marché de cloud décentralisé.


Les utilisateurs définissent la puissance de calcul nécessaire, les fournisseurs enchérissent pour fournir, les charges de travail s'exécutent via des baux. C'est plus un marché de puissance de calcul qu'un routeur d'inférence direct.


Il convient le mieux aux charges de travail sensibles au prix, tolérantes aux fluctuations d'infrastructure et ne nécessitant pas d'intégration profonde avec AWS/Azure/Google Cloud. Ses frais ont une certaine corrélation avec le prix du jeton et tendent à la hausse.


iii) io.net : cloud GPU décentralisé


@ionet s'apparente davantage à un fournisseur de cloud GPU décentralisé.


L'argument principal est l'accès à une offre GPU distribuée à moindre coût et avec une configuration plus rapide, adaptée aux équipes IA ayant besoin de puissance de calcul mais ne souhaitant pas s'engager sur des contrats cloud à long terme ou accepter les tarifs des hyperscalers.


Le défi réside dans l'exécution : vérification matérielle, fiabilité, planification, support et performances constantes. L'accès brut aux GPU a de la valeur, mais la couche à marge plus élevée reste le routage, la gestion de l'inférence et l'orchestration.


io.net a connu des performances remarquables au cours des 30 derniers jours, avec des revenus annualisés de 12,3 millions de dollars.



iv) Targon : calcul confidentiel


@TargonCompute (construit par @manifoldlabs) se concentre sur le calcul confidentiel pour les charges de travail IA.


Le problème qu'il résout est évident : de nombreux utilisateurs ne veulent pas exécuter des invites, modèles ou données sensibles sur une infrastructure gérée par des tiers inconnus.


Targon fournit une exécution protégée via des environnements d'exécution de confiance, des machines virtuelles chiffrées, des attestations à distance et une infrastructure GPU confidentielle. En termes simples, il prouve que la charge de travail s'exécute dans un environnement sécurisé et réduit ce que l'opérateur peut voir.


Cela est particulièrement pertinent pour l'inférence privée dans des domaines comme la finance, la santé et l'IA d'entreprise. Le calcul confidentiel n'est pas magique, il déplace la confiance vers le matériel, le micrologiciel et les systèmes d'attestation.


L'année dernière, le protocole a rapporté des revenus annualisés de 10,4 millions de dollars et a co-écrit un article de recherche avec Intel sur la « puissance de calcul décentralisée sur du matériel non fiable ».



v) Darkbloom : inférence privée sur Mac inactifs


Darkbloom (construit par @eigenlabs) prend une voie différente.


Au lieu de répartir de grands modèles sur des GPU aléatoires, il transforme les Mac Apple Silicon inactifs en un réseau d'inférence privé. Les modèles s'exécutent localement sur le Mac, les requêtes sont chiffrées et acheminées vers des fournisseurs vérifiés.


L'argument est la confidentialité et le coût, et non la maximisation des performances des modèles de pointe.


Cela est utile car « aucun nœud ne possède le modèle complet » ne signifie pas automatiquement que l'invite est privée. Darkbloom cible plus explicitement les problèmes de confidentialité, mais doit encore prouver l'échelle de l'offre, les performances et la confiance des développeurs.


Actuellement, le réseau compte 300 machines, ayant servi 20 milliards de tokens et 1 million de requêtes.



vi) Venice : inférence privée grand public


@AskVenice occupe une position différente des réseaux comme Akash ou io.net. Il ressemble davantage à une application IA privée et une passerelle d'inférence, plutôt qu'à un marché de GPU principal.


Le débit de sa passerelle atteint 85 milliards de tokens par jour (selon @ErikVoorhees).



La plupart des utilisateurs veulent un produit IA qui respecte la vie privée, donne accès à des modèles puissants et ne collecte pas massivement de données.


Venice enveloppe l'idée d'infrastructure dans une expérience orientée consommateur, centrée sur les invites privées, les modèles open source, l'accès sans censure, les fonctionnalités API et la puissance de calcul tokenisée via VVV et DIEM.


Le composant DIEM est particulièrement intéressant, car il pointe vers une idée plus large d'économie d'agents : donner un accès quotidien à 1 dollar de puissance de calcul. Le marché a récemment attribué un prix intéressant à ce concept.


Si un agent a besoin d'un accès continu à l'inférence, les crédits de puissance de calcul commencent à ressembler à des actifs natifs pour agents, et un marché secondaire entier peut être construit autour.


Un agent qui peut directement détenir et dépenser des droits de puissance de calcul est plus pratique qu'un agent qui dépend d'un humain rechargant régulièrement une carte de crédit.


Cela met en lumière une thèse plus profonde de l'IA crypto : les agents finiront par avoir besoin d'accéder à des fonds, une identité, une mémoire et de la puissance de calcul, et les systèmes crypto fournissent un cadre pour la programmation de ces ressources.


Venice ne rivalise pas directement avec OpenRouter sur la largeur des modèles, mais sur la confidentialité, l'accès et la puissance de calcul tokenisée. C'est une niche légitime, mais la question clé est de savoir si la demande pour un produit IA privé sera suffisamment grande pour soutenir un modèle de jeton au-delà du cycle narratif actuel. Mon jugement est qu'avec la prolifération de l'IA, le récit sur la confidentialité ne fera que se renforcer.


vii) NuNet : orchestration de puissance de calcul distribuée


@nunet_global est souvent classé parmi les projets de puissance de calcul décentralisée, mais un cadre plus utile est « l'orchestration ».


L'orchestration implique de faire correspondre les charges de travail aux ressources de puissance de calcul les plus adaptées et de coordonner l'exécution entre différentes machines, environnements et emplacements.



Cela devient de plus en plus important à mesure que l'IA dépasse l'infrastructure cloud centralisée.


Les futurs systèmes d'IA fonctionneront probablement à travers des GPU cloud, des appareils périphériques, des serveurs locaux, des robots, des téléphones, des capteurs et des réseaux de fournisseurs décentralisés.


Un robot d'entrepôt ne peut peut-être pas attendre une réponse API inter-régions ; un drone ne peut pas supposer une connexion parfaite à tout moment ; un robot en milieu sauvage doit exécuter des inférences localement lorsque le réseau est peu fiable.


Par conséquent, l'orchestration devient une catégorie distincte et significative.


Le défi pour NuNet est de savoir s'il peut transformer ce problème de coordination en un réseau économique fonctionnel avec une offre, une demande et une adoption suffisantes par les développeurs.


viii) OpenServ : orchestration d'agents, pas seulement d'inférence


@openservai est mieux compris comme une plateforme d'infrastructure et d'orchestration d'agents, plutôt qu'un réseau d'inférence décentralisé.


Cela est important, car les agents sont l'une des sources de demande d'inférence les plus claires pour l'avenir. Un chatbot ordinaire n'appelle peut-être le modèle qu'une seule fois, tandis qu'un agent appellera le modèle à plusieurs reprises : inférence, utilisation d'outils, vérification de la sortie, appel d'un autre modèle, action, puis boucle.


Cela crée une forte demande d'inférence, ce qui a déjà attiré l'attention dans l'espace crypto.


OpenServ est donc pertinent pour le marché de l'inférence du côté de la demande, plutôt que de l'offre. Si la plateforme peut devenir un endroit utile où les développeurs construisent, déploient et orchestrent des agents, elle deviendra naturellement la couche qui achemine l'inférence vers différents fournisseurs en coulisses.


La question clé est de savoir si OpenServ peut devenir une véritable couche d'exécution d'agents, ou n'est qu'un autre marché d'agents avec un jeton.


Après plusieurs échanges avec l'équipe, je pense que ses capacités vont au-delà de la seconde option, son cadre d'inférence a montré des performances de référence notables, et sa feuille de route comprend même ses propres modèles propriétaires.


Si OpenServ peut maîtriser le flux de travail opérationnel des agents, l'inférence devient une entrée pour la plateforme, et non le produit principal.


Dans un monde d'agents, la couche la plus précieuse sera celle où les agents passent le plus de temps et de ressources continuellement.


ix) Dolphin AI : inférence décentralisée pilotée par les produits


@dphnAI est intéressant car il a commencé par la demande de modèles, plutôt que par le marché de GPU.


La famille de modèles Dolphin a déjà la réputation de modèles open source sans censure, ce qui donne au réseau une raison d'être plus claire.


C'est important, car de nombreux projets d'inférence décentralisée sont axés sur l'offre : « Nous avons des GPU, qui va les acheter maintenant ? »


Dolphin fait l'inverse : partir d'un ensemble de modèles que les gens veulent déjà utiliser, puis construire un réseau d'inférence décentralisé autour de cette demande.


Son architecture est souvent appelée peer-to-pool : les propriétaires de GPU contribuent de la capacité à un pool de modèles spécifique, plutôt que chaque acheteur louant directement un nœud spécifique. Les requêtes sont acheminées vers le pool, et les nœuds disponibles les traitent.


Ceci est une meilleure conception pour une offre consommateurs peu fiable. Si quelqu'un contribue un GPU de jeu inactif, il ne restera peut-être pas toujours en ligne ; un pool de modèles peut absorber cette volatilité plus naturellement qu'un marché de location en pair à pair.


Plus intéressant encore est la vérification. Dolphin promeut des « preuves de poids en temps réel ». En termes simples, il s'agit de vérifier si les poids du modèle réellement chargés pendant le service correspondent au modèle que le nœud prétend exécuter.


C'est important, car la tricherie est l'un des problèmes les plus difficiles de l'inférence décentralisée. Un nœud peut prétendre exécuter un modèle coûteux, mais servir secrètement une version plus petite, moins chère ou quantifiée du modèle. Si le réseau ne peut pas le détecter, tout le marché perd en crédibilité.


x) c0mpute : inférence distribuée pour les agents


@c0mputeAI mérite d'être suivi car il tente de résoudre l'un des problèmes les plus difficiles de l'inférence décentralisée : exécuter de grands modèles sur des GPU dispersés sur l'internet ouvert.


Son moteur Shard répartit le modèle sur plusieurs machines, plutôt que de demander à un serveur géant d'héberger le modèle complet. Cela est particulièrement pertinent pour les modèles open source de pointe qui pourraient être trop grands ou restreints pour passer par les voies d'hébergement classiques.


Le lien avec @virtuals_io est un angle de demande clé. Virtuals construit une économie d'agents, et les agents sont de gros utilisateurs d'inférence : ils planifient, appellent des outils, font des transactions, vérifient les résultats et bouclent. Cela crée une demande pour une inférence bon marché, ouverte et résistante à la censure.


La mise en garde est que cela en est encore à un stade précoce. c0mpute doit prouver ses performances sous une charge réelle, la fiabilité des nœuds, la vérification et la confidentialité des invites.


Mais la direction est importante : un marché de GPU vend l'accès à la puissance de calcul ; c0mpute tente de distribuer le modèle lui-même.


Inférence traditionnelle vs crypto


Les deux coexisteront, chacun ayant des avantages distincts évidents et compréhensibles.



Sur quoi se concentrer


Volume de tokens payants


Le marché devrait s'éloigner des statistiques brutes de traitement de tokens, à moins que ces tokens ne génèrent des revenus. L'activité en niveau gratuit et l'utilisation subventionnée peuvent créer des chiffres impressionnants, mais ne prouvent pas une réelle adéquation produit-marché.


La demande d'inférence payante est la métrique clé – elle est plus durable et peut soutenir la viabilité à long terme.


ii) Revenu par GPU


Les réseaux de puissance de calcul décentralisés ne sont durables que si la valeur gagnée par les GPU au sein du réseau est supérieure à celle de l'extérieur. Si les émissions sont la principale raison de la participation des fournisseurs, l'offre disparaîtra une fois que les incitations diminueront. Les fournisseurs de GPU calculent le coût d'opportunité.


iii) Intégration des routeurs : distribution


La distribution est souvent plus importante que l'infrastructure elle-même.


Les intégrations OpenRouter, les agents de codage, les portefeuilles, les points de terminaison de paiement, les outils de développement et les applications grand public sont toutes des sources potentielles de demande.


Les points de terminaison de paiement sont des canaux par lesquels les logiciels peuvent payer directement pour des services via une API.


iv) Vérification


La tricherie GPU, la fausse capacité et les fournisseurs peu fiables restent des risques réels.


Les réseaux ont besoin d'une vérification matérielle robuste, d'un trafic chiffré, de systèmes de réputation et de sanctions significatives contre les mauvais comportements.


v) Garanties de confidentialité


L'inférence privée reste l'une des meilleures opportunités pour l'IA crypto, mais les garanties doivent être réelles. Le marketing de la confidentialité est facile ; l'exécution sécurisée, l'architecture locale prioritaire, la minimisation des données et l'infrastructure auditables sont bien plus difficiles.


vi) Capture de valeur du jeton


Les modèles de jeton les plus forts lieront directement la demande à une utilisation réelle de l'inférence. Cela peut impliquer des rachats, des brûlures, des exigences de jalonnement, des droits de puissance de calcul ou des mécanismes liés aux revenus.


Compter uniquement sur le récit général de l'IA ne suffira probablement pas à long terme.


Conclusions principales


Le jeu final est le contrôle de la demande


Dans une partie d'échecs « risquée », posséder simplement des territoires épars ne suffit pas. Il faut des zones connectées, des routes de renfort et des lignes d'approvisionnement durables.


Il en va de même sur le marché de l'inférence. Les gagnants contrôleront la demande, le routage, la vérification et le règlement ; posséder simplement des GPU ne suffit pas.


Le marché de l'inférence fait commencer l'IA à ressembler à un système financier :


  • Chaque token généré porte un coût,
  • Chaque point de terminaison comporte une marge,
  • Chaque boucle d'agent crée de la demande,
  • Chaque routeur agit comme un teneur de marché,
  • Chaque réseau GPU devient une source d'offre...


Les fournisseurs traditionnels dominent actuellement la couche d'expérience développeur et de confiance des entreprises.


Les réseaux IA crypto explorent une autre frontière : offre sans autorisation, inférence privée, puissance de calcul vérifiable, accès tokenisé et paiements natifs pour agents (sans restriction KYC).


À court terme, les gagnants ne seront probablement pas les réseaux les plus décentralisés, mais plutôt ceux qui rendent l'inférence décentralisée banale et fiable – via des points de terminaison rapides, une documentation solide, un temps de disponibilité fiable, une tarification transparente, une offre vérifiée et une demande payante réelle.


Chutes reste l'un des projets à suivre de près, car il est le plus proche de transformer la puissance de calcul soutenue par Bittensor en un marché d'inférence fonctionnel, plutôt qu'un simple récit sur les GPU. Il en va de même pour « Darkbloom » d'Eigen Labs.


Akash et io.net représentent les challengers côté offre, Targon représente la thèse du calcul confidentiel, Venice représente la couche de demande d'IA privée, NuNet représente l'orchestration d'un avenir plus distribué de la puissance de calcul.


La thèse plus large :


« Les modèles d'IA pourraient devenir de plus en plus des produits de base, mais le marché de l'inférence ne suivra probablement pas la même trajectoire. »


La plus grande valeur reviendra aux entités qui acheminent le travail, vérifient le travail, règlent le travail et capturent la demande.


C'est précisément là que pourrait se trouver la prochaine opportunité d'IA crypto... du moins jusqu'à ce que l'IA physique devienne compétente dans la société.

Questions liées

QQu'est-ce que l'inférence dans le contexte de l'intelligence artificielle et en quoi diffère-t-elle de l'entraînement ?

ADans le contexte de l'IA, l'inférence (inference) est le processus par lequel un modèle d'IA génère une réponse lorsqu'on lui pose une question ou qu'on lui confie une tâche. Contrairement à l'entraînement, qui consiste à créer le modèle, l'inférence est la phase d'utilisation pratique qui génère la plupart des bénéfices économiques actuels, car chaque prompt, génération d'image ou appel d'outil nécessite une exécution.

QSelon l'article, quel est le rôle d'un 'routeur' (comme OpenRouter) dans le marché de l'inférence AI, et pourquoi est-il considéré comme crucial ?

ADans le marché de l'inférence AI, un routeur (comme OpenRouter) agit comme un goulot d'étranglement et une couche d'échange cruciale. Il se situe entre la demande et l'offre, décidant où acheminer chaque requête et quel fournisseur sera rémunéré. Il est crucial car il transforme un paysage fragmenté de nombreux fournisseurs de modèles en une interface unifiée et propre, permettant de router les requêtes vers le fournisseur optimal en fonction du prix, de la latence, de la confidentialité ou de la fiabilité.

QQuels sont les principaux avantages concurrentiels des réseaux d'inférence AI cryptographiques (comme Chutes, Akash) par rapport aux fournisseurs traditionnels (comme AWS) ?

ALes réseaux d'inférence AI cryptographiques ne cherchent pas à concurrencer les fournisseurs traditionnels comme AWS sur leur terrain principal (fiabilité, expérience développeur, processus d'achat d'entreprise). Leurs avantages concurrentiels résident dans la création de nouveaux fronts : offre de calcul moins chère, accès ouvert et sans autorisation, confidentialité, vérifiabilité, calcul confidentiel, paiements natifs pour les agents et nouveaux cycles d'incitation permettant une coordination mondiale du capital sans friction.

QParmi les projets cryptographiques mentionnés, lequel se concentre spécifiquement sur le 'calcul confidentiel' (confidential computing) et quel problème résout-il ?

ALe projet cryptographique Targon (développé par Manifold Labs) se concentre spécifiquement sur le calcul confidentiel pour les charges de travail d'IA. Il résout le problème de la confiance et de la confidentialité : de nombreux utilisateurs ne veulent pas exécuter des prompts, modèles ou données sensibles sur une infrastructure gérée par un tiers inconnu. Targon fournit une exécution protégée via des environnements d'exécution de confiance (TEE), des machines virtuelles chiffrées et une infrastructure GPU confidentielle, transférant ainsi la confiance vers le matériel et des systèmes de preuve.

QQuel indicateur clé l'article suggère-t-il de surveiller pour évaluer la viabilité à long terme des réseaux d'inférence décentralisés, au-delà du simple nombre de tokens traités ?

AL'article suggère de surveiller le volume de tokens payants (paid token volume) comme indicateur clé de la viabilité à long terme. Cet indicateur est plus durable et démontre une adéquation réelle produit-marché, contrairement aux statistiques sur le volume brut de tokens qui peuvent inclure une activité en couche gratuite ou subventionnée. Un autre indicateur important est le revenu par GPU, car un réseau n'est durable que si les GPU y gagnent plus de valeur qu'à l'extérieur.

Lectures associées

Un ancien ingénieur de SpaceX réinvente l'exécution financière à partir des premiers principes

L'infrastructure financière Plan Execution Lab, fondée par l'ancien ingénieur de SpaceX Lex Li, a levé un financement angel, portant sa valorisation à 50 millions de dollars. L'entreprise applique le raisonnement par les principes premiers (First Principles) au secteur financier, identifiant l'exécution – et non la simple transaction – comme la fonction fondamentale du marché pour l'allocation du capital. Alors que les actifs, la liquidité et le règlement migrent sur la blockchain, l'exécution reste fragmentée et dépendante du travail humain. Avec l'avènement des IA et des agents autonomes, la durée de vie des stratégies se raccourcit considérablement. La réponse de Plan Execution Lab n'est pas une meilleure stratégie unique, mais la construction d'un réseau d'exécution ouvert et modulaire. Leur solution repose sur deux piliers : **PlanX**, un protocole d'exécution financière servant d'infrastructure pour la migration des flux des échanges centralisés (CEX) vers le web3, et **Xgent**, un environnement d'exécution autonome (Autonomous Financial Runtime). Xgent permet aux utilisateurs de définir une intention (objectifs, risque, contraintes), qui est automatiquement traduite en un graphe d'exécution, vérifiée et exécutée de manière autonome. L'ambition à long terme est de devenir l'environnement opérationnel de la finance autonome, l'équivalent d'un Bloomberg Terminal pour les agents. L'écosystème sera construit collectivement par des nœuds d'exécution, des fournisseurs de liquidité, des contributeurs de stratégies et des agents autonomes. La conviction fondamentale est que la compétition financière future ne se jouera pas sur la qualité d'une stratégie isolée, mais sur la puissance et la résilience du réseau d'exécution sous-jacent.

链捕手Il y a 8 mins

Un ancien ingénieur de SpaceX réinvente l'exécution financière à partir des premiers principes

链捕手Il y a 8 mins

Un ancien ingénieur de SpaceX utilise les principes premiers pour reconstruire le système d'exécution financière

Plan Execution Lab, fondé par l'ancien ingénieur SpaceX Lex Li, a levé un financement angel évaluant la société à 500 millions de dollars. L'entreprise applique le raisonnement par "principes premiers" à la finance, identifiant l'exécution, et non la simple transaction, comme la fonction centrale des marchés pour l'allocation du capital. Alors que l'actif, la liquidité et le règlement migrent sur la blockchain, la couche d'exécution reste fragmentée et dépendante du travail humain. Avec l'avènement des agents IA, la durée de vie des stratégies se raccourcit, faisant de la capacité d'exécution continue la nouvelle compétence clé. Plan Execution Lab propose deux produits pour reconstruire cette infrastructure : PlanX, un protocole d'exécution financière pour la migration des flux des CEX vers le DEX, et Xgent, un environnement d'exécution autonome. Xgent permet aux utilisateurs de définir leurs intentions (objectifs, risque), qui sont automatiquement traduites en un graphe d'exécution, vérifiées et exécutées. La vision à long terme est de créer l'équivalent d'un "Bloomberg Terminal" pour la finance autonome : un réseau d'exécution ouvert et collaboratif, composé de nœuds (gestion des risques, liquidité, etc.) et d'agents, où la compétitivité proviendra non pas d'une stratégie unique, mais de la puissance du réseau d'exécution lui-même.

marsbitIl y a 9 mins

Un ancien ingénieur de SpaceX utilise les principes premiers pour reconstruire le système d'exécution financière

marsbitIl y a 9 mins

Premier ensemble de données d'entraînement Doc2Repo de longue portée, les agents de code vont au-delà de la correction de bugs pour commencer à créer des dépôts

L'équipe du Gaoling Institute of Artificial Intelligence de l'Université Renmin de Chine a récemment publié DeNovoSWE, le premier grand ensemble de données d'entraînement pour des tâches de génération de code à long terme au niveau du dépôt. Contrairement aux benchmarks précédents centrés sur la correction de bogues (comme SWE-bench), DeNovoSWE se concentre sur la tâche complexe de génération d'un dépôt logiciel complet et exécutable à partir de zéro, en se basant uniquement sur une documentation détaillée. La méthode utilise une approche "Diviser pour régner" et un mécanisme "Critique & Réparation" automatisé par agents multiples pour construire 4 818 instances de tâches de haute qualité. Elle décompose un dépôt cible en "capacités" fondamentales, génère une documentation structurée alignée sur les évaluations (tests), et assure l'absence de fuite d'informations depuis le code source original. Les expériences montrent que l'entraînement avec DeNovoSWE améliore considérablement les performances des agents de code. Par exemple, le modèle Qwen3-30B-A3B-Instruct a vu son taux de réussite passer de 5.8% à 47.2% sur le benchmark BeyondSWE-Doc2Repo. Cela démontre que des données spécifiquement conçues pour les tâches longues et complexes de génération de dépôts sont essentielles pour faire évoluer les agents de code du rôle de mainteneur à celui d'architecte logiciel capable de planifier et d'implémenter des projets complets.

marsbitIl y a 28 mins

Premier ensemble de données d'entraînement Doc2Repo de longue portée, les agents de code vont au-delà de la correction de bugs pour commencer à créer des dépôts

marsbitIl y a 28 mins

Même CZ loue Hyperliquid comme "génial", mais sa plus grande barrière concurrentielle pourrait aussi être son plus grand risque

Lors d'un podcast, le fondateur de Binance, Changpeng Zhao (CZ), a qualifié la plateforme de trading dérivés Hyperliquid d'"impressionnante", mais a souligné que son modèle "sans KYC et axé sur la décentralisation" est un créneau dans lequel Binance ne peut ni ne souhaite concourir en raison des risques réglementaires. L'article analyse ce commentaire comme mettant en lumière le cœur du défi structurel pour Hyperliquid : son avantage concurrentiel principal est également sa plus grande vulnérabilité. Sa capacité à offrir un marché de contrats perpétuels sans les processus de vérification d'identité (KYC) des plateformes régulées constitue son principal attrait et son "fossé" (moat). Cependant, cet accès facilité la place directement sous le feu des régulateurs. L'Agence britannique de régulation financière (FCA) a déjà émis un avertissement contre Hyperliquid, la qualifiant d'entité non autorisée ciblant potentiellement les utilisateurs britanniques. Cela illustre la tendance des autorités à considérer ces plateformes "on-chain" comme des fournisseurs de services financiers plutôt que comme de simples infrastructures logicielles neutres. Le risque juridique est accru par le précédent américain des poursuites de la CFTC contre bZeroX et Ooki DAO, qui a établi que les structures décentralisées (DAO) pouvaient tomber sous le coup de la régulation. Parallèlement, la concurrence évolue sur les marchés régulés, avec des acteurs comme le Cboe développant des "contrats à terme continus" sur crypto-monnaies, conçus pour imiter l'exposition des perpétuels tout en restant dans un cadre juridique clair. En conclusion, la force d'Hyperliquid – son accès sans KYC – est indissociable de son risque. Sa pérennité dépendra de sa capacité à maintenir cet avantage face à une pression réglementaire croissante, tandis que les plateformes traditionnelles comblent progressivement l'écart au niveau des produits. La question centrale est de savoir si les traders continueront à privilégier la "prime d'accès" offerte par Hyperliquid par rapport à la "décote réglementaire" et à la sécurité juridique des alternatives régulées.

marsbitIl y a 46 mins

Même CZ loue Hyperliquid comme "génial", mais sa plus grande barrière concurrentielle pourrait aussi être son plus grand risque

marsbitIl y a 46 mins

Trading

Spot
Futures
活动图片