Agentic Design Patterns : un livre qui m'a fait redéfinir "ce qu'est vraiment un Agent"

链捕手Publié le 2026-05-25Dernière mise à jour le 2026-05-25

Résumé

"**Agentic Design Patterns**" d'Antonio Gulli offre une vision structurée des agents IA à travers 21 modèles de conception. L'essentiel : un véritable agent va bien au-delà d’un simple LLM (niveau 0). Il se définit par sa capacité à utiliser des outils de façon autonome (niveau 1), à planifier et à pratiquer l’*Ingénierie du Contexte* pour filtrer et optimiser les informations (niveau 2), et, si nécessaire, à collaborer au sein d’équipes multi-agents spécialisées (niveau 3). L’article souligne deux concepts clés. D’abord, l’*Ingénierie du Contexte*, qui dépasse le simple prompt pour gérer stratégiquement les couches d’information (système, données externes, données implicites, boucle de feedback) présentées à l’agent. Ensuite, le modèle *Producteur-Critique* (Reflection), où deux agents aux rôles distincts (création et révision critique) travaillent en boucle pour améliorer continuellement la qualité du résultat, comme dans la génération de code. Il met également en garde contre la complexité inutile : un agent de niveau 2 bien conçu est souvent suffisant. Les systèmes multi-agents (niveau 3) ne sont nécessaires que pour les tâches véritablement complexes et parallélisables, et leur architecture de communication (par exemple, superviseur central ou réseau pair-à-pair) doit correspondre à la nature de la tâche. Enfin, la mémoire de l’agent doit être pensée en trois couches : la session (contexte immédiat), l’état (données temporaires de la tâche) et la mémoire à long terme ...

Auteur : Yanhua

Antonio Gullí est directeur de l'ingénierie chez Google. Il a écrit un livre de 453 pages, dans lequel il décompose le développement d'Agents IA en 21 modèles de conception.

Mais ceci n'est pas une critique de livre. Mon intention en lisant ce livre était très spécifique : j'ai écrit sur le Harness Engineering, sur les leçons tirées des difficultés rencontrées avec Clawdbot, sur cet article "L'Agent IA n'est pas magique" qui décrit sept tournants, du simple brûlage de tokens à une véritable utilité. Après chaque écriture, une question restait en suspens : y avait-il une logique sous-jacente réutilisable derrière tout cela ?

Ce livre m'a donné la réponse, et de manière plus profonde que je ne l'imaginais.

Ce que vous écrivez n'est peut-être pas du tout un Agent

Le jugement le plus sévère du livre se cache dans le prologue.

L'"IA" que la plupart des gens utilisent n'est que du Niveau 0 : un LLM nu, sans outils, sans mémoire, incapable d'agir. Vous lui demandez quel est le meilleur film aux Oscars 2025, il devine. Le livre est très clair : Les choses du Niveau 0 ne sont pas des Agents.

C'est en montant que l'on trouve de vrais Agents :

  • Niveau 1 : Utilisateur d'outils

    L'Agent commence à utiliser des outils : recherche, API, base de données. Mais il ne s'agit pas seulement de "pouvoir appeler une interface", il doit aussi juger lui-même quand l'appeler, quoi appeler et comment utiliser le résultat. Le livre donne un exemple très concret : l'utilisateur demande "Qu'y a-t-il de nouveau comme séries ?", l'Agent réalise lui-même que cette information n'est pas dans ses données d'entraînement, appelle activement l'outil de recherche pour la trouver, puis synthétise le résultat. L'étape clé est la "prise de conscience par lui-même". Ce n'est pas un humain qui lui dit "Va chercher", c'est lui qui juge avoir besoin de chercher. Cette capacité de jugement est le seuil du Niveau 1.

  • Niveau 2 : Penseur stratégique

    Deux choses supplémentaires : la planification et l'Ingénierie de Contexte. Le livre définit l'Ingénierie de Contexte : il ne s'agit pas d'empiler des informations, mais de sélectionner, couper et empaqueter soigneusement le contexte. L'exemple est excellent : l'utilisateur veut trouver un café entre deux lieux. L'Agent appelle d'abord un outil de cartographie pour obtenir un tas de données, puis décide lui-même que "la prochaine étape ne nécessite que les noms de rues", il réduit la sortie de la carte à une courte liste, puis la donne à un outil de recherche local. À chaque étape, il réduit le bruit informationnel.

    Il y a une phrase dans le livre que j'ai relue plusieurs fois : "Pour que l'IA atteigne sa précision maximale, il faut lui donner un contexte court, concentré et puissant." L'Ingénierie de Contexte sert précisément à cela.

    À ce niveau, l'Agent peut aussi réfléchir sur lui-même. Après avoir terminé son travail, il le revoit, identifie les problèmes et les corrige lui-même. J'en parlerai plus en détail plus tard.

  • Niveau 3 : Collaboration multi-Agents

    La position du livre est claire : ne cherchez pas toujours à créer un super agent polyvalent. La vraie approche fiable est de construire une équipe : Agent chef de projet + Agent chercheur + Agent designer + Agent rédacteur. L'exemple donné dans le livre est le lancement d'un nouveau produit : un "Agent chef de projet" coordonne, distribue les tâches à un "Agent recherche marketing", un "Agent conception produit", un "Agent marketing". La clé est la communication : comment les Agents s'échangent les données, synchronisent leur état, gèrent les conflits. Ce chapitre dessine six topologies de communication, de l'Agent simple au plus flexible, avec pour chacune des explications sur les scénarios appropriés.

Après avoir parcouru ces quatre niveaux, j'ai soudain compris pourquoi tant de gens disent "Mon Agent ne fonctionne pas bien". Le modèle n'est pas le problème, le problème est que vous l'utilisez comme un chatbot, il n'a peut-être même pas atteint le Niveau 1.

Ingénierie de Contexte : le concept le plus sous-estimé du livre

J'ai écrit un article sur le Harness Engineering, qui disait que la conception de la piste est plus importante que la puissance du moteur. En lisant ce livre, j'ai réalisé que l'Ingénierie de Contexte est la projection du Harness Engineering au niveau du prompt.

Le Prompt Engineering traditionnel ne se soucie que de "comment vous demandez". L'Ingénierie de Contexte du livre gère "ce que l'Agent a devant les yeux avant de demander". Elle comprend quatre couches d'information :

  1. Première couche, le system prompt. Définit qui est l'Agent, son ton, ses limites. La plupart des gens n'écrivent que cela.

  2. Deuxième couche, les données externes. Les documents récupérés par RAG, les valeurs de retour des appels d'outils, les données d'API en temps réel. C'est là où la plupart des gens se bloquent : ils savent qu'il faut nourrir avec des données, mais ne savent pas comment le faire sans submerger le modèle.

  3. Troisième couche, les données implicites. L'identité de l'utilisateur, l'historique des interactions, l'état de l'environnement. Ce que vous ne dites pas explicitement mais que l'Agent devrait savoir. Par exemple, si vous dites à l'Agent "Aide-moi à envoyer un e-mail à John pour confirmer la réunion de demain", il devrait savoir quelle est la réunion de demain dans votre calendrier, quelle est votre relation avec John.

  4. Quatrième couche, la boucle de rétroaction. Après chaque sortie de l'Agent, évaluer automatiquement la qualité, ajuster la stratégie de contexte suivante. Le livre appelle cela "l'optimisation automatisée du contexte", l'outil Vertex AI Prompt Optimizer de Google est une mise en œuvre technique de cette idée.

En lisant cela, je me suis souvenu de mon article "L'Agent IA n'est pas magique", où une expérience disait "votre Agent a besoin de règles, et de beaucoup de règles". En y repensant maintenant, ces règles étaient essentiellement une version manuelle de l'Ingénierie de Contexte, que le livre a systématisée.

Réflexion : deux Agents valent vraiment mieux qu'un

C'est le Pattern qui a le plus de valeur pratique pour moi dans tout le livre.

Le cœur de la Réflexion est simple : après avoir fait son travail, l'Agent le revoit lui-même, identifie les problèmes et les corrige. Mais la mise en œuvre doit être réfléchie. Le livre dit clairement : Le Producteur et le Critique doivent être deux Agents différents, avec des system prompts différents. La même persona revoyant son propre travail aura forcément des angles morts. Si vous demandez au même LLM d'écrire du code puis de réviser le code qu'il a écrit, il dira très probablement "c'est bon".

Le livre donne un exemple de code complet.

  • Le prompt du Producteur est "Vous êtes un développeur Python, écrivez une fonction pour calculer la factorielle, gérez les conditions limites et les exceptions".

  • Le prompt du Critique est "Vous êtes un ingénieur senior pointilleux, examinez le code ligne par ligne, vérifiez les bugs, le style, les conditions limites manquantes, les points d'amélioration. Si parfait, sortez CODE_IS_PERFECT, sinon listez tous les problèmes".

  • Puis une boucle for : Producteur écrit le code → Critique le révise → Producteur modifie selon les commentaires → Critique révise à nouveau → jusqu'à ce que le Critique dise CODE_IS_PERFECT ou qu'un nombre maximum d'itérations soit atteint.

C'est aussi simple que cela. Mais le livre rappelle un problème de coût souvent négligé : chaque cycle de réflexion est un nouvel appel LLM, plus d'itérations coûtent plus cher. Et à mesure que l'historique de la conversation gonfle, la fenêtre de contexte est remplie par les versions précédentes et les critiques, réduisant l'espace de raisonnement réellement disponible. La meilleure pratique pour la Réflexion est donc : fixer un nombre maximum d'itérations raisonnable (le livre utilise 3), s'arrêter dès que le Critique est satisfait, ne pas chercher la perfection.

L'utilité va bien au-delà de l'écriture de code. Écrire des articles, faire des plans, résumer des documents, résoudre des problèmes logiques, le modèle Producteur-Critique s'applique à tout. Le livre liste sept scénarios d'application, la logique centrale est la même : produire d'abord, réviser ensuite, corriger.

Multi-Agent : plus complexe n'est pas toujours mieux

Dans le chapitre sur la Collaboration Multi-Agent, ce que j'ai préféré, ce sont les six diagrammes de topologie de communication. Beaucoup commencent directement par des structures complexes, mais en réalité trois types suffisent pour la plupart des scénarios :

  1. Agent unique (exécution indépendante) : La tâche peut être décomposée en sous-problèmes indépendants, chaque Agent s'occupe du sien. Simple, facile à maintenir.

  2. Réseau pair-à-pair (Peer-to-Peer) : Les Agents communiquent directement entre eux, sans nœud de contrôle central. Décentralisé, tolérant aux pannes, si un Agent tombe, cela n'affecte pas l'ensemble. Mais le coût de coordination est élevé, risque de désordre.

  3. Superviseur (ordonnancement central) : Un Agent Superviseur gère un groupe d'Agents Travailleurs. Il attribue les tâches, collecte les résultats, résout les conflits. Hiérarchie claire, facile à gérer. Mais le Superviseur est un point de défaillance unique et un goulot d'étranglement en termes de performance.

Les trois autres types (Superviseur-comme-Outil, hiérarchique, hybride personnalisé) sont des variantes et combinaisons des trois premiers. Le livre est très pragmatique : La topologie dont vous avez besoin dépend de la complexité de votre tâche. Plus la tâche est fragmentée, plus le coût de communication est élevé, et à un certain point, le mode Superviseur devient plus efficace que le mode hiérarchique.

Ce que je retiens, c'est que beaucoup de gens passent 80% de leur temps sur les protocoles de communication lorsqu'ils construisent un système Multi-Agent, en oubliant de se poser une question plus fondamentale : cette tâche a-t-elle vraiment besoin de plusieurs Agents ? Le livre est clair, un Agent unique de Niveau 2 avec Réflexion est souvent suffisant. Le Niveau 3 est pour les scénarios qu'un Agent unique ne peut vraiment pas gérer.

Modèle de Mémoire à trois couches, je l'avais entrevu mais sans le nommer

Le chapitre sur la Mémoire est celui avec lequel je me suis le plus senti en phase, car lorsque j'ai écrit les deux articles sur Obsidian + Claude, je réfléchissais constamment à une question : comment la mémoire d'un Agent devrait-elle être stratifiée ?

Le livre donne la réponse :

  1. Session (couche conversation) : La fenêtre de contexte de la conversation en cours, c'est la mémoire la plus courte, elle disparaît à la fin de la conversation. Les modèles à long contexte ne font qu'agrandir cette fenêtre, mais elle reste essentiellement temporaire, et chaque raisonnement doit traiter toute la fenêtre, ce qui est coûteux et lent.

  2. État (couche d'état) : Données temporaires pendant l'exécution de la tâche en cours. Par exemple "quelle tâche est en cours", "où en est-elle", "quelles données intermédiaires ont été générées". Plus longue que la Session, mais nettoyée à la fin de la tâche. Le livre donne un exemple complet avec le mécanisme State de Google ADK.

  3. Mémoire (couche persistante) : Mémoire à long terme, entre sessions, entre tâches. Préférences de l'utilisateur, expériences acquises, décisions historiques importantes, stockées dans une base de données ou un index vectoriel, avec recherche sémantique. Le livre souligne un point important : la Mémoire ne consiste pas seulement à stocker, il faut aussi concevoir toute une stratégie de "quoi stocker, quand stocker, comment récupérer". Trop de stockage crée du bruit, pas assez n'est pas suffisant.

Dans mon article sur Clawdbot, je mentionnais le "fichier d'état" et les "documents de l'espace de travail", c'était essentiellement une fabrication manuelle des couches État et Mémoire, le livre a cadré cette pratique.

Cinq hypothèses, la cinquième est la plus incroyable

À la fin du livre, cinq hypothèses sur l'avenir des Agents sont mentionnées, les quatre premières sont dans un cadre de projection raisonnable : les Agents généraux passent de l'écriture de code à la gestion de projets, la personnalisation profonde découvre activement vos besoins, l'intelligence incarnée sort des écrans dans le monde physique, les Agents deviennent des entités économiques indépendantes.

La cinquième m'a laissé stupéfait : Multi-Agent transformable.

Vous déclarez uniquement un objectif, par exemple "créer une entreprise de commerce électronique de café de spécialité". Le système décide automatiquement : d'abord créer un "Agent recherche de marché" et un "Agent marque". Après avoir exécuté un tour de données, il juge lui-même que l'Agent marque n'est plus nécessaire, le divise en trois nouveaux : "Agent conception de logo", "Agent création de site", "Agent chaîne d'approvisionnement". Si l'Agent création de site devient un goulot d'étranglement, le système en clone automatiquement trois en parallèle pour travailler simultanément sur différentes pages. Tout au long du processus, le système optimise automatiquement et continuellement le prompt de chaque Agent, réorganisant constamment l'architecture de l'équipe.

Le livre appelle cela un "système multi-Agents auto-transformable et piloté par objectifs". Il n'exécute pas le plan que vous avez écrit, il génère son propre plan, l'ajuste lui-même, réorganise lui-même l'équipe d'exécution.

Cela me rappelle AutoResearch de Karpathy : écrire un program.md, définir les objectifs, les métriques, les limites, appuyer sur "Démarrer". L'humain est en dehors de la boucle. Mais ce livre va encore plus loin : même la façon dont l'équipe d'Agents est formée et réorganisée est laissée au système. L'humain ne fait que déclarer "ce qu'il veut".

Trois actions que vous pouvez mettre en œuvre immédiatement

Après avoir lu ce livre, j'ai trois actions que je peux immédiatement mettre en œuvre :

  • Première, ajoutez un Critique à votre Agent actuel. Que vous utilisiez Claude Code, CrewAI ou votre propre framework, ajoutez une étape à votre workflow existant : faites qu'un autre Agent (avec un system prompt différent) révise la sortie de l'étape précédente. Génération de code + revue de code, rédaction d'article + vérification des faits, élaboration de plan + évaluation de la faisabilité. Un appel LLM de plus, mais souvent un doublement de l'amélioration de la qualité. Le modèle Producteur-Critique du livre est prêt à l'emploi.

  • Deuxième, commencez à faire de l'Ingénierie de Contexte, pas seulement du Prompt Engineering. Revenez aux fichiers d'instructions que vous écrivez pour votre Agent. S'ils ne contiennent que des règles du type "comment faire", sans le contexte du type "quel environnement il affronte", ajoutez-le. Dites à l'Agent dans quel projet il se trouve, quelles décisions il a prises auparavant, quelles sont les préférences de l'utilisateur. Le chapitre sur l'Ingénierie de Contexte et votre AGENTS.md sont deux façons de dire la même chose.

  • Troisième, ne vous précipitez pas vers le Multi-Agent. Amenez d'abord votre Agent unique au Niveau 2 : avec outils, Réflexion, Mémoire. Le livre insiste : un Agent unique de Niveau 2 avec Producteur-Critique et Ingénierie de Contexte couvre la grande majorité des scénarios réels. Le Niveau 3 est pour les tâches véritablement interdisciplinaires, multi-étapes, nécessitant une division parallèle du travail. Le problème de la plupart des gens n'est pas de ne pas avoir assez d'Agents, c'est de ne pas avoir bien réglé un seul Agent.

Ce livre fait 453 pages, publié par Springer en 2025. Les exemples de code couvrent LangChain/LangGraph, Google ADK, CrewAI, OpenAI API. La préface est écrite par le VP de l'IA chez Google Cloud, et il y a une recommandation du CIO de Goldman Sachs, étonnamment agréable à lire.

Mais la raison pour laquelle je le recommande n'est pas son "exhaustivité". C'est qu'après l'avoir lu, vous réalisez une chose : les problèmes que vous avez rencontrés avec les Agents ces six derniers mois, quelqu'un les a déjà organisés en modèles. Vous n'avez plus besoin de réinventer la Réflexion, de deviner comment stratifier la Mémoire, d'expérimenter quelle topologie de communication utiliser pour le Multi-Agent.

Quelqu'un a dessiné la carte à votre place, il ne reste plus qu'à marcher.

Utilisez-vous un Agent IA pour le développement ? À quel Niveau se trouve votre Agent actuel ?

Questions liées

QQuelle est la principale contribution du livre "Agentic Design Patterns" selon l'auteur ?

ALe livre organise et systématise les connaissances et expériences pratiques du développement d'Agent IA en 21 modèles de conception. Il apporte des réponses claires à des problèmes fondamentaux, comme la définition d'un Agent, sa hiérarchisation, l'ingénierie du contexte, la réflexion, les collaborations multi-agents et la gestion de la mémoire. Il permet aux développeurs de ne pas avoir à réinventer ces concepts et de disposer d'une carte pour les guider.

QQuelle est la différence fondamentale entre le "Level 0" et le "Level 1" d'un Agent IA selon le livre ?

ALe "Level 0" fait référence à un LLM nu, sans outils, sans mémoire et incapable d'action. Il ne s'agit pas d'un véritable Agent. Le "Level 1" (utilisateur d'outils) franchit ce seuil en utilisant des outils comme la recherche ou des API. La différence clé réside dans la capacité de l'Agent à "prendre lui-même la décision" de savoir quand appeler un outil, lequel appeler et comment utiliser le résultat, sans que l'humain ne lui dise explicitement de le faire.

QEn quoi consiste le concept de "Context Engineering" présenté dans le livre ?

ALe "Context Engineering" est une approche systématique qui s'occupe de ce que l'Agent a "sous les yeux" avant de raisonner. Il dépasse le simple "Prompt Engineering" et organise le contexte en quatre couches : le prompt système, les données externes (ex. : documents RAG), les données implicites (ex. : historique, identité de l'utilisateur) et la boucle de rétroaction (évaluation et optimisation automatique du contexte). Son objectif est de fournir à l'Agent un contexte court, ciblé et puissant pour une meilleure précision.

QComment fonctionne le modèle de "Reflection" (Producteur-Critique) et quel est son principal avantage ?

ALe modèle de "Reflection" consiste à utiliser deux Agents distincts avec des prompts système différents. Un Agent "Producteur" crée un contenu initial (code, texte). Un second Agent "Critique" l'examine de manière approfondie et fournit des retours. Le Producteur modifie ensuite sa production en fonction des critiques. Cette boucle peut se répéter jusqu'à satisfaction ou un nombre maximal d'itérations. L'avantage principal est d'obtenir un résultat de qualité supérieure en introduisant un point de vue différent et critique, évitant ainsi les angles morts d'un seul Agent qui s'auto-évalue.

QSelon les recommandations finales de l'auteur, quelle est la première action à mettre en œuvre après la lecture du livre ?

ALa première action recommandée est d'ajouter immédiatement un Agent "Critique" à son Agent existant, quel que soit l'outil utilisé. Il suffit d'ajouter une étape dans le flux de travail où un second Agent (avec un prompt système différent) examine la sortie précédente. Cela peut s'appliquer à la génération de code (avec une revue), à la rédaction (avec une vérification des faits), etc. C'est une amélioration simple, éventuellement plus coûteuse en tokens, mais qui peut doubler la qualité du résultat.

Lectures associées

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

Trois ans après ses prédictions sur ChatGPT en mars 2023, Wang Jianshuo revient sur ses vingt affirmations initiales, évaluées en mai 2026 par des agents IA. Sur les vingt points, la majorité des tendances de fond étaient correctes : l'essor du RAG comme architecture dominante pour l'injection de connaissances, le rôle central de l'interface utilisateur en langage naturel (LUI), l'émergence de protocoles pour un "réseau d'agents", et le rattrapage technologique rapide des modèles chinois. Des erreurs notables portent sur des chiffres précis, comme les 100 billions de paramètres supposés de GPT-4 (en réalité environ 1,8 billion) ou une estimation trop basse des coûts de formation des grands modèles. Certaines prévisions se sont révélées trop absolues ("l'IA ne fera jamais de mathématiques pures") ou ont négligé les disparités (aucune vague de chômage massif, mais un impact sévère sur les jeunes diplômés). L'analyse révèle que les intuitions sur les mécanismes et les directions se sont avérées bien plus fiables que les prédictions numériques ou temporelles, souvent trop optimistes à court terme. La prudence dans les formulations et la reconnaissance des incertitudes se sont montrées précieuses avec le recul. Ce bilan offre des leçons pour les futurs pronostics : privilégier les tendances aux chiffres, anticiper les effets distributifs et accepter que certaines questions demandent plus de trois ans pour être tranchées.

marsbitIl y a 7 h

Trois ans plus tard : Retour sur mon jugement de 2023 concernant ChatGPT

marsbitIl y a 7 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

Trois ans après ses prédictions sur le ChatGPT en mars 2023, Wang Jianshuo revient sur ses 20 affirmations initiales. Évaluées en mai 2026 par des agents IA, la plupart de ses intuitions sur les grandes tendances se sont révélées justes : le RAG est devenu l'architecture standard pour intégrer des connaissances, l'Interface Utilisateur en Langage Naturel (LUI) a créé un nouvel écosystème, et les modèles chinois ont presque rattrapé les leaders mondiaux. Des concepts comme les réseaux d'agents et la nature limitée du test de Turing se sont également matérialisés. Cependant, les prévisions quantitatives et les affirmations trop absolues ont souvent échoué. Le paramétrage supposé du GPT-4 (100T) était inexact, et les coûts de développement des modèles ont dépassé les estimations. Il a sous-estimé la vitesse de personnalisation des IA et l'impact distribué sur l'emploi des jeunes. La capture de valeur a surtout bénéficié à la couche matérielle (comme Nvidia), et non aux seules applications. Les leçons clés sont que les mécanismes et les directions sont plus fiables que les chiffres précis, que l'optimisme à court terme doit être tempéré, et que les nuances ("peut-être", "pour l'instant") rendent les prédictions plus robustes. Cette rétrospective souligne l'importance de distinguer les tendances confirmées des questions toujours ouvertes.

链捕手Il y a 10 h

Trois ans plus tard : un retour sur mes prédictions de 2023 concernant ChatGPT

链捕手Il y a 10 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

Alors que l'IA écrit du code, traite des tickets clients et révise des documents juridiques, elle ne se contente plus d'être un outil mais devient une source directe de travail. La commercialisation de l'IA évolue ainsi d'un marché de « jetons » (tokens) ou d'heures de GPU vers un nouveau marché : celui de la « main-d'œuvre machine ». Dans ce marché, le jeton n'est qu'une unité de mesure, le GPU un intrant, et le modèle un outil de production. L'objet véritablement tarifé et échangé est le travail économique accompli directement par le logiciel. Le mécanisme de prix de l'IA devrait évoluer des jetons bruts vers des capacités de modèles standardisées, puis vers une main-d'œuvre sectorielle, et enfin vers un marché de résultats programmables. À l'avenir, les entreprises pourraient ne plus se soucier du modèle ou du GPU spécifique utilisé, mais uniquement du fait que la tâche soit livrée dans des délais, avec un taux de précision, une fiabilité et un coût conformes aux standards. Ce changement ne signifie pas un simple remplacement du travail humain. Alors que la machine assume des tâches standardisées et vérifiables, le rôle humain pourrait se déplacer vers la supervision, la responsabilité finale, la gestion du contexte et les jugements critiques. Dans certains cas, les 1% de jugement humain final pourraient gagner en valeur, car ils permettent de débloquer les 99% d'automatisation à grande échelle. Le marché évolue donc vers une couche où le « travail » lui-même devient l'unité stable, standardisée, vérifiable et négociable. La prochaine phase de concurrence ne portera pas seulement sur la puissance des modèles ou le prix du calcul, mais sur la capacité à standardiser, vérifier et tarifer le « travail » accompli, faisant de la main-d'œuvre machine une nouvelle ressource productive que l'on peut acheter, facturer et échanger.

marsbitIl y a 11 h

Du Token à la main-d'œuvre machine : l'IA passe d'outil à « travailleur »

marsbitIl y a 11 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

Dans un article intitulé "La réduction de 99% du prix de MiMo de Xiaomi n'est pas du marketing ! Luo Fuli répond aux détracteurs sur X", Luo Fuli, responsable de MiMo, a publié un billet de blog technique de 5000 mots pour expliquer la baisse drastique des prix de l'API MiMo-V2.5. Contrairement aux interprétations initiales d'une guerre des prix ou d'une stratégie de perte, cette réduction de 99% concerne spécifiquement le coût des entrées en cache ("Input Cache Hit"), c'est-à-dire la relecture du contexte historique dans les conversations longues. Le billet détaille six piliers d'ingénierie ayant permis cette réduction : 1. **Architecture Hybride SWA** : Réduction du volume de la mémoire cache (KVCache) à 1/7 grâce à une attention par fenêtre glissante sur 60 des 70 couches du modèle. 2. **Gestion en double pool** : Allocation efficace de la mémoire pour matérialiser les gains théoriques du SWA, multipliant par 5 le nombre d'utilisateurs simultanés par GPU. 3. **Cache de préfixe optimisé** : Augmentation du taux de réussite du cache à 93-95% en moyenne, évitant de recalculer les contextes répétés. 4. **Système de cache distribué GCache** : Stockage des données sur les SSD des machines GPU existantes, réduisant les coûts de stockage additionnels à zéro. 5. **Système de routage LLM-Router** : Optimisation de l'acheminement des requêtes pour maximiser l'utilisation du cache et améliorer les performances. 6. **Prédiction Multi-Token (MTP)** : Accélération de la génération des réponses du modèle, réduisant également les coûts de sortie. Cette chaîne d'optimisations systémiques a réduit le temps GPU par requête d'un ordre de grandeur, permettant une baisse de prix de 99% tout en maintenant une marge positive. Luo Fuli souligne qu'il s'agit d'un accomplissement d'ingénierie validé en production, et non d'une simple manœuvre marketing, offrant une référence pour réduire les coûts dans le secteur de l'IA.

marsbitIl y a 13 h

La réduction de 99% du prix de Xiaomi MiMo n'est pas un coup marketing ! Luo Fuli répond aux détracteurs sur X

marsbitIl y a 13 h

Trading

Spot
Futures
活动图片