Le « Graal » des systèmes distribués – les protocoles de consensus (Consensus Protocols) – a longtemps été un « enfer de bugs » pour les ingénieurs d'infrastructure de haut niveau. En raison de la complexité extrême de leurs états et de l'enchevêtrement de multiples nœuds, les tests traditionnels et les LLM simples sont presque impuissants face aux « Deep Bugs » (vulnérabilités logiques profondes) les plus coriaces.
Récemment, un article accepté à l'ICML 2026, rédigé par des chercheurs de 0G Labs ainsi que d'équipes académiques et industrielles d'élite de l'Université nationale de Singapour, de l'Université de Pékin et de l'Université des postes et télécommunications de Pékin, a proposé le premier cadre de test automatisé qui intègre profondément les connaissances du domaine et la collaboration multi-agents de grands modèles – Agora.
Grâce à une architecture innovante, ce framework cible directement les points sensibles des protocoles et a découvert d'un coup 15 Deep Bugs de niveau protocole, jusque-là inconnus, dans des protocoles industriels et académiques majeurs tels que Raft, EPaxos, HotStuff et BullShark ! En comparaison, des modèles géants comme GPT-5.2, Claude 4.5, etc., ont tous échoué, n'en trouvant aucun. Alors que les systèmes multi-agents (Multi-Agent) et le « contrôle qualité agentique » (Agentic Quality Control) sont devenus les secteurs les plus en vogue en 2026, Agora ne propose pas seulement un article de recherche, mais aussi une solution industrielle viable.
Titre de l'article : « Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents »
1. Contexte : L'union de forces entre 0G et NUS, fusion interdisciplinaire et transgénérationnelle entre l'accumulation de connaissances systémiques à long terme et le paradigme Multi-Agent
L'évolution des protocoles de consensus distribués est à la fois une histoire d'innovation géniale et une histoire sanglante d'erreurs commises par d'innombrables ingénieurs d'élite. Comme l'a déclaré Lamport, lauréat du prix Turing, garantir la justesse de l'implémentation d'un protocole distribué est aussi difficile que de se déplacer les yeux bandés dans un labyrinthe en perpétuel mouvement. Et c'est précisément sur cette piste « infernale » que le marché est en train de changer silencieusement : selon Gartner, les demandes de conseil en systèmes multi-agents pour les entreprises ont explosé de plus de dix fois en un peu plus d'un an, et le marché des plateformes multi-agents entre également dans une période d'expansion rapide, presque doublant chaque année – l'utilisation de la « collaboration multi-agents » pour la validation des systèmes de base les plus coriaces passe d'une idée de pointe à un besoin impératif de l'industrie.
Face à cette piste de niveau infernal, les géants de la technologie couronnés de gloire ont été les premiers à se lancer dans une exploration à gros budget. Par exemple, le projet Glasswing récemment mis en œuvre en interne par Anthropic dans Claude Code, bien qu'ayant tenté d'aborder les tests d'infrastructure de base avec des agents, son architecture dépendait toujours fortement des modèles commerciaux les plus performants, les détails du projet restaient vagues, et la collaboration n'était ouverte qu'à un nombre très limité de grandes institutions technologiques et de multinationales. Plus grave encore, ce type de solution des géants peut présenter une consommation de tokens terrifiante en cours d'exécution. Cette barrière de calcul élevée et cette approche à forte intensité capitalistique excluent directement les startups et les PME aux budgets limités.
Les petites entreprises et les communautés open source sont-elles donc condamnées à ne pas pouvoir utiliser les meilleurs outils d'audit de vulnérabilités automatisés ?
Les ingénieurs de 0G Labs, en collaboration avec Liu Xiang de l'Université nationale de Singapour, Song Sa et Sun Yong de l'Université des postes et télécommunications de Pékin, ainsi que le doctorant Zhang Zhaowei et le chercheur Zhang Ceyaor de l'École d'intelligence de l'Université de Pékin, ont mis à profit leurs profondes connaissances dans le domaine des agents pour le système, et ont lancé une innovation disruptive « petit budget, grand résultat », dont le travail a été accepté à l'ICML 2026, une conférence de pointe en IA.
La « sédimentation à long terme des connaissances systémiques » du monde universitaire rencontre « les points sensibles et l'instinct aigu » du monde industriel – comment déclencher la prochaine révolution de la sécurité des systèmes ?
L'équipe de 0G a accumulé une expérience extrêmement riche en attaques et défenses de niveau production dans la mise en œuvre des protocoles de consensus blockchain ; et l'équipe dispose d'un bagage académique très solide dans les systèmes distribués haute performance, le contrôle de concurrence de bas niveau et la vérification formelle des systèmes. Ils savent bien que les méthodes traditionnelles (comme les tests de fuzzing) sont souvent limitées par l'explosion de l'espace d'état face aux bases de code de niveau industriel. Les chercheurs des différentes parties ont décidé d'injecter l'« âme » – les connaissances de raisonnement logique sur les invariants globaux des systèmes distribués accumulées sur le long terme – dans le paradigme de collaboration multi-agents le plus avancé et l'architecture automatisée Harness, donnant ainsi naissance au framework open source et équitable Agora.
Dans le même temps, en tant qu'infrastructure IA modulaire de pointe et réseau de disponibilité des données décentralisé haute performance, l'équipe de 0G a accumulé une expérience extrêmement riche en attaques et défenses de niveau production et en échantillons de défauts de protocoles réels dans la mise en œuvre industrielle des protocoles de consensus blockchain et des architectures BFT (tolérance aux pannes byzantines) haute concurrence.
Cette fusion interdisciplinaire a complètement changé les règles du jeu : ce n'est ni un test de force aveugle, ni un « tâtonnement à l'aveugle » par un grand modèle dépourvu de connaissances du domaine, mais plutôt, grâce à une division du travail spécialisée des agents, elle transforme l'intuition de raisonnement logique de dizaines d'années d'experts systèmes chevronnés en un jeu et une collaboration entre agents, acquérant ainsi la puissance nécessaire pour surpasser les outils de test traditionnels.
Contrairement à la voie à forte intensité capitalistique de Glasswing qui avale des quantités colossales de tokens haut de gamme, Agora propose une alternative équitable et conviviale pour les PME – elle prouve que même avec un modèle de base « un peu moins performant » et plus rentable, une architecture multi-agents intelligente et sensible au domaine permet toujours de débusquer les Deep Bugs les plus coriaces !
2. Point sensible : Les LLM simples peinent à franchir le pas, le système distribué est suspendu à l'épée de Damoclès de la « logique profonde »
À l'ère où les mégadonnées, la blockchain et les bases de données distribuées dominent, les protocoles de consensus (comme Paxos, Raft, PBFT, etc.) sont les fondations de base du monde numérique. Cependant, la mise en œuvre des protocoles de consensus est connue pour être d'une « difficulté infernale ». Même un projet industriel de référence comme etcd, martelé par d'innombrables ingénieurs d'élite du monde entier et fonctionnant depuis des années, cache encore des Deep Bugs (vulnérabilités logiques profondes) qui font froid dans le dos.
Contrairement aux vulnérabilités de mise en œuvre de bas niveau (Implementation Bugs) ordinaires comme les fuites de mémoire ou les dépassements d'entiers, ce type de vulnérabilité s'étend sur plusieurs phases d'exécution et dépend d'états de concurrence complexes. Une fois déclenchées de manière malveillante, elles peuvent non seulement entraîner la corruption des données essentielles, mais aussi provoquer des pertes financières catastrophiques.
Les grands modèles de langage (LLM), très populaires ces dernières années, bien qu'ayant brillé dans l'analyse de code ordinaire, semblent « manquer d'intelligence » face aux consensus distribués. Ils peuvent tout au plus détecter des défauts superficiels dans le code local, mais face aux vulnérabilités logiques de niveau protocole dépendant de l'état global, les LLM simples s'enfoncent souvent dans la boue du code local, totalement incapables de raisonner sur la séquence globale.
3. Déblocage : Le grand déplacement des trois agents d'Agora et l'architecture centrale Harness
Pour briser cette impasse, Agora introduit pour la première fois le paradigme classique des tests pilotés par hypothèse (Hypothesis-Driven Testing, HDT) du monde universitaire dans les systèmes à agents de grands modèles. Pour réaliser un raisonnement global efficace, Agora abandonne complètement le mode traditionnel de « combat en solitaire » et découple astucieusement le flux de travail en trois agents hautement spécialisés, chacun avec son rôle :
Orchestrator Agent (coordinateur) : responsable de la maintenance de l'état global et de l'« exploitation des vulnérabilités » par analogie avec les vulnérabilités connues.
Strategy Agent (stratège) : responsable de l'injection de connaissances du domaine distribué, générant des scénarios d'anomalie extrêmement agressifs pour les protocoles CFT et BFT.
TestGen Agent (codeur) : pragmatique. Et ce qui permet à Agora de se concrétiser et de générer des tests efficaces en boucle fermée, c'est son architecture de test automatisée centrale.
Son architecture est illustrée ci-dessous :
Dans la conception globale d'Agora, cette magie équitable du « petit budget, grand résultat » ne vient pas de nulle part, mais découle de la fusion profonde entre son mécanisme d'interaction agentive ingénieux et l'architecture de test Harness.
L'équipe de recherche a spécialement conçu au sein du cadre du système un mécanisme de communication et de mémoire extrêmement simple et efficace (Succinct Memory & Communication), qui permet à chaque agent de se concentrer sur sa tâche principale tout en réduisant au minimum les frais généraux de transmission de contexte redondants. Sous cette contrainte de communication extrême, l'Orchestrator Agent (responsable de la coordination globale et du contrôle d'état), le Strategy Agent (responsable de la génération d'environnements et de scénarios d'anomalie distribués) et le TestGen Agent (responsable des tests de code et de l'évaluation dynamique) s'entremêlent parfaitement, entraînant et satisfaisant conjointement l'architecture Harness :
Boucle automatisée à double tranchant : Lorsque le Strategy Agent déduit un scénario d'attaque distribué abstrait, grâce au cadre d'interaction hautement découplé, le TestGen Agent peut immédiatement lancer les tests sous-jacents. Cette architecture possède non seulement une puissante capacité d'adaptation environnementale, capable de traverser différents environnements de programmation comme Go, Rust, etc., pour transformer les hypothèses d'attaque en tests unitaires exécutables réels, mais elle intègre également une technologie de boucle de réflexion (Reflection-Loop) efficace.
Dès qu'un test échoue en exécution dans l'environnement, le système capture avec précision et en temps réel la pile d'appels et les journaux d'exécution, et les renvoie de manière ciblée aux agents pour une auto-correction directionnelle. Cette combinaison organique entre « interaction multi-agents extrêmement simple + boucle fermée Harness dynamique » permet non seulement à Agora de capturer avec une faible consommation de tokens les bugs logiques profonds les plus cachés, mais elle produit également des rapports d'analyse détaillés avec un taux de faux positifs très faible.
La vue d'ensemble de son exécution finale est illustrée ci-dessous :
4. Résultats : Détection de 15 Deep Bugs zero-day de haut niveau, les modèles de base des grands modèles font tous zéro
Les résultats d'évaluation sont impressionnants. L'équipe de recherche a mené une revue complète sur quatre bibliothèques de protocoles de consensus renommées (incluant etcd de niveau production et un composant sous-jacent de Sui, une blockchain publique émergente) et a comparé avec les modèles les plus puissants comme GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 et Qwen3 Coder.
Les résultats ne rendent pas seulement le système de consensus de 0G lui-même plus sûr, mais montrent également une supériorité écrasante :
15 nouveaux Logic Deep Bugs mis au jour : Agora a réussi à découvrir 15 vulnérabilités logiques profondes de niveau protocole, jusque-là inconnues. Ces vulnérabilités couvrent des domaines à haut risque comme les divergences d'exécution, les violations de monotonie, les défauts topologiques, les vulnérabilités de signature, etc.
Les grands modèles natifs font tous un carton blanc : En revanche, les modèles de référence (même équipés de chaînes d'outils dynamiques ReAct avancées) ont tous échoué (0/15) face à ce type de vulnérabilités logiques profondes. Ils ont consommé de grandes quantités de tokens, mais n'ont pu tourner qu'autour de bugs de mise en œuvre de bas niveau.
Taux de faux positifs très faible et rapport qualité-prix élevé : Parmi tous les rapports de bugs produits par Agora, la proportion de vraies vulnérabilités logiques atteignait 73,9 % (taux de faux positifs de seulement 26,1 %). Plus étonnant encore, en moyenne, pour découvrir un bug logique de haut niveau qui ferait perdre ses cheveux à un architecte chevronné, il ne fallait consommer qu'environ 5,32 millions de tokens (environ 40 dollars), un rapport qualité-prix extrêmement élevé.
Les résultats sur plusieurs LLM sont présentés ci-dessous :
5. Avenir : Grande capacité de généralisation, avancée vers d'autres « zones inexplorées » de base coriaces
Le succès d'Agora non seulement donne un coup de fouet à la sécurité des systèmes distribués, mais montre également la voie pour l'adoption des grands modèles dans les applications industrielles verticales.
Particulièrement crucial, la conception architecturale d'Agora montre une très grande capacité de généralisation et d'universalité. L'équipe de recherche souligne qu'Agora peut également être rapidement reproduit et utilisé par un large éventail d'utilisateurs sous forme de plugin ou de skill, notre code (github.com/0gfoundation/agora) fournit les skills correspondants pour faciliter la reproduction. Non seulement cela, le paradigme « grand modèle + collaboration multi-agents + pilotage par hypothèse » d'Agora ne se limite pas aux protocoles de consensus. En raison du découplage profond entre le contrôle du flux de travail sous-jacent et la base de connaissances du domaine ainsi que les tests. Cela signifie que cette architecture peut non seulement aider de nombreux utilisateurs à déboguer rapidement les protocoles de consensus, mais elle peut également être rapidement étendue de manière « plug-and-play » à d'autres domaines coriaces également tourmentés par « l'enfer des vulnérabilités logiques profondes » :
Contrôle de la concurrence dans les bases de données (Concurrency Control) : pour tester les défauts de conflit de transactions complexes dans les bases de données distribuées sous des niveaux d'isolation extrêmes (comme Serializable).
Noyau du système d'exploitation / Systèmes concurrents : découvrir en profondeur les interblocages et conditions de course cachés dans les infrastructures multithreads.
Audit des contrats intelligents Web3 : exploration en profondeur des limites de sécurité pour les protocoles cross-chain et la logique DeFi impliquant des modèles économiques complexes. Le marché de la sécurité blockchain devrait atteindre environ 85 milliards de dollars en 2026, et des produits commerciaux utilisant des « systèmes de sécurité multi-agents » pour auditer les contrats intelligents, réduisant le cycle d'audit de plusieurs semaines à quelques heures, ont déjà fait leur apparition – la demande du marché explose.
L'ère de la sécurité automatisée par IA pour les infrastructures de base de niveau industriel commence peut-être officiellement avec Agora et son architecture Harness.
Nous avons des raisons de croire qu'Agora peut aider à mieux tester les capacités des LLM de codage en découvrant davantage de deep bugs dans divers domaines, et les cas d'utilisation de deep bugs découverts peuvent également aider les LLM de codage à améliorer leur compréhension du code.
Agora peut grandement améliorer la sécurité des dépôts de code qui sont la base des transactions financières sécurisées, comme les protocoles de consensus, le contrôle de la concurrence, les contrats intelligents, etc. De plus, Agora peut aider davantage d'entreprises technologiques à découvrir des bugs logiques plus profonds, tout en consommant moins de tokens, économisant ainsi des fonds tout en étant plus efficace !
Plus important encore, cela coïncide précisément avec les deux secteurs les plus en vogue actuellement : premièrement, les systèmes multi-agents passent de l'expérimentation à la production – Gartner prévoit que d'ici 2028, plus de 30 % des logiciels d'entreprise intégreront une IA agentique, et la taille du marché des plateformes multi-agents devrait passer de l'ordre de centaines de milliards de dollars à des centaines de milliards de dollars en quelques années ; deuxièmement, le contrôle qualité agentique (Agentic Quality Control), où « des agents vérifient des agents », devient la norme de l'industrie en 2026.
Dans un contexte où le rapport Veracode 2025 indique qu'environ 45 % du code généré par IA contient des vulnérabilités de sécurité et que le marché de la sécurité de l'IA agentique galope à un TCAC d'environ 42 %, Agora permet aux entreprises technologiques de découvrir des bugs logiques plus profonds à un coût en tokens inférieur, faisant passer l'audit de sécurité d'un « travail humain facturé à la semaine » à une « capacité automatisée livrée à l'heure ».
Et lorsque le paysage de ce secteur se précise, ceux qui prennent vraiment l'avantage ne sont généralement pas les géants les plus bruyants, mais l'équipe qui a été la première à maîtriser la méthodologie et peut la reproduire continuellement.









