El "Santo Grial" de los sistemas distribuidos—los protocolos de consenso (Consensus Protocols)—ha sido durante mucho tiempo el "infierno de errores" para los mejores ingenieros de infraestructura. Debido a su estado extremadamente complejo y la interconexión de múltiples nodos, las pruebas tradicionales y los LLM monolíticos son casi impotentes ante los Deep Bugs (vulnerabilidades de lógica profunda) más complejos.
Recientemente, en el artículo aceptado para ICML 2026, investigadores de 0G Labs junto con equipos académicos e industriales de élite como la Universidad Nacional de Singapur, la Universidad de Pekín y la Universidad de Correos y Telecomunicaciones de Pekín, han presentado el primer marco de pruebas automatizado que fusiona profundamente el conocimiento del dominio con la colaboración multi-agente de grandes modelos: Agora.
Este marco, a través de una arquitectura innovadora, aborda directamente los puntos débiles de los protocolos, ¡descubriendo de un solo golpe 15 Deep Bugs a nivel de protocolo previamente desconocidos en protocolos industriales y académicos clave como Raft, EPaxos, HotStuff y BullShark! En contraste, modelos nativos tan potentes como GPT-5.2, Claude 4.5, etc., fracasaron completamente, anotando cero. En un momento en que los sistemas multi-agente (Multi-Agent) y el "Control de Calidad Agente" (Agentic Quality Control) se convierten en las tendencias más candentes de 2026, Agora no ofrece solo un artículo de investigación, sino una solución industrial factible.
Artículo: «Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents»
1. Antecedentes: La poderosa alianza entre 0G y NUS, fusión intergeneracional e interdisciplinaria del conocimiento acumulado a largo plazo en sistemas y el paradigma Multi-Agent
La evolución de los protocolos de consenso distribuido es tanto una historia de innovación genial como una historia sangrienta de tropiezos para innumerables ingenieros de élite. Como dijo el ganador del Premio Turing, Lamport, garantizar la corrección de la implementación de un protocolo distribuido es tan difícil como navegar con los ojos vendados por un laberinto en constante movimiento. Y es precisamente en esta pista de nivel "infernal" donde el mercado está girando silenciosamente: según observa Gartner, las consultas empresariales sobre sistemas multi-agente se han disparado más de diez veces en poco más de un año, y el mercado de plataformas multi-agente también está entrando en un período de rápida expansión, casi duplicándose anualmente; usar "colaboración multi-agente" para la verificación de los sistemas más complejos está pasando de ser una idea de vanguardia a una necesidad industrial.
Ante esta pista infernal, los gigantes tecnológicos de renombre han sido los primeros en emprender exploraciones de alto costo. Por ejemplo, el proyecto Glasswing impulsado internamente recientemente por Anthropic en Claude Code, aunque intenta que los Agentes toquen las pruebas de infraestructura subyacente, su arquitectura aún depende en gran medida de los modelos de lenguaje más potentes y costosos del mercado, los detalles del proyecto son vagos y la colaboración es cerrada, dirigida solo a un número muy reducido de grandes instituciones tecnológicas y corporaciones multinacionales. Más crítico aún, este tipo de soluciones de gigantes pueden mostrar una ingesta aterradora de tokens durante la ejecución, una barrera computacional elevada y una ruta de alto costo que directamente deja fuera del juego a startups y pequeñas y medianas empresas con presupuesto limitado.
¿Acaso las pequeñas empresas y las comunidades de código abierto están destinadas a no poder permitirse herramientas automatizadas de auditoría de vulnerabilidades de élite?
Los ingenieros de 0G Labs, junto con Xiang Liu de la Universidad Nacional de Singapur, Sa Song y Yong Sun de la Universidad de Correos y Telecomunicaciones de Pekín, y el estudiante de doctorado Zhao Wei Zhang y el investigador C.Y. Zhang de la Escuela de Inteligencia de la Universidad de Pekín, han aplicado su profundo conocimiento en el campo de los Agentes a los sistemas, llevando a cabo una innovación disruptiva "apostando a lo grande con lo pequeño", cuyo trabajo ya ha sido aceptado para el congreso de IA de 2026, ICML.
La "acumulación a largo plazo de conocimiento de sistemas" de la academia se encontró con la "perspicacia para detectar problemas y la agudeza de la industria", ¿cómo pueden desencadenar la próxima revolución en seguridad de sistemas?
El equipo de 0G ha acumulado una experiencia extremadamente rica en ataques y defensas a nivel de producción durante la implementación de protocolos de consenso blockchain; mientras que el equipo académico tiene una profunda experiencia en sistemas distribuidos de alto rendimiento, control de concurrencia a bajo nivel y verificación formal de sistemas. Son conscientes de que los métodos tradicionales (como las pruebas de fuzzing) a menudo se ven limitados por la explosión del espacio de estados ante bases de código de nivel industrial. Los investigadores de varias partes decidieron inyectar como "alma" el conocimiento de inferencia lógica de invariantes globales de sistemas distribuidos acumulado a largo plazo, en el paradigma de colaboración multi-agente más avanzado y la arquitectura de arnés (Harness) automatizado, lanzando el marco de código abierto y equitativo Agora.
Al mismo tiempo, como infraestructura de IA modular de vanguardia y red de disponibilidad de datos descentralizada de alto rendimiento, el equipo de 0G ha acumulado una experiencia extremadamente rica en ataques y defensas a nivel de producción y muestras de defectos de protocolo del mundo real en la implementación industrial de protocolos de consenso blockchain y arquitecturas BFT (Tolerancia a Fallos Bizantinos) de alta concurrencia.
Esta fusión interdisciplinaria cambia las reglas del juego por completo: no es una prueba de fuerza bruta ciega, ni un "tanteo a ciegas" de modelos grandes sin conocimiento del dominio, sino que a través de una división especializada del trabajo entre Agentes, transforma la intuición de décadas de razonamiento lógico de expertos veteranos en sistemas en un juego y colaboración entre Agentes, adquiriendo así la capacidad de superar con creces a las herramientas de prueba tradicionales.
A diferencia de la ruta de alto costo de Glasswing, que devora enormes cantidades de tokens de élite, Agora trae una alternativa muy accesible para las PYMEs—demuestra que incluso con un modelo base "un poco menos potente" y de mejor relación calidad-precio, ¡una arquitectura de colaboración multi-agente con un profundo conocimiento del dominio puede aún desenterrar Deep Bugs complejos!
2. El problema: Los LLM monolíticos no pueden cruzar la línea, el "problema de la espada de Damocles de la lógica profunda" pende sobre los sistemas distribuidos
En la era actual dominada por el big data, blockchain y las bases de datos distribuidas, los protocolos de consenso (como Paxos, Raft, PBFT, etc.) son los cimientos del mundo digital. Sin embargo, la implementación de protocolos de consenso es notoriamente de "dificultad infernal". Incluso proyectos de referencia industrial como etcd, que han sido perfeccionados durante años por innumerables ingenieros de élite de todo el mundo, aún ocultan Deep Bugs (vulnerabilidades de lógica profunda) que pueden hacer sudar frío.
Este tipo de vulnerabilidades difiere de los errores de implementación ordinarios de bajo nivel (Implementation Bugs), como fugas de memoria o desbordamientos de enteros; abarcan múltiples fases de ejecución y dependen de estados concurrentes complejos. Si se desencadenan maliciosamente, no solo pueden causar daños a los datos centrales, sino incluso provocar pérdidas financieras catastróficas.
Los grandes modelos de lenguaje (LLM), tan populares en los últimos años, aunque brillan en el análisis de código común, parecen "tener un coeficiente intelectual bajo" ante el consenso distribuido. Como máximo, pueden encontrar defectos superficiales en código local, pero frente a vulnerabilidades lógicas a nivel de protocolo que dependen del estado global, los LLM monolíticos a menudo se atascan en el código local, siendo completamente incapaces de realizar razonamientos temporales globales.
3. La solución: El cambio radical de los tres Agentes de Agora y la arquitectura central del Harness
Para romper este punto muerto, Agora introduce por primera vez el paradigma clásico de Pruebas Basadas en Hipótesis (Hypothesis-Driven Testing, HDT) de la academia en los sistemas de Agentes de modelos grandes. Para lograr un razonamiento global eficiente, Agora abandona por completo el modelo tradicional de "lucha individual", desacoplando sutilmente el flujo de trabajo en tres Agentes altamente especializados, cada uno con su función:
Agente Orquestador (Orchestrator Agent): Responsable del mantenimiento del estado global y la "explotación de vulnerabilidades" aplicando los hallazgos de vulnerabilidades conocidas a nuevos casos.
Agente Estratega (Strategy Agent): Responsable de inyectar conocimiento del dominio distribuido, generando escenarios anómalos altamente agresivos para protocolos CFT y BFT.
Agente Generador de Pruebas (TestGen Agent): El ejecutor. Y la clave para que Agora pueda implementarse y generar pruebas efectivas de forma cerrada reside en su arquitectura central de pruebas automatizadas.
Su arquitectura se muestra en la figura:
En el diseño general de Agora, esta "magia de igualdad apostando a lo grande" no surge de la nada, sino de la fusión profunda de su mecanismo de interacción de Agentes y la arquitectura del Harness de pruebas.
El equipo de investigación diseñó específicamente dentro del marco del sistema un mecanismo de comunicación y memoria extremadamente simple y eficiente (Memoria y Comunicación Sucinta), que, al garantizar que cada Agente se centre en su tarea principal, reduce al mínimo la sobrecarga de transmisión de contexto redundante. Bajo esta restricción de comunicación extrema, el Agente Orquestador (responsable de la coordinación global y el control de estado), el Agente Estratega (responsable de generar entornos y escenarios anómalos distribuidos) y el Agente Generador de Pruebas (responsable de las pruebas de código y la evaluación dinámica) se entrelazan perfectamente, impulsando y satisfaciendo juntos la arquitectura del Harness:
Ciclo cerrado automatizado de doble filo: Cuando el Agente Estratega deduce un escenario de ataque distribuido abstracto, gracias al marco de interacción altamente desacoplado, el Agente Generador de Pruebas puede inmediatamente iniciar las pruebas subyacentes. Esta arquitectura no solo tiene una potente capacidad de adaptación al entorno, pudiendo cruzar entornos de lenguajes de programación como Go, Rust, etc., transformando las hipótesis de ataque en pruebas unitarias ejecutables reales, sino que también incorpora tecnología de bucle de reflexión (Reflection-Loop) eficiente.
Si una prueba falla al ejecutarse en el entorno, el sistema captura de manera precisa y en tiempo real la traza de llamadas y los registros de ejecución, devolviéndolos de forma resumida a los Agentes para una autocorrección dirigida. Esta combinación orgánica de "interacción extremadamente simple multi-agente + ciclo cerrado de Harness dinámico" no solo permite a Agora capturar con un costo de tokens muy bajo los Bugs de lógica profunda más ocultos, sino que también produce informes de análisis detallados con una tasa de falsos positivos extremadamente baja.
La visión general de su ejecución final se muestra en la figura:
4. Resultados: Desvelando 15 Deep Bugs de día cero críticos, los baselines de modelos grandes fallan completamente
Los resultados de la evaluación son impresionantes. El equipo de investigación llevó a cabo una exhaustiva evaluación en cuatro bibliotecas de protocolos de consenso famosas (incluyendo componentes de etcd a nivel de producción y del núcleo de la nueva cadena de bloques Sui), comparándolas con los modelos más potentes como GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 y Qwen3 Coder.
Los resultados no solo hacen que los propios sistemas de consenso ejecutados por 0G sean más seguros, sino que muestran una superioridad abrumadora:
Emergen 15 nuevos Logic Deep Bugs: Agora descubrió con éxito 15 vulnerabilidades de lógica profunda a nivel de protocolo previamente desconocidas. Estas vulnerabilidades abarcan áreas de alto riesgo como divergencias de ejecución, violaciones de monotonicidad, defectos topológicos, vulnerabilidades de firma, etc.
Los modelos grandes nativos fallan completamente: En contraste, los modelos de referencia (incluso equipados con cadenas de herramientas dinámicas ReAct avanzadas) fracasaron completamente (0/15) ante este tipo de vulnerabilidades de lógica profunda. Consumieron una gran cantidad de tokens, pero solo pudieron centrarse en Bugs de implementación de código de bajo nivel.
Tasa de falsos positivos muy baja y alta relación calidad-precio: De todos los informes de Bugs generados por Agora, las vulnerabilidades de lógica reales representaron un alto 73.9% (tasa de falsos positivos de solo 26.1%). Aún más sorprendente es que, en promedio, encontrar un Bug lógico crítico que haga perder el cabello a arquitectos experimentados costó solo alrededor de 5.32M tokens (aproximadamente 40 dólares), ofreciendo una relación calidad-precio extremadamente alta.
Los resultados en múltiples LLM se muestran a continuación:
5. Futuro: Alta capacidad de generalización, avance hacia más "tierras de nadie" complejas subyacentes
El éxito de Agora no solo es un impulso para la seguridad de los sistemas distribuidos, sino que también señala una dirección para la aplicación de grandes modelos en escenarios industriales verticales.
Especialmente crucial es que el diseño de la arquitectura de Agora muestra una capacidad de generalización y versatilidad muy alta. El equipo de investigación enfatiza que Agora también puede ser reproducido y utilizado rápidamente por una amplia gama de usuarios en forma de plugin o skill. Nuestro código (github.com/0gfoundation/agora) proporciona las skills correspondientes para ayudar en la reproducción. Además, el paradigma "modelo grande + colaboración multi-agente + impulsado por hipótesis" de Agora no se limita solo a los protocolos de consenso. Dado que el control del flujo de trabajo subyacente está profundamente desacoplado de la base de conocimiento del dominio y las pruebas de alto nivel. Esto significa que esta arquitectura no solo puede ayudar a numerosos usuarios a utilizar rápidamente la depuración de protocolos de consenso, sino que también puede extenderse rápidamente de manera "enchufable" (Plug-and-Play) a otras áreas complejas que también sufren el "infierno de vulnerabilidades de lógica profunda":
Control de Concurrencia en Bases de Datos (Concurrency Control): Para probar defectos de conflicto de transacciones complejos en bases de datos distribuidas bajo niveles extremos de aislamiento (como Serializable).
Núcleo del Sistema Operativo / Sistemas Concurrentes: Descubrir a fondo bloqueos mutuos (deadlocks) y condiciones de carrera ocultas en infraestructuras multihilo.
Auditoría de Contratos Inteligentes Web3: Realizar una exploración profunda de los límites de seguridad de protocolos cross-chain y lógica DeFi que involucran modelos económicos complejos. Se estima que el mercado de seguridad blockchain alcanzará aproximadamente 85 mil millones de dólares en 2026, y ya han aparecido productos comerciales que utilizan "sistemas de seguridad multi-agente" para auditar contratos inteligentes, comprimiendo el ciclo de auditoría de semanas a horas, lo que demuestra una demanda en explosión.
La era de la seguridad automatizada por IA en infraestructuras subyacentes de nivel industrial quizás esté siendo inaugurada oficialmente por Agora y su arquitectura Harness.
Tenemos razones para creer que Agora puede ayudar a evaluar mejor las capacidades de los LLMs de codificación al descubrir más deep bugs en varios campos, y los casos de uso de deep bugs descubiertos también pueden ayudar a los LLMs de codificación a mejorar su capacidad de comprensión del código.
Agora puede mejorar enormemente la seguridad de los repositorios de código que sirven como base para transacciones financieras seguras, como protocolos de consenso, control de concurrencia, contratos inteligentes, etc. ¡Y Agora también puede ayudar a más empresas tecnológicas a descubrir bugs de lógica más profundos, pero consumiendo menos tokens, ahorrando dinero y siendo más eficiente!
Lo que es más importante, esto coincide precisamente con las dos tendencias más candentes actualmente: primero, los sistemas multi-agente están pasando del experimento a la producción—Gartner predice que para 2028 más del 30% del software empresarial incorporará IA agente, y se espera que el mercado de plataformas multi-agente pase de niveles de decenas de miles de millones a cientos de miles de millones de dólares en unos años; segundo, el control de calidad agente (Agentic Quality Control), "usando agentes para revisar agentes", se está convirtiendo en el estándar de la industria para 2026.
En un contexto donde el informe Veracode 2025 señala que aproximadamente el 45% del código generado por IA contiene vulnerabilidades de seguridad, y el mercado de seguridad de IA agente está creciendo a un ritmo compuesto anual de aproximadamente el 42%, Agora permite a las empresas tecnológicas descubrir Bugs de Lógica más profundos con un costo de tokens más bajo, actualizando la auditoría de seguridad de un "trabajo manual facturado por semanas" a una "capacidad automatizada entregable por horas".
Y cuando el panorama de esta pista se aclare gradualmente, los que realmente tomen la delantera probablemente no serán los gigantes con más ruido, sino aquellos equipos que primero logren validar la metodología y puedan replicarla de manera sostenible.









