La Fondation Sui a publié un post-mortem détaillé expliquant la cause de l'arrêt du mainnet qui a perturbé le traitement des transactions le 15 janvier. Elle a confirmé que le réseau s'est arrêté comme mesure de sécurité pour empêcher une finalisation d'état incohérente.
Selon la Fondation, la perturbation a duré environ six heures. Elle a été causée par une divergence interne dans le traitement du consensus des validateurs.
Pendant l'incident, les validateurs n'ont pas pu certifier de nouveaux points de contrôle, ce qui a entraîné des délais d'expiration des soumissions de transactions tandis que le réseau priorisait la sécurité.
Une divergence de consensus Sui a déclenché un arrêt de sécurité
La Fondation a déclaré que l'incident provenait d'un bogue de cas limite dans la logique d'engagement du consensus qui affectait la manière dont les transactions conflictuelles étaient traitées dans certaines conditions de garbage-collection.
En conséquence, différents validateurs ont produit des résultats de consensus différents et ont tenté d'exécuter des points de contrôle candidats incompatibles.
Lorsque les validateurs ont détecté que plus d'un tiers des enjeux signait un digest de point de contrôle différent, la certification des points de contrôle est devenue impossible. Les validateurs ont alors arrêté la progression pour éviter de finaliser un état incohérent.
« C'est le mode d'échec prévu pour cette classe de problème », a déclaré la Fondation, notant que le réseau est conçu pour s'arrêter en toute sécurité plutôt que de risquer des forks ou des incohérences irréversibles.
Aucun fork, retour en arrière ou perte de fonds
Sui a souligné que l'arrêt n'a pas été causé par une congestion du réseau, le volume de transactions ou des menaces externes. Tout au long de l'incident :
- Aucun fork d'état certifié ne s'est produit
- Aucune transaction certifiée n'a été annulée
- Les fonds des utilisateurs n'ont jamais été en danger
- Les garanties de sécurité et de cohérence du réseau ont été préservées
Bien que l'exécution des transactions se soit arrêtée pendant la fenêtre de l'incident, les opérations de lecture ont continué à servir le dernier état certifié. Cela a assuré la cohérence des données pour les utilisateurs et les applications.
Améliorations prévues après l'incident
La Fondation Sui a déclaré qu'elle mettait en œuvre plusieurs changements pour réduire le temps de récupération en cas de problèmes similaires à l'avenir.
Les améliorations prévues incluent une détection plus rapide des incohérences des points de contrôle et des outils d'opérateur plus automatisés pour nettoyer l'état interne divergent. De plus, des tests spécifiques au consensus élargis pour reproduire et valider les correctifs avant le déploiement.
La Fondation a ajouté que bien que l'interruption ait été perturbatrice, elle a confirmé que l'architecture axée sur la sécurité de Sui s'est comportée comme prévu.
Réflexions finales
- L'explication de Sui confirme que l'arrêt du mainnet était le résultat d'un cas limite de consensus, les mécanismes de sécurité arrêtant le réseau pour éviter un état finalisé incohérent.
- Bien que perturbateur, l'incident met en lumière le compromis entre la disponibilité et la sécurité alors que les réseaux à haut débit repoussent les limites de performance.






