Tổ chức Sui đã công bố một báo cáo sự cố chi tiết giải thích nguyên nhân của sự cố ngừng hoạt động trên mạng chính làm gián đoạn quá trình xử lý giao dịch vào ngày 15 tháng 1. Họ xác nhận rằng mạng lưới đã dừng lại như một biện pháp an toàn để ngăn chặn việc hoàn tất trạng thái không nhất quán.
Theo Tổ chức, sự gián đoạn kéo dài khoảng sáu giờ. Nguyên nhân là do sự phân kỳ nội bộ trong quá trình xử lý đồng thuận của trình xác thực.
Trong sự cố, các trình xác thực không thể xác nhận các điểm kiểm tra (checkpoint) mới, dẫn đến việc gửi giao dịch bị hết thời gian chờ trong khi mạng lưới ưu tiên an toàn.
Sự phân kỳ đồng thuận Sui kích hoạt dừng an toàn
Tổ chức cho biết sự cố bắt nguồn từ một lỗi trường hợp biên (edge-case bug) trong logic cam kết đồng thuận, ảnh hưởng đến cách xử lý các giao dịch xung đột trong một số điều kiện thu gom rác nhất định.
Kết quả là, các trình xác thực khác nhau đưa ra các đầu ra đồng thuận khác nhau và cố gắng thực thi các điểm kiểm tra ứng viên không tương thích.
Khi các trình xác thực phát hiện ra rằng hơn một phần ba số stake đang ký một digest điểm kiểm tra khác, việc chứng nhận điểm kiểm tra trở nên bất khả thi. Các trình xác thực sau đó đã dừng tiến trình để tránh hoàn tất một trạng thái không nhất quán.
“Đây là chế độ lỗi dự kiến cho lớp vấn đề này,” Tổ chức cho biết, lưu ý rằng mạng lưới được thiết kế để dừng lại một cách an toàn thay vì mạo hiểm bị fork hoặc các điểm không nhất quán không thể đảo ngược.
Không có fork, rollback hoặc mất tiền
Sui nhấn mạnh rằng việc ngừng hoạt động không phải do tắc nghẽn mạng, khối lượng giao dịch hoặc các mối đe dọa bên ngoài. Trong suốt sự cố:
- Không xảy ra fork trạng thái đã được chứng nhận
- Không có giao dịch đã được chứng nhận nào bị roll back
- Tiền của người dùng không bao giờ bị đe dọa
- Các đảm bảo về an toàn và tính nhất quán của mạng lưới được bảo toàn
Mặc dù việc thực thi giao dịch dừng lại trong khoảng thời gian xảy ra sự cố, các thao tác đọc vẫn tiếp tục phục vụ trạng thái được chứng nhận cuối cùng. Điều này đảm bảo tính nhất quán dữ liệu cho người dùng và ứng dụng.
Các cải tiến được lên kế hoạch sau sự cố
Tổ chức Sui Foundation cho biết họ đang triển khai một số thay đổi để giảm thời gian phục hồi trong trường hợp xảy ra các sự cố tương tự trong tương lai.
Các cải tiến được lên kế hoạch bao gồm phát hiện nhanh hơn các điểm không nhất quán của checkpoint và tự động hóa hơn nữa các công cụ cho operator để dọn dẹp trạng thái nội bộ phân kỳ. Ngoài ra, mở rộng kiểm tra cụ thể về đồng thuận để tái tạo và xác thực các bản sửa lỗi trước khi triển khai.
Tổ chức bổ sung rằng mặc dù sự gián đoạn là gây phiền toái, nhưng nó đã xác nhận rằng kiến trúc tập trung vào an toàn của Sui đã hoạt động như thiết kế.
Suy nghĩ cuối cùng
- Giải thích của Sui xác nhận việc ngừng mạng chính là kết quả của một trường hợp biên trong đồng thuận, với các cơ chế an toàn dừng mạng lưới để tránh trạng thái hoàn tất không nhất quán.
- Mặc dù gây gián đoạn, sự cố này làm nổi bật sự đánh đổi giữa tính khả dụng (availability) và tính an toàn (safety) khi các mạng lưới thông lượng cao đẩy giới hạn hiệu suất.






