Sự cố API Cloudflare: Lỗi nghiêm trọng, cảnh báo toàn cầu

Vào ngày 12 tháng 9 năm 2025, Cloudflare đã trải qua một sự cố API Cloudflare nghiêm trọng, ảnh hưởng đến Tenant Service API, nhiều giao diện lập trình ứng dụng (API) khác và Cloudflare Dashboard. Đây là một tin tức an ninh mạng đáng chú ý, làm nổi bật những thách thức trong việc duy trì ổn định hệ thống phân tán quy mô lớn.
Công ty đã xác nhận rằng sự cố này chủ yếu được kích hoạt bởi một lỗi lập trình React, gây ra số lượng cuộc gọi API quá mức, làm quá tải các thành phần cơ sở hạ tầng quan trọng.
Nguyên nhân sâu xa của sự cố API Cloudflare
Nguyên nhân gốc rễ của gián đoạn nằm ở một lỗi mã hóa trong dashboard của Cloudflare, liên quan đến React useEffect hook.
Các kỹ sư đã vô tình bao gồm một đối tượng không ổn định trong mảng phụ thuộc của hook. Điều này khiến React xử lý đối tượng này như “luôn mới” trong quá trình thay đổi trạng thái hoặc thuộc tính.
Cơ chế lỗi và quá tải hệ thống
Hậu quả là useEffect hook đã thực thi lặp đi lặp lại trong quá trình render dashboard, thay vì chỉ chạy một lần theo dự định.
Lỗi này trùng hợp với một bản cập nhật dịch vụ cho Tenant Service API. Sự kết hợp này đã tạo ra một “cơn bão hoàn hảo” làm quá tải dịch vụ và ngăn cản quá trình phục hồi.
Mỗi tương tác trên dashboard đã kích hoạt nhiều cuộc gọi API không cần thiết, làm tăng tải lên các hệ thống backend theo cấp số nhân, vượt quá giới hạn dung lượng của chúng.
Tác động lan rộng và thời gian gián đoạn
Khi Tenant Service bị quá tải, các hiệu ứng lan truyền khắp cơ sở hạ tầng của Cloudflare. Dịch vụ này là một phần quan trọng của logic ủy quyền yêu cầu API.
Nếu không có hoạt động Tenant Service chức năng, hệ thống không thể đánh giá các yêu cầu ủy quyền một cách chính xác. Điều này khiến các cuộc gọi API trả về mã trạng thái 5xx trên nhiều dịch vụ.
Diễn biến sự cố theo thời gian
Sự cố bắt đầu vào lúc 17:57 UTC khi Tenant API Service bị quá tải trong quá trình triển khai phiên bản mới.
Tính khả dụng của Dashboard giảm đáng kể. Tuy nhiên, tính khả dụng của API đã nhanh chóng phục hồi lên 98% sau khi bổ sung tài nguyên vào lúc 18:17 UTC.
Phản ứng khẩn cấp và thách thức khắc phục
Đội ngũ ứng phó sự cố của Cloudflare ban đầu tập trung vào việc giảm tải và tăng tài nguyên sẵn có cho Tenant Service.
Họ đã triển khai giới hạn tốc độ toàn cầu và tăng số lượng Kubernetes pod chạy dịch vụ dựa trên GoLang. Tuy nhiên, các biện pháp này không đủ để khôi phục dịch vụ hoàn chỉnh.
Sai lầm trong quá trình khôi phục
Một sai lầm nghiêm trọng đã xảy ra vào lúc 18:58 UTC. Các kỹ sư đã cố gắng loại bỏ các đường dẫn mã gây lỗi và phát hành một phiên bản Tenant Service mới.
Thay đổi này đã làm trầm trọng thêm tình hình, gây ra tác động API tăng lên. Tình trạng này kéo dài cho đến khi các thay đổi gây lỗi được hoàn nguyên vào lúc 19:12 UTC. Cuối cùng, tính khả dụng của Dashboard đã được khôi phục về 100%.
Các biện pháp cải thiện và phòng ngừa trong tương lai
Cloudflare đã xác định một số lĩnh vực cần cải thiện để ngăn chặn các sự cố tương tự. Điều này giúp giảm thiểu rủi ro bảo mật và vận hành trong tương lai.
Công ty đang ưu tiên di chuyển sang Argo Rollouts để theo dõi triển khai tự động và có khả năng hoàn nguyên. Điều này lẽ ra đã giới hạn thời gian gián đoạn trong lần gián đoạn thứ hai.
Bạn có thể đọc thêm phân tích chi tiết về sự cố API Cloudflare này tại Cloudflare Blog.
Chiến lược tăng cường ổn định hệ thống
- Thực hiện độ trễ ngẫu nhiên trong các lần thử lại của dashboard để ngăn chặn kịch bản “thundering herd” khi các dịch vụ phục hồi.
- Tăng đáng kể phân bổ dung lượng cho Tenant Service.
- Nâng cao hệ thống giám sát để cảnh báo chủ động trước khi đạt đến giới hạn dung lượng.
- Cải thiện khả năng hiển thị các cuộc gọi API bằng cách thêm metadata để phân biệt giữa các yêu cầu thử lại và yêu cầu mới, cho phép xác định nhanh hơn các vấn đề dựa trên vòng lặp tương tự trong tương lai. Điều này là một bước quan trọng trong việc tăng cường an ninh mạng.









