Sự cố API Cloudflare: Lỗi nghiêm trọng, cảnh báo toàn cầu

19/09/2025

3 mins read

Sự cố API Cloudflare: Lỗi nghiêm trọng, cảnh báo toàn cầu

Vào ngày 12 tháng 9 năm 2025, Cloudflare đã trải qua một sự cố API Cloudflare nghiêm trọng, ảnh hưởng đến Tenant Service API, nhiều giao diện lập trình ứng dụng (API) khác và Cloudflare Dashboard. Đây là một tin tức an ninh mạng đáng chú ý, làm nổi bật những thách thức trong việc duy trì ổn định hệ thống phân tán quy mô lớn.

Công ty đã xác nhận rằng sự cố này chủ yếu được kích hoạt bởi một lỗi lập trình React, gây ra số lượng cuộc gọi API quá mức, làm quá tải các thành phần cơ sở hạ tầng quan trọng.

Nội dung

Nguyên nhân sâu xa của sự cố API Cloudflare

Cơ chế lỗi và quá tải hệ thống

Tác động lan rộng và thời gian gián đoạn

Diễn biến sự cố theo thời gian

Phản ứng khẩn cấp và thách thức khắc phục

Sai lầm trong quá trình khôi phục

Các biện pháp cải thiện và phòng ngừa trong tương lai

Chiến lược tăng cường ổn định hệ thống

Nguyên nhân sâu xa của sự cố API Cloudflare

Nguyên nhân gốc rễ của gián đoạn nằm ở một lỗi mã hóa trong dashboard của Cloudflare, liên quan đến React useEffect hook.

Các kỹ sư đã vô tình bao gồm một đối tượng không ổn định trong mảng phụ thuộc của hook. Điều này khiến React xử lý đối tượng này như “luôn mới” trong quá trình thay đổi trạng thái hoặc thuộc tính.

Cơ chế lỗi và quá tải hệ thống

Hậu quả là useEffect hook đã thực thi lặp đi lặp lại trong quá trình render dashboard, thay vì chỉ chạy một lần theo dự định.

Lỗi này trùng hợp với một bản cập nhật dịch vụ cho Tenant Service API. Sự kết hợp này đã tạo ra một “cơn bão hoàn hảo” làm quá tải dịch vụ và ngăn cản quá trình phục hồi.

Mỗi tương tác trên dashboard đã kích hoạt nhiều cuộc gọi API không cần thiết, làm tăng tải lên các hệ thống backend theo cấp số nhân, vượt quá giới hạn dung lượng của chúng.

Tác động lan rộng và thời gian gián đoạn

Khi Tenant Service bị quá tải, các hiệu ứng lan truyền khắp cơ sở hạ tầng của Cloudflare. Dịch vụ này là một phần quan trọng của logic ủy quyền yêu cầu API.

Nếu không có hoạt động Tenant Service chức năng, hệ thống không thể đánh giá các yêu cầu ủy quyền một cách chính xác. Điều này khiến các cuộc gọi API trả về mã trạng thái 5xx trên nhiều dịch vụ.

Diễn biến sự cố theo thời gian

Sự cố bắt đầu vào lúc 17:57 UTC khi Tenant API Service bị quá tải trong quá trình triển khai phiên bản mới.

Tính khả dụng của Dashboard giảm đáng kể. Tuy nhiên, tính khả dụng của API đã nhanh chóng phục hồi lên 98% sau khi bổ sung tài nguyên vào lúc 18:17 UTC.

Phản ứng khẩn cấp và thách thức khắc phục

Đội ngũ ứng phó sự cố của Cloudflare ban đầu tập trung vào việc giảm tải và tăng tài nguyên sẵn có cho Tenant Service.

Họ đã triển khai giới hạn tốc độ toàn cầu và tăng số lượng Kubernetes pod chạy dịch vụ dựa trên GoLang. Tuy nhiên, các biện pháp này không đủ để khôi phục dịch vụ hoàn chỉnh.

Sai lầm trong quá trình khôi phục

Một sai lầm nghiêm trọng đã xảy ra vào lúc 18:58 UTC. Các kỹ sư đã cố gắng loại bỏ các đường dẫn mã gây lỗi và phát hành một phiên bản Tenant Service mới.

Thay đổi này đã làm trầm trọng thêm tình hình, gây ra tác động API tăng lên. Tình trạng này kéo dài cho đến khi các thay đổi gây lỗi được hoàn nguyên vào lúc 19:12 UTC. Cuối cùng, tính khả dụng của Dashboard đã được khôi phục về 100%.

Các biện pháp cải thiện và phòng ngừa trong tương lai

Cloudflare đã xác định một số lĩnh vực cần cải thiện để ngăn chặn các sự cố tương tự. Điều này giúp giảm thiểu rủi ro bảo mật và vận hành trong tương lai.

Công ty đang ưu tiên di chuyển sang Argo Rollouts để theo dõi triển khai tự động và có khả năng hoàn nguyên. Điều này lẽ ra đã giới hạn thời gian gián đoạn trong lần gián đoạn thứ hai.

Bạn có thể đọc thêm phân tích chi tiết về sự cố API Cloudflare này tại Cloudflare Blog.

Chiến lược tăng cường ổn định hệ thống

Thực hiện độ trễ ngẫu nhiên trong các lần thử lại của dashboard để ngăn chặn kịch bản “thundering herd” khi các dịch vụ phục hồi.
Tăng đáng kể phân bổ dung lượng cho Tenant Service.
Nâng cao hệ thống giám sát để cảnh báo chủ động trước khi đạt đến giới hạn dung lượng.
Cải thiện khả năng hiển thị các cuộc gọi API bằng cách thêm metadata để phân biệt giữa các yêu cầu thử lại và yêu cầu mới, cho phép xác định nhanh hơn các vấn đề dựa trên vòng lặp tương tự trong tương lai. Điều này là một bước quan trọng trong việc tăng cường an ninh mạng.

19/09/2025

White Paper

Precise Detection of Kernel Data Races with Probabilistic Lockset Analysis

White Paper

Leveraging Large Language Models for Security Focused Code Reviews – 2025

White Paper

Bài viết liên quan

video_game_piracy_websites_seized__17___1_-480x270-3

23/07/2025

Chrome Cập Nhật Khẩn Cấp: Vá Lỗ Hổng V8 Engine Cho Phép Kiểm Soát Hệ Thống

21/03/2025

Bảo vệ Hệ Thống: Hiểu về CVE-2025-24813 và Biện Pháp Phòng Chống

29/08/2025

Lỗ Hổng Passkey Nghiêm Trọng: Trình Duyệt Bị Khai Thác

07/08/2025

Khai thác lỗ hổng SharePoint ‘ToolShell’ nghiêm trọng cần vá ngay

07/08/2025

Nghiêm trọng: Lỗ hổng HTTP/1.1 và Tấn công HTTP Desync

22/08/2025

Khẩn cấp: Lỗ hổng CVE-2024-36401 cho phép thực thi mã từ xa

video_game_piracy_websites_seized__24___1_-480x270-5

23/07/2025

Brave Vô Hiệu Hóa Microsoft Recall Mặc Định: Bảo Vệ Quyền Riêng Tư Tuyệt Đối

27/08/2025

Lỗ hổng

Sự cố API Cloudflare: Lỗi nghiêm trọng, cảnh báo toàn cầu

Sự cố API Cloudflare: Lỗi nghiêm trọng, cảnh báo toàn cầu

Nguyên nhân sâu xa của sự cố API Cloudflare

Cơ chế lỗi và quá tải hệ thống

Tác động lan rộng và thời gian gián đoạn

Diễn biến sự cố theo thời gian

Phản ứng khẩn cấp và thách thức khắc phục

Sai lầm trong quá trình khôi phục

Các biện pháp cải thiện và phòng ngừa trong tương lai

Chiến lược tăng cường ổn định hệ thống

Trending

Kiểm thử bảo mật API: Giải pháp toàn diện chống nguy hiểm API

Tấn công mạng: Nguy hiểm nghiêm trọng từ Captcha giả AI

Lỗ hổng Jinjava nghiêm trọng: Nguy cơ RCE & Khẩn cấp cập nhật

Tấn công mạng Nga: Gamaredon & Turla leo thang nguy hiểm tại Ukraine

Cảnh báo lỗ hổng CVE nghiêm trọng Nokia CBIS: Vá ngay!

Bắt giữ Scattered Spider: Giáng đòn mạnh vào tấn công mạng

Rò rỉ dữ liệu Tiffany: Nguy hiểm 2.590 khách hàng bị lộ thông tin

Tấn công mạng nghiêm trọng làm KrasAvia gián đoạn

Cảnh báo khẩn: Lỗ hổng Ivanti EPMM bị khai thác nghiêm trọng

Lỗ Hổng Zero-Day Nghiêm Trọng: Đánh Cắp Gmail Qua ChatGPT Agent

White Paper

Precise Detection of Kernel Data Races with Probabilistic Lockset Analysis

Leveraging Large Language Models for Security Focused Code Reviews – 2025

Tags

Bài viết liên quan

Chrome Cập Nhật Khẩn Cấp: Vá Lỗ Hổng V8 Engine Cho Phép Kiểm Soát Hệ Thống

Bảo vệ Hệ Thống: Hiểu về CVE-2025-24813 và Biện Pháp Phòng Chống

Lỗ Hổng Passkey Nghiêm Trọng: Trình Duyệt Bị Khai Thác

Khai thác lỗ hổng SharePoint ‘ToolShell’ nghiêm trọng cần vá ngay

Nghiêm trọng: Lỗ hổng HTTP/1.1 và Tấn công HTTP Desync

Khẩn cấp: Lỗ hổng CVE-2024-36401 cho phép thực thi mã từ xa

Brave Vô Hiệu Hóa Microsoft Recall Mặc Định: Bảo Vệ Quyền Riêng Tư Tuyệt Đối

NVIDIA NeMo Curator: Lỗ hổng CVE nghiêm trọng cần vá khẩn cấp

admin

Để lại một bình luận Hủy