Sự Cố AWS Nghiêm Trọng: Bài Học An Ninh Mạng Cần Thiết

Amazon Web Services (AWS) đã trải qua một sự cố AWS nghiêm trọng, ảnh hưởng đến hàng triệu khách hàng và hoạt động nội bộ của Amazon vào ngày 19 và 20 tháng 10 năm 2025.
Sự gián đoạn này kéo dài khoảng hai giờ ba mươi lăm phút, với nguyên nhân được xác nhận là do vấn đề phân giải DNS (Domain Name System) tại các điểm cuối của dịch vụ DynamoDB khu vực.
Phân tích Sự cố AWS ngày 19-20/10/2025
Nguyên nhân gốc rễ: Vấn đề phân giải DNS
Vấn đề phát sinh không phải từ sự cố hạ tầng diện rộng, mà là từ một trục trặc cụ thể trong cách hệ thống phân giải địa chỉ cho các điểm cuối dịch vụ DynamoDB.
DynamoDB là dịch vụ cơ sở dữ liệu hiệu suất cao của Amazon, hỗ trợ vô số ứng dụng.
Khi hệ thống DNS không thể định tuyến yêu cầu chính xác đến các dịch vụ này, điều đó đã tạo ra một chuỗi các vấn đề lan rộng trong toàn bộ hệ sinh thái AWS.
Dòng thời gian Sự cố và Tác động Ban đầu
Sự cố bắt đầu vào lúc 11:49 PM PDT ngày 19 tháng 10 và tiếp diễn đến 2:24 AM PDT ngày 20 tháng 10.
Trong khoảng thời gian này, các dịch vụ AWS tại khu vực US-EAST-1 đã ghi nhận tỷ lệ lỗi tăng cao đáng kể.
Ngay cả Amazon.com và nhiều dịch vụ phụ trợ của Amazon, cùng với các hoạt động hỗ trợ khách hàng của AWS, cũng đã ngừng hoạt động trong sự cố AWS này.
Chi tiết kỹ thuật về Tác động Hệ thống và Phản ứng
Ảnh hưởng lan rộng đến DynamoDB và EC2
Các kỹ sư của AWS đã xác định được vấn đề phân giải DNS vào lúc 12:26 AM PDT.
Họ ngay lập tức khởi động các nỗ lực giảm thiểu và đã thành công khắc phục vấn đề DNS cốt lõi của DynamoDB vào lúc 2:24 AM PDT.
Đây là cột mốc quan trọng đầu tiên trong quá trình phục hồi, mặc dù việc giải quyết vấn đề chính không ngay lập tức khôi phục mọi thứ về bình thường.
Một phần nhỏ các hệ thống con nội bộ vẫn bị ảnh hưởng ngay cả sau khi vấn đề DNS đã được sửa chữa.
Những vấn đề còn tồn đọng này buộc AWS phải thực hiện một bước đi chiến lược tạm thời: điều tiết (throttling) một số hoạt động, đặc biệt là việc khởi chạy các phiên bản EC2 mới.
Chiến lược Khắc phục và Giảm thiểu
Việc điều tiết có nghĩa là hệ thống cố tình làm chậm hoặc trì hoãn một số yêu cầu thay vì để chúng thất bại hoàn toàn.
Mặc dù nghe có vẻ phản trực giác, chiến lược này thực sự giúp hệ thống phục hồi mượt mà hơn bằng cách ngăn chặn nó khỏi tình trạng quá tải.
Đây là một biện pháp quan trọng để kiểm soát tải và ổn định lại hệ thống sau một rủi ro bảo mật lớn.
Quá trình Phục hồi và Bài học Rút ra
Tiến độ Phục hồi và Hoàn tất
Đến 12:28 PM PDT, tiến độ phục hồi đáng kể đã được ghi nhận trên các dịch vụ AWS và hệ thống khách hàng.
AWS tiếp tục giảm dần việc điều tiết các hoạt động khởi chạy phiên bản EC2 trong suốt buổi chiều.
Các nhóm kỹ thuật của công ty đã làm việc có phương pháp để giải quyết các khu vực bị ảnh hưởng còn lại, đồng thời liên tục theo dõi tình trạng hệ thống.
Vào lúc 3:01 PM PDT ngày 20 tháng 10, AWS thông báo rằng tất cả các dịch vụ đã trở lại hoạt động bình thường, kết thúc sự cố AWS.
Toàn bộ quá trình phục hồi, từ phát hiện ban đầu đến khôi phục hoàn chỉnh, kéo dài khoảng 15 giờ.
Mặc dù sự cố chỉ kéo dài khoảng hai tiếng rưỡi, các hậu quả và hoạt động phục hồi đã kéo dài hơn nhiều, cho thấy mức độ phức tạp của việc khôi phục một hệ thống bị xâm nhập gián đoạn dịch vụ lớn.
Khuyến nghị và Nguồn Thông tin
AWS đã công bố một bản tóm tắt chi tiết sau sự kiện, giải thích chính xác những gì đã xảy ra, cách các nhóm của họ phản ứng và những thay đổi họ đang triển khai để ngăn chặn các sự cố tương tự trong tương lai.
Thông tin chi tiết có thể được tham khảo tại: Thông báo chính thức của Amazon.
Amazon khuyến nghị khách hàng đang gặp phải bất kỳ vấn đề còn sót lại nào nên kiểm tra AWS Health Dashboard để cập nhật trạng thái theo thời gian thực và thông tin bổ sung về các dịch vụ có thể vẫn gặp khó khăn.
Việc theo dõi liên tục tình trạng hệ thống là một phần quan trọng của an ninh mạng trong môi trường cloud, đặc biệt sau những sự cố AWS diện rộng.









