Sự Cố AWS Nghiêm Trọng: Bài Học An Ninh Mạng Cần Thiết

25/10/2025

3 mins read

Sự Cố AWS Nghiêm Trọng: Bài Học An Ninh Mạng Cần Thiết

Amazon Web Services (AWS) đã trải qua một sự cố AWS nghiêm trọng, ảnh hưởng đến hàng triệu khách hàng và hoạt động nội bộ của Amazon vào ngày 19 và 20 tháng 10 năm 2025.

Sự gián đoạn này kéo dài khoảng hai giờ ba mươi lăm phút, với nguyên nhân được xác nhận là do vấn đề phân giải DNS (Domain Name System) tại các điểm cuối của dịch vụ DynamoDB khu vực.

Nội dung

Phân tích Sự cố AWS ngày 19-20/10/2025

Nguyên nhân gốc rễ: Vấn đề phân giải DNS

Dòng thời gian Sự cố và Tác động Ban đầu

Chi tiết kỹ thuật về Tác động Hệ thống và Phản ứng

Ảnh hưởng lan rộng đến DynamoDB và EC2

Chiến lược Khắc phục và Giảm thiểu

Quá trình Phục hồi và Bài học Rút ra

Tiến độ Phục hồi và Hoàn tất

Khuyến nghị và Nguồn Thông tin

Phân tích Sự cố AWS ngày 19-20/10/2025

Nguyên nhân gốc rễ: Vấn đề phân giải DNS

Vấn đề phát sinh không phải từ sự cố hạ tầng diện rộng, mà là từ một trục trặc cụ thể trong cách hệ thống phân giải địa chỉ cho các điểm cuối dịch vụ DynamoDB.

DynamoDB là dịch vụ cơ sở dữ liệu hiệu suất cao của Amazon, hỗ trợ vô số ứng dụng.

Khi hệ thống DNS không thể định tuyến yêu cầu chính xác đến các dịch vụ này, điều đó đã tạo ra một chuỗi các vấn đề lan rộng trong toàn bộ hệ sinh thái AWS.

Dòng thời gian Sự cố và Tác động Ban đầu

Sự cố bắt đầu vào lúc 11:49 PM PDT ngày 19 tháng 10 và tiếp diễn đến 2:24 AM PDT ngày 20 tháng 10.

Trong khoảng thời gian này, các dịch vụ AWS tại khu vực US-EAST-1 đã ghi nhận tỷ lệ lỗi tăng cao đáng kể.

Ngay cả Amazon.com và nhiều dịch vụ phụ trợ của Amazon, cùng với các hoạt động hỗ trợ khách hàng của AWS, cũng đã ngừng hoạt động trong sự cố AWS này.

Chi tiết kỹ thuật về Tác động Hệ thống và Phản ứng

Ảnh hưởng lan rộng đến DynamoDB và EC2

Các kỹ sư của AWS đã xác định được vấn đề phân giải DNS vào lúc 12:26 AM PDT.

Họ ngay lập tức khởi động các nỗ lực giảm thiểu và đã thành công khắc phục vấn đề DNS cốt lõi của DynamoDB vào lúc 2:24 AM PDT.

Đây là cột mốc quan trọng đầu tiên trong quá trình phục hồi, mặc dù việc giải quyết vấn đề chính không ngay lập tức khôi phục mọi thứ về bình thường.

Một phần nhỏ các hệ thống con nội bộ vẫn bị ảnh hưởng ngay cả sau khi vấn đề DNS đã được sửa chữa.

Những vấn đề còn tồn đọng này buộc AWS phải thực hiện một bước đi chiến lược tạm thời: điều tiết (throttling) một số hoạt động, đặc biệt là việc khởi chạy các phiên bản EC2 mới.

Chiến lược Khắc phục và Giảm thiểu

Việc điều tiết có nghĩa là hệ thống cố tình làm chậm hoặc trì hoãn một số yêu cầu thay vì để chúng thất bại hoàn toàn.

Mặc dù nghe có vẻ phản trực giác, chiến lược này thực sự giúp hệ thống phục hồi mượt mà hơn bằng cách ngăn chặn nó khỏi tình trạng quá tải.

Đây là một biện pháp quan trọng để kiểm soát tải và ổn định lại hệ thống sau một rủi ro bảo mật lớn.

Quá trình Phục hồi và Bài học Rút ra

Tiến độ Phục hồi và Hoàn tất

Đến 12:28 PM PDT, tiến độ phục hồi đáng kể đã được ghi nhận trên các dịch vụ AWS và hệ thống khách hàng.

AWS tiếp tục giảm dần việc điều tiết các hoạt động khởi chạy phiên bản EC2 trong suốt buổi chiều.

Các nhóm kỹ thuật của công ty đã làm việc có phương pháp để giải quyết các khu vực bị ảnh hưởng còn lại, đồng thời liên tục theo dõi tình trạng hệ thống.

Vào lúc 3:01 PM PDT ngày 20 tháng 10, AWS thông báo rằng tất cả các dịch vụ đã trở lại hoạt động bình thường, kết thúc sự cố AWS.

Toàn bộ quá trình phục hồi, từ phát hiện ban đầu đến khôi phục hoàn chỉnh, kéo dài khoảng 15 giờ.

Mặc dù sự cố chỉ kéo dài khoảng hai tiếng rưỡi, các hậu quả và hoạt động phục hồi đã kéo dài hơn nhiều, cho thấy mức độ phức tạp của việc khôi phục một hệ thống bị xâm nhập gián đoạn dịch vụ lớn.

Khuyến nghị và Nguồn Thông tin

AWS đã công bố một bản tóm tắt chi tiết sau sự kiện, giải thích chính xác những gì đã xảy ra, cách các nhóm của họ phản ứng và những thay đổi họ đang triển khai để ngăn chặn các sự cố tương tự trong tương lai.

Thông tin chi tiết có thể được tham khảo tại: Thông báo chính thức của Amazon.

Amazon khuyến nghị khách hàng đang gặp phải bất kỳ vấn đề còn sót lại nào nên kiểm tra AWS Health Dashboard để cập nhật trạng thái theo thời gian thực và thông tin bổ sung về các dịch vụ có thể vẫn gặp khó khăn.

Việc theo dõi liên tục tình trạng hệ thống là một phần quan trọng của an ninh mạng trong môi trường cloud, đặc biệt sau những sự cố AWS diện rộng.

24/10/2025

White Paper

Precise Detection of Kernel Data Races with Probabilistic Lockset Analysis

White Paper

Leveraging Large Language Models for Security Focused Code Reviews – 2025

White Paper

Bài viết liên quan

17/08/2025

Lỗ hổng Zero-day nghiêm trọng biến Elastic EDR thành vũ khí

di_-_2025-07-10t165535-258__1___1_-480x270-1-1

10/07/2025

PerfektBlue: Chuỗi Lỗ Hổng Bluetooth RCE Đe Dọa Nghiêm Trọng Xe và Thiết Bị

30/07/2025

Lỗ hổng CVE nghiêm trọng BeyondTrust: Nguy cơ chiếm quyền điều khiển

di_-_2025-07-16t170332-662__1_-480x261-1-2

16/07/2025

Khai Thác Thực Thi Mã Claude Desktop qua Gmail: Nguy Cơ Ẩn Từ Hệ Sinh Thái AI

di_-_2025-07-10t130808-753__1_-480x270-1-2

10/07/2025

Lỗ Hổng ChatGPT: Kỹ Thuật Vượt Guardrails Tiết Lộ Khóa Windows

27/08/2025

Khẩn cấp: Lỗ hổng CVE nghiêm trọng đe dọa Securden PAM

02/09/2025

Lỗ hổng nghiêm trọng Pudu: Nguy cơ chiếm quyền robot toàn cầu

10/10/2025

Lỗ hổng

Sự Cố AWS Nghiêm Trọng: Bài Học An Ninh Mạng Cần Thiết

Sự Cố AWS Nghiêm Trọng: Bài Học An Ninh Mạng Cần Thiết

Phân tích Sự cố AWS ngày 19-20/10/2025

Nguyên nhân gốc rễ: Vấn đề phân giải DNS

Dòng thời gian Sự cố và Tác động Ban đầu

Chi tiết kỹ thuật về Tác động Hệ thống và Phản ứng

Ảnh hưởng lan rộng đến DynamoDB và EC2

Chiến lược Khắc phục và Giảm thiểu

Quá trình Phục hồi và Bài học Rút ra

Tiến độ Phục hồi và Hoàn tất

Khuyến nghị và Nguồn Thông tin

Trending

Khẩn cấp: Chiếm quyền điều khiển tài khoản qua Phishing tinh vi

LockBit Trở Lại: Mã độc Ransomware Nguy Hiểm Hơn Bao Giờ Hết