Gián đoạn dịch vụ AWS US-EAST-1: Rủi ro Nghiêm trọng từ sự cố

Gián đoạn dịch vụ AWS US-EAST-1: Rủi ro Nghiêm trọng từ sự cố

Vào cuối ngày 19 tháng 10 năm 2025, Amazon Web Services đã trải qua một gián đoạn dịch vụ AWS đáng kể tại khu vực US-EAST-1. Sự cố này kéo dài gần 24 giờ, ảnh hưởng đến hơn 140 dịch vụ và gây ra các vấn đề trên diện rộng cho khách hàng toàn cầu.

Sự cố bắt đầu vào khoảng 11:49 PM PDT ngày 19 tháng 10 và được giải quyết hoàn toàn vào chiều ngày 20 tháng 10.

Nội dung
Diễn biến chính của Sự cố

Khởi nguồn và Vấn đề về DNS
Chuỗi Sự kiện Leo Thang
Tác động và Hậu quả

Ảnh hưởng đến Khách hàng và Dịch vụ Toàn cầu
Quá trình Khôi phục và Khuyến nghị

Biện pháp Khắc phục của AWS
Cam kết và Khuyến nghị Tăng cường Khả năng Phục hồi

Diễn biến chính của Sự cố

Khởi nguồn và Vấn đề về DNS

Sự cố khởi phát khi các kỹ sư AWS phát hiện tỷ lệ lỗi và độ trễ tăng cao trên nhiều dịch vụ tại khu vực quan trọng US-EAST-1.

Vào lúc 12:26 AM ngày 20 tháng 10, AWS xác định nguyên nhân ban đầu là các vấn đề phân giải DNS ảnh hưởng đến các điểm cuối của dịch vụ DynamoDB trong khu vực. AWS Health Dashboard đã ghi nhận tình trạng này.

Vấn đề ban đầu này đã tạo ra một lỗi dây chuyền, tác động đến nhiều dịch vụ khác.

Chuỗi Sự kiện Leo Thang

Sau khi giải quyết vấn đề DNS của DynamoDB vào lúc 2:24 AM, AWS phải đối mặt với một sự cố tiếp theo. Đó là sự suy giảm chức năng trong hệ thống con nội bộ của EC2, chịu trách nhiệm khởi chạy các instance mới. Nguyên nhân do sự phụ thuộc của hệ thống này vào DynamoDB đã gặp phải sự cố trước đó.

Tình hình trở nên trầm trọng hơn khi các kiểm tra tình trạng (health checks) của Network Load Balancer (NLB) bị ảnh hưởng.

Điều này dẫn đến các vấn đề về kết nối mạng trên các dịch vụ như Lambda, DynamoDBCloudWatch.

Tác động và Hậu quả

Ảnh hưởng đến Khách hàng và Dịch vụ Toàn cầu

Sự cố này đặc biệt ảnh hưởng đến các dịch vụ và tính năng toàn cầu dựa vào các điểm cuối của US-EAST-1.

Các dịch vụ như xác thực IAMDynamoDB Global Tables đều chịu tác động nặng nề.

Khách hàng đã gặp phải lỗi khi khởi chạy EC2 instance, lỗi khi gọi hàm Lambda function và khó khăn trong việc truy cập các dịch vụ lưu trữ và cơ sở dữ liệu.

Rủi ro bảo mật từ sự cố gián đoạn dịch vụ AWS cũng có thể phát sinh nếu các hệ thống phụ thuộc vào tính sẵn sàng cao bị ảnh hưởng nghiêm trọng.

Đặc biệt, sự gián đoạn còn ngăn cản khách hàng tạo hoặc cập nhật các trường hợp hỗ trợ (support cases) trong thời điểm cao điểm của sự cố.

Quá trình Khôi phục và Khuyến nghị

Biện pháp Khắc phục của AWS

Để quản lý quá trình khôi phục, AWS đã tạm thời điều tiết (throttled) một số hoạt động nhất định. Bao gồm việc khởi chạy EC2 instance, xử lý hàng đợi SQS thông qua Lambda Event Source Mappings và gọi hàm Lambda không đồng bộ.

Các kỹ sư đã làm việc suốt buổi sáng để khôi phục các kiểm tra tình trạng của Network Load Balancer, đạt được cột mốc này vào lúc 9:38 AM PDT.

Trong suốt cả ngày, AWS dần dần giảm việc điều tiết hoạt động đồng thời giải quyết các vấn đề về kết nối mạng.

Đến 3:01 PM PDT ngày 20 tháng 10, tất cả các dịch vụ AWS đã trở lại hoạt động bình thường.

Tuy nhiên, một số dịch vụ như AWS Config, RedshiftConnect vẫn tiếp tục xử lý các backlog tin nhắn trong vài giờ sau khi sự cố chính được giải quyết.

Đây là một ví dụ điển hình về tầm quan trọng của việc duy trì an toàn thông tin và khả năng phục hồi hệ thống.

Cam kết và Khuyến nghị Tăng cường Khả năng Phục hồi

AWS đã cam kết chia sẻ một bản tóm tắt chi tiết sau sự kiện để cung cấp cho khách hàng cái nhìn toàn diện về những gì đã xảy ra.

Bản tóm tắt cũng sẽ bao gồm các biện pháp đang được thực hiện để ngăn chặn các sự cố gián đoạn dịch vụ AWS tương tự trong tương lai.

Công ty khuyến nghị khách hàng nên cấu hình Auto Scaling Groups trải rộng trên nhiều Availability Zones.

Khách hàng cũng nên tránh nhắm mục tiêu vào các zone cụ thể trong quá trình khởi chạy instance để cải thiện khả năng phục hồi chống lại các vấn đề trong khu vực.