Gián đoạn dịch vụ AWS US-EAST-1: Rủi ro Nghiêm trọng từ sự cố

21/10/2025

3 mins read

Gián đoạn dịch vụ AWS US-EAST-1: Rủi ro Nghiêm trọng từ sự cố

Vào cuối ngày 19 tháng 10 năm 2025, Amazon Web Services đã trải qua một gián đoạn dịch vụ AWS đáng kể tại khu vực US-EAST-1. Sự cố này kéo dài gần 24 giờ, ảnh hưởng đến hơn 140 dịch vụ và gây ra các vấn đề trên diện rộng cho khách hàng toàn cầu.

Sự cố bắt đầu vào khoảng 11:49 PM PDT ngày 19 tháng 10 và được giải quyết hoàn toàn vào chiều ngày 20 tháng 10.

Nội dung

Diễn biến chính của Sự cố

Khởi nguồn và Vấn đề về DNS

Chuỗi Sự kiện Leo Thang

Tác động và Hậu quả

Ảnh hưởng đến Khách hàng và Dịch vụ Toàn cầu

Quá trình Khôi phục và Khuyến nghị

Biện pháp Khắc phục của AWS

Cam kết và Khuyến nghị Tăng cường Khả năng Phục hồi

Diễn biến chính của Sự cố

Khởi nguồn và Vấn đề về DNS

Sự cố khởi phát khi các kỹ sư AWS phát hiện tỷ lệ lỗi và độ trễ tăng cao trên nhiều dịch vụ tại khu vực quan trọng US-EAST-1.

Vào lúc 12:26 AM ngày 20 tháng 10, AWS xác định nguyên nhân ban đầu là các vấn đề phân giải DNS ảnh hưởng đến các điểm cuối của dịch vụ DynamoDB trong khu vực. AWS Health Dashboard đã ghi nhận tình trạng này.

Vấn đề ban đầu này đã tạo ra một lỗi dây chuyền, tác động đến nhiều dịch vụ khác.

Chuỗi Sự kiện Leo Thang

Sau khi giải quyết vấn đề DNS của DynamoDB vào lúc 2:24 AM, AWS phải đối mặt với một sự cố tiếp theo. Đó là sự suy giảm chức năng trong hệ thống con nội bộ của EC2, chịu trách nhiệm khởi chạy các instance mới. Nguyên nhân do sự phụ thuộc của hệ thống này vào DynamoDB đã gặp phải sự cố trước đó.

Tình hình trở nên trầm trọng hơn khi các kiểm tra tình trạng (health checks) của Network Load Balancer (NLB) bị ảnh hưởng.

Điều này dẫn đến các vấn đề về kết nối mạng trên các dịch vụ như Lambda, DynamoDB và CloudWatch.

Tác động và Hậu quả

Ảnh hưởng đến Khách hàng và Dịch vụ Toàn cầu

Sự cố này đặc biệt ảnh hưởng đến các dịch vụ và tính năng toàn cầu dựa vào các điểm cuối của US-EAST-1.

Các dịch vụ như xác thực IAM và DynamoDB Global Tables đều chịu tác động nặng nề.

Khách hàng đã gặp phải lỗi khi khởi chạy EC2 instance, lỗi khi gọi hàm Lambda function và khó khăn trong việc truy cập các dịch vụ lưu trữ và cơ sở dữ liệu.

Rủi ro bảo mật từ sự cố gián đoạn dịch vụ AWS cũng có thể phát sinh nếu các hệ thống phụ thuộc vào tính sẵn sàng cao bị ảnh hưởng nghiêm trọng.

Đặc biệt, sự gián đoạn còn ngăn cản khách hàng tạo hoặc cập nhật các trường hợp hỗ trợ (support cases) trong thời điểm cao điểm của sự cố.

Quá trình Khôi phục và Khuyến nghị

Biện pháp Khắc phục của AWS

Để quản lý quá trình khôi phục, AWS đã tạm thời điều tiết (throttled) một số hoạt động nhất định. Bao gồm việc khởi chạy EC2 instance, xử lý hàng đợi SQS thông qua Lambda Event Source Mappings và gọi hàm Lambda không đồng bộ.

Các kỹ sư đã làm việc suốt buổi sáng để khôi phục các kiểm tra tình trạng của Network Load Balancer, đạt được cột mốc này vào lúc 9:38 AM PDT.

Trong suốt cả ngày, AWS dần dần giảm việc điều tiết hoạt động đồng thời giải quyết các vấn đề về kết nối mạng.

Đến 3:01 PM PDT ngày 20 tháng 10, tất cả các dịch vụ AWS đã trở lại hoạt động bình thường.

Tuy nhiên, một số dịch vụ như AWS Config, Redshift và Connect vẫn tiếp tục xử lý các backlog tin nhắn trong vài giờ sau khi sự cố chính được giải quyết.

Đây là một ví dụ điển hình về tầm quan trọng của việc duy trì an toàn thông tin và khả năng phục hồi hệ thống.

Cam kết và Khuyến nghị Tăng cường Khả năng Phục hồi

AWS đã cam kết chia sẻ một bản tóm tắt chi tiết sau sự kiện để cung cấp cho khách hàng cái nhìn toàn diện về những gì đã xảy ra.

Bản tóm tắt cũng sẽ bao gồm các biện pháp đang được thực hiện để ngăn chặn các sự cố gián đoạn dịch vụ AWS tương tự trong tương lai.

Công ty khuyến nghị khách hàng nên cấu hình Auto Scaling Groups trải rộng trên nhiều Availability Zones.

Khách hàng cũng nên tránh nhắm mục tiêu vào các zone cụ thể trong quá trình khởi chạy instance để cải thiện khả năng phục hồi chống lại các vấn đề trong khu vực.

21/10/2025

White Paper

Precise Detection of Kernel Data Races with Probabilistic Lockset Analysis

White Paper

Leveraging Large Language Models for Security Focused Code Reviews – 2025

White Paper

Bài viết liên quan

21/03/2025

Lỗ hổng bảo mật CVE-2024-10441 trên DiskStation Manager: Mô tả, ảnh hưởng và giải pháp

30/09/2025

CVE-2025-32463: Lỗ hổng sudo leo quyền root nghiêm trọng

04/04/2025

Lỗ Hổng WinRAR CVE-2025-31334: Bypass MotW và Thực Thi Mã Tùy Ý

13/08/2025

Khẩn cấp: Lỗ hổng CVE Teams nguy hiểm, cần vá ngay

25/07/2025

Lỗ hổng CVE VMware Tools: Nguy cơ chiếm quyền hệ thống khẩn cấp

08/09/2025

WAF Bypass Mới: XSS Vượt Tường Lửa Nguy Hiểm Bằng HPP

13/08/2025

Lỗ hổng CVE nghiêm trọng đe dọa Windows Remote Desktop Services

19/09/2025

Lỗ hổng

Gián đoạn dịch vụ AWS US-EAST-1: Rủi ro Nghiêm trọng từ sự cố

Gián đoạn dịch vụ AWS US-EAST-1: Rủi ro Nghiêm trọng từ sự cố

Diễn biến chính của Sự cố

Khởi nguồn và Vấn đề về DNS

Chuỗi Sự kiện Leo Thang

Tác động và Hậu quả

Ảnh hưởng đến Khách hàng và Dịch vụ Toàn cầu

Quá trình Khôi phục và Khuyến nghị

Biện pháp Khắc phục của AWS

Cam kết và Khuyến nghị Tăng cường Khả năng Phục hồi

Trending