Mối Đe Dọa Mạng Nghiêm Trọng Tấn Công AWS Bằng Drone

Mối Đe Dọa Mạng Nghiêm Trọng Tấn Công AWS Bằng Drone

Một loạt các cuộc tấn công bằng thiết bị bay không người lái nhằm vào các trung tâm dữ liệu Amazon Web Services (AWS) tại Các Tiểu vương quốc Ả Rập Thống nhất (UAE)Bahrain đã gây ra một trong những sự cố gián đoạn dịch vụ đám mây nghiêm trọng nhất trong lịch sử AWS. Sự cố này, bắt đầu từ ngày 1 tháng 3 năm 2026, đã làm gián đoạn hoặc suy giảm hơn 109 dịch vụ trên toàn khu vực ME-CENTRAL-1, khiến hàng nghìn khách hàng doanh nghiệp phải vật lộn di chuyển khối lượng công việc trong nhiều ngày. Đây là minh chứng rõ ràng cho các mối đe dọa mạng phi truyền thống mà hạ tầng điện toán đám mây phải đối mặt.

Nội dung
Diễn Biến Chính của Sự Cố Hạ Tầng Đám Mây

Hậu Quả Vật Lý và Hư Hại Hệ Thống
Ảnh Hưởng Đa Dạng Đến Các Dịch Vụ và Khách Hàng
Phản Ứng và Biện Pháp Khắc Phục Của AWS

Khuyến Nghị Quan Trọng Từ AWS
Bài Học và Khả Năng Phục Hồi Hạ Tầng Đám Mây

Diễn Biến Chính của Sự Cố Hạ Tầng Đám Mây

Sự cố bắt đầu vào khoảng 4:30 AM PST ngày 1 tháng 3, khi một trong các Availability Zone (AZ) của AWS tại UAE, cụ thể là mec1-az2, bị tấn công bởi những gì công ty mô tả ban đầu là “các vật thể”, gây ra “tia lửa và hỏa hoạn” bên trong trung tâm dữ liệu.

Lực lượng cứu hỏa địa phương đã phải cắt điện toàn bộ cơ sở và các máy phát điện để khống chế ngọn lửa. Ban đầu, AWS đã công khai hạ thấp mức độ nghiêm trọng của sự việc, gọi đây là “vấn đề điện cục bộ”.

Đến 4:19 PM PST ngày 2 tháng 3, AWS đã xác nhận thông tin chính xác hơn: hai cơ sở tại UAE trong khu vực ME-CENTRAL-1 đã bị tấn công trực tiếp bằng thiết bị bay không người lái. Đồng thời, một cơ sở thứ ba tại khu vực AWS Middle East (Bahrain), thuộc ME-SOUTH-1, cũng bị hư hại do một thiết bị bay không người lái rơi ở khu vực lân cận. AWS đã quy cho các cuộc tấn công này là do tình hình địa chính trị đang diễn ra trong khu vực, nhấn mạnh các mối đe dọa mạng tiềm ẩn từ các yếu tố bên ngoài.

Hậu Quả Vật Lý và Hư Hại Hệ Thống

Các cuộc tấn công đã gây ra hư hại về cấu trúc, làm gián đoạn việc cung cấp điện và ở một số địa điểm, kích hoạt hệ thống dập lửa, gây ra thêm thiệt hại do nước. Điều này cho thấy tính chất phức tạp của các sự cố hạ tầng vật lý.

Theo các cập nhật trạng thái của Amazon (có thể truy cập tại AWS Health Dashboard), một Availability Zone thứ hai, mec1-az3, đã ngừng hoạt động vài giờ sau cuộc tấn công ban đầu vào mec1-az2. Điều này khiến chỉ còn mec1-az1 hoạt động một phần.

Với hai trong ba AZ bị ảnh hưởng đồng thời, khả năng dự phòng vùng tích hợp của Amazon S3, vốn được thiết kế để chịu được sự mất mát hoàn toàn của một AZ duy nhất, đã bị quá tải. Hệ quả là tỷ lệ lỗi cao đối với cả hoạt động nhập (data ingest) và xuất dữ liệu (data egress).

Ảnh Hưởng Đa Dạng Đến Các Dịch Vụ và Khách Hàng

Sự cố đã nhanh chóng lan rộng khắp hệ thống dịch vụ của AWS. Tại thời điểm gián đoạn cao điểm, sự cố mất điện đã ảnh hưởng đến 109 dịch vụ trên toàn khu vực ME-CENTRAL-1, với 25 dịch vụ bị gián đoạn hoàn toàn, 34 dịch vụ bị suy giảm hiệu suất, và 50 dịch vụ bị ảnh hưởng.

Các dịch vụ nền tảng cốt lõi đã chịu thiệt hại nặng nề nhất ngay từ đầu. Điều này bao gồm các dịch vụ thiết yếu như lưu trữ đối tượng S3, cơ sở dữ liệu NoSQL DynamoDB, và dịch vụ tính toán linh hoạt EC2.

Ngoài hạ tầng đám mây, sự cố còn lan rộng đến các ứng dụng hướng tới người tiêu dùng trên khắp UAE. Các nền tảng gọi xe và giao hàng như Careem, cùng với các dịch vụ thanh toán như AlaanHubpay, đều báo cáo gián đoạn trực tiếp liên quan đến sự cố hạ tầng của AWS. Điều này nhấn mạnh mức độ phụ thuộc sâu sắc của các nền kinh tế khu vực vào các nhà cung cấp đám mây siêu quy mô (hyperscale cloud providers) và các rủi ro bảo mật từ sự cố hạ tầng.

Phản Ứng và Biện Pháp Khắc Phục Của AWS

AWS đã theo đuổi song song hai hướng phục hồi: khôi phục vật lý các cơ sở bị hư hại và các biện pháp giảm thiểu dựa trên phần mềm, được thiết kế để khôi phục một phần khả năng cung cấp dịch vụ trước khi hoàn tất sửa chữa hạ tầng.

Đối với Amazon S3, công ty đã triển khai các bản cập nhật cho phép dịch vụ hoạt động trong các ràng buộc của hạ tầng bị suy giảm. Đối với DynamoDB, các nhóm kỹ thuật đã làm việc để khắc phục các bảng bị hỏng nhằm khôi phục khả năng đọc/ghi cho các dịch vụ phụ thuộc.

Đến 8:14 AM PST ngày 3 tháng 3, AWS đã báo cáo cải thiện liên tục trong các hoạt động S3 PUT và LIST, với các đối tượng mới được ghi có thể truy xuất. Tuy nhiên, các hoạt động GET cho dữ liệu đã tồn tại vẫn phụ thuộc vào việc khôi phục hạ tầng vật lý. Khởi chạy phiên bản EC2 vẫn bị hạn chế và tỷ lệ lỗi DynamoDB vẫn ở mức cao.

Khuyến Nghị Quan Trọng Từ AWS

AWS đã đưa ra khuyến nghị mạnh mẽ trong tất cả các chu kỳ cập nhật, kêu gọi khách hàng bị ảnh hưởng thực hiện ngay lập tức các kế hoạch khắc phục thảm họa (disaster recovery plans), khôi phục từ các bản sao lưu từ xa ở các khu vực khác, và chuyển hướng lưu lượng ứng dụng ra khỏi ME-CENTRAL-1.

Các khu vực thay thế được khuyến nghị bao gồm các triển khai AWS tại Hoa Kỳ, Châu ÂuChâu Á – Thái Bình Dương, dựa trên yêu cầu về độ trễ và quy định về nơi cư trú dữ liệu. Đây là một chiến lược quan trọng để giảm thiểu các mối đe dọa mạng và đảm bảo tính liên tục của hoạt động.

Bài Học và Khả Năng Phục Hồi Hạ Tầng Đám Mây

Sự cố này đã làm dấy lên những cuộc thảo luận cấp bách trong ngành về khả năng phục hồi của hạ tầng đám mây trong các khu vực xung đột, rủi ro bảo mật từ việc tập trung địa lý, và sự cần thiết của các kiến trúc multi-region active-active. Đặc biệt, điều này càng quan trọng đối với các doanh nghiệp hoạt động trong môi trường địa chính trị bất ổn, nơi các mối đe dọa mạng có thể xuất hiện từ nhiều hình thức khác nhau.

Sự kiện này tái khẳng định tầm quan trọng của việc đầu tư vào các chiến lược an ninh mạng toàn diện, không chỉ bao gồm bảo vệ phần mềm mà còn cả khả năng chống chịu của hạ tầng vật lý. Các tổ chức cần xem xét kỹ lưỡng các kế hoạch dự phòng và khả năng phân tán tài nguyên để đảm bảo hoạt động kinh doanh liên tục ngay cả khi hệ thống bị tấn công hoặc gặp phải các sự cố nghiêm trọng.

Việc hiểu rõ các mối đe dọa mạng và xây dựng một kiến trúc đám mây kiên cường là yếu tố then chốt để duy trì độ tin cậy và sự ổn định cho các dịch vụ số hóa.