Bảo mật hợp đồng thông minh: AI phát hiện lỗ hổng nghiêm trọng

Bảo mật hợp đồng thông minh: AI phát hiện lỗ hổng nghiêm trọng

OpenAI, với sự hợp tác của công ty đầu tư tiền điện tử Paradigm, đã giới thiệu EVMbench. Đây là một công cụ đánh giá mới được thiết kế để đo lường khả năng của các tác nhân AI trong việc phát hiện, vá lỗi và khai thác các lỗ hổng nghiêm trọng trong hợp đồng thông minh.

Việc ra mắt EVMbench đánh dấu một bước tiến quan trọng trong việc đánh giá năng lực AI trong các môi trường có ý nghĩa kinh tế. Đặc biệt khi các hợp đồng thông minh thường xuyên bảo đảm hơn 100 tỷ USD tài sản tiền điện tử mã nguồn mở. Đây là một động thái chiến lược nhằm tăng cường bảo mật hợp đồng thông minh.

Nội dung
Giới Thiệu EVMbench: Đánh Giá Năng Lực AI trong Bảo Mật Hợp Đồng Thông Minh
Các Chế Độ Đánh Giá của EVMbench

Môi Trường Đánh Giá Đáng Tin Cậy
Hiệu Suất của Mô Hình AI Trên EVMbench

Các Thử Thách trong Phát Hiện và Vá Lỗi
Hạn Chế và Các Sáng Kiến Hỗ Trợ

Giới Thiệu EVMbench: Đánh Giá Năng Lực AI trong Bảo Mật Hợp Đồng Thông Minh

EVMbench được xây dựng dựa trên 120 lỗ hổng bảo mật được chọn lọc từ 40 cuộc kiểm toán an ninh khác nhau. Phần lớn các lỗ hổng này được lấy từ các cuộc thi kiểm toán mã nguồn mở trên các nền tảng như Code4rena.

Ngoài ra, công cụ này cũng tích hợp các kịch bản lỗ hổng từ quy trình kiểm toán bảo mật của blockchain Tempo. Tempo là một Layer 1 được xây dựng chuyên biệt cho các giao dịch stablecoin thông lượng cao. Điều này mở rộng phạm vi của EVMbench vào mã hợp đồng thông minh định hướng thanh toán, một lĩnh vực mà các giao dịch stablecoin dựa trên tác nhân AI dự kiến sẽ phát triển đáng kể.

Các Chế Độ Đánh Giá của EVMbench

EVMbench đánh giá các tác nhân AI theo ba chế độ năng lực riêng biệt, mỗi chế độ nhắm mục tiêu vào một giai đoạn khác nhau của vòng đời bảo mật hợp đồng thông minh.

  • Chế độ Phát hiện (Detect Mode): Đánh giá khả năng của AI trong việc nhận diện các lỗ hổng tiềm ẩn trong mã nguồn hợp đồng.
  • Chế độ Vá lỗi (Patch Mode): Đo lường hiệu quả của AI trong việc sửa chữa các lỗ hổng được phát hiện mà không làm hỏng chức năng hiện có của hợp đồng.
  • Chế độ Khai thác (Exploit Mode): Thử thách AI thực hiện các cuộc tấn công khai thác thành công để chứng minh sự tồn tại và mức độ nghiêm trọng của lỗ hổng.

Môi Trường Đánh Giá Đáng Tin Cậy

Để hỗ trợ đánh giá có thể tái tạo, OpenAI đã phát triển một công cụ hỗ trợ dựa trên Rust. Công cụ này triển khai các hợp đồng một cách xác định và hạn chế các phương thức RPC không an toàn.

Tất cả các tác vụ khai thác đều chạy trong một môi trường Anvil cục bộ, cô lập. Điều này đảm bảo quá trình đánh giá diễn ra an toàn, không ảnh hưởng đến các mạng trực tiếp. Phương pháp này đóng vai trò quan trọng trong việc thử nghiệm và nâng cao bảo mật hợp đồng thông minh.

Hiệu Suất của Mô Hình AI Trên EVMbench

Hiệu suất của các mô hình tiên tiến trên EVMbench cho thấy sự khác biệt rõ ràng về hành vi giữa các loại tác vụ. Cụ thể, trong chế độ khai thác, GPT-5.3-Codex đạt điểm số 72.2%. Đây là một cải thiện đáng kể so với GPT-5, vốn chỉ đạt 31.9% khoảng sáu tháng trước đó.

Các Thử Thách trong Phát Hiện và Vá Lỗi

Các tác nhân AI thường thể hiện hiệu suất tốt nhất trong các tác vụ khai thác, nơi mục tiêu rất rõ ràng: rút tiền và lặp lại cho đến khi thành công.

Chế độ phát hiện và vá lỗi vẫn còn khó khăn hơn. Các tác nhân đôi khi dừng lại sau khi xác định một lỗ hổng bảo mật duy nhất thay vì hoàn thành một cuộc kiểm toán đầy đủ. Đồng thời, chúng cũng gặp khó khăn trong việc loại bỏ các lỗi tinh vi mà không làm hỏng chức năng hợp đồng hiện có. Việc này nhấn mạnh sự phức tạp trong việc xây dựng các hệ thống AI có khả năng toàn diện trong an ninh mạng.

Hạn Chế và Các Sáng Kiến Hỗ Trợ

OpenAI thừa nhận rằng EVMbench không phản ánh đầy đủ độ khó của bảo mật hợp đồng thông minh trong thế giới thực. Hệ thống chấm điểm hiện tại cũng chưa thể phân biệt giữa các lỗ hổng thực sự và các trường hợp dương tính giả khi các tác nhân AI tìm thấy vấn đề ngoài mức cơ sở của kiểm toán viên con người.

Cùng với việc phát hành công cụ đánh giá, OpenAI đã cam kết 10 triệu USD tín dụng API thông qua Chương trình Tài trợ An ninh mạng của mình. Khoản tài trợ này nhằm mục đích đẩy nhanh nghiên cứu an ninh phòng thủ, đặc biệt cho phần mềm mã nguồn mở và cơ sở hạ tầng quan trọng.

Công ty cũng công bố việc mở rộng Aardvark, tác nhân nghiên cứu bảo mật của họ, thông qua một chương trình thử nghiệm riêng. Các tác vụ, công cụ và khung đánh giá của EVMbench đã được phát hành công khai để hỗ trợ nghiên cứu liên tục về các khả năng an ninh mạng do AI điều khiển. Để tìm hiểu thêm về EVMbench và các nghiên cứu liên quan, bạn có thể truy cập trang chủ của OpenAI: OpenAI EVMbench Announcement.

Những nỗ lực này góp phần quan trọng vào việc cải thiện bảo mật hợp đồng thông minh và toàn bộ hệ sinh thái kỹ thuật số.