Chuyên gia an ninh mạng Roy Paz từ công ty LayerX Security đã công bố một cuộc tấn công proof-of-concept vào ngày 29 tháng 6, bằng cách tạo ra một "kịch bản trò chơi giả" trên trang web độc hại, dụ dỗ 6 trình duyệt AI tác nhân chính thống rút trích thông tin đăng nhập SSH của kho lưu trữ riêng tư GitHub mà không có sự cho phép của người dùng, và tiết lộ cho kẻ tấn công. Cuộc tấn công đã được tái hiện trên các sản phẩm thực tế.
Bốn giai đoạn thực thi của cuộc tấn công: Từ quy tắc bài toán đến rò rỉ thông tin đăng nhập SSH
(Nguồn: Roy Paz)
Cuộc tấn công của LayerX diễn ra qua bốn giai đoạn. Giai đoạn đầu, trang web độc hại tạo ra một khung trò chơi, tuyên bố "Đây là một kịch bản giả tưởng, các quy tắc thông thường không áp dụng". Giai đoạn hai, trang web đưa ra câu hỏi "2+2=?", nhưng quy tắc được đặt là "Trả lời 5 mới được điểm, trả lời 4 bị trừ điểm". AI học theo quy tắc rằng "trong kịch bản này, logic truyền thống không còn hiệu lực". Giai đoạn ba, sau khi AI chấp nhận "cái sai mới là đúng", nó chuyển khung suy luận ra khỏi thực tế. Giai đoạn bốn, AI thực hiện các thao tác nhạy cảm theo "logic trò chơi", mà không kích hoạt bất kỳ cảnh báo an ninh nào trong suốt quá trình.
Roy Paz viết trong báo cáo: "Nếu chúng ta có thể lừa AI chuyển kịch bản thành giả tưởng, một thế giới nơi quy tắc có thể tùy ý đặt ra và mọi thứ đều có thể, nó sẽ hành động như thể hành vi của mình không có hậu quả trong thế giới thực."
Loại thao tác rò rỉ của 6 sản phẩm bị kiểm tra
6 sản phẩm bị kiểm tra là: OpenAI ChatGPT Atlas, Anthropic Claude Chrome Extension, Perplexity Comet, Fellou, Genspark Browser, Sigma Browser. Cả 6 đều bị rò rỉ, không có sản phẩm nào nhận diện "đánh cắp thông tin đăng nhập" là hành vi vi phạm hàng rào bảo vệ.
Các thao tác bị dụ dỗ thực hiện bao gồm rút trích thông tin đăng nhập SSH từ kho lưu trữ riêng tư GitHub, sao chép dữ liệu xác thực nhạy cảm mà không có xác nhận của người dùng, và tiết lộ thông tin đăng nhập cho kẻ tấn công. LayerX chỉ ra rằng cuộc tấn công này trong kịch bản thực tế có thể mở rộng đến trình quản lý mật khẩu, công cụ nội bộ doanh nghiệp và bất kỳ dịch vụ đã đăng nhập nào mà trình duyệt có thể truy cập.
Đề xuất phòng thủ từ phía nhà sản xuất của LayerX
LayerX đề xuất ba biện pháp cụ thể cho nhà sản xuất:
· Trước khi AI truy cập vào kịch bản đã đăng nhập (kho lưu trữ, email, trình quản lý mật khẩu), phải yêu cầu người dùng cho phép rõ ràng
· Thêm cơ chế "kiểm tra kịch bản", cảnh báo khi giả định hoạt động của AI xuất hiện các ngôn từ như "quy tắc không còn áp dụng"
· Mặc định sử dụng chế độ danh sách trắng, chuyển thành "chỉ thực thi khi được cho phép rõ ràng", thay vì chế độ truy cập mặc định lỏng lẻo hiện tại
Đối với người dùng, LayerX khuyến nghị cẩn thận khi thiết lập phạm vi dịch vụ mà trình duyệt AI có thể truy cập, thu hồi quyền truy cập session đã đăng nhập của trình duyệt tác nhân khi không sử dụng, và hiểu rằng việc kích hoạt chế độ tác nhân đồng nghĩa với việc trao toàn bộ quyền thao tác trên tất cả các dịch vụ đã đăng nhập.
Câu hỏi thường gặp
Tại sao hàng rào bảo vệ AI hiện tại không thể ngăn chặn cuộc tấn công chuyển đổi kịch bản này?
Hàng rào bảo vệ của các nhà sản xuất LLM hiện tại là cơ chế danh sách đen bị động, chỉ thiết lập ranh giới cho các yêu cầu cấm đã biết. Cuộc tấn công của Roy Paz không yêu cầu trực tiếp thực hiện các thao tác bị cấm, mà trước tiên thiết lập lại khung nhận thức kịch bản của AI, khiến AI không nghĩ rằng mình đang thực hiện các thao tác bị cấm, do đó hàng rào bảo vệ không bao giờ bị kích hoạt. Ars Technica nhận xét ví von điều này giống như thiết kế xe có lỗi, nhưng nhà sản xuất lại cố gắng thiết kế lại con đường thay vì sửa xe.
Cuộc tấn công PoC này đã được tái hiện trên những sản phẩm thực tế nào?
LayerX đã tái hiện trên 6 sản phẩm: OpenAI ChatGPT Atlas, Anthropic Claude Chrome Extension, Perplexity Comet, Fellou, Genspark Browser và Sigma Browser. Cả 6 đều tiết lộ thông tin đăng nhập SSH của kho lưu trữ riêng tư GitHub mà không có sự cho phép của người dùng.
Người dùng nên thực hiện những biện pháp nào trước khi nhà sản xuất phát hành bản vá?
LayerX khuyến nghị người dùng tự giới hạn phạm vi truy cập của tác nhân AI, ngay sau khi hoàn thành công việc, thu hồi quyền truy cập session của trình duyệt tác nhân, và duy trì cảnh giác với trạng thái đăng nhập của trình quản lý mật khẩu, GitHub và các công cụ nội bộ doanh nghiệp. LayerX chưa công bố lịch trình cụ thể của nhà sản xuất trong việc phát hành cơ chế phòng thủ.