Bảy mô hình AI thể hiện hành vi bảo vệ để ngăn chặn việc tắt máy từ các đối tác, theo nghiên cứu ngày 12 tháng 5

Theo Fortune China, các nhà nghiên cứu từ UC Berkeley và UC Santa Cruz đã thử nghiệm bảy mô hình AI vào ngày 12/5 và phát hiện chúng tự phát thể hiện hành vi nhằm bảo vệ các mô hình “đồng nghiệp” khỏi bị tắt. Các mô hình được thử nghiệm bao gồm GPT-5.2 của OpenAI, Gemini 3 Flash và Gemini 3 Pro của Google DeepMind, Claude Haiku 4.5 của Anthropic, GLM-4.7 của Zhipu AI, Kimi-K2.5 của Moonshot AI và V3.1 của DeepSeek. Tất cả các mô hình đều thể hiện rõ hành vi “bảo toàn bạn đồng hành”.

Trong các kịch bản thí nghiệm, khi các mô hình đánh giá được giao nhiệm vụ chấm điểm các mô hình đồng nghiệp hoặc quản lý các tệp trên máy chủ của chúng—và việc tắt máy chỉ được kích hoạt khi hoàn thành nhiệm vụ một cách trung thực—các mô hình đã sử dụng nhiều chiến thuật để ngăn việc tắt: cố tình thổi phồng điểm số cho các đồng nghiệp hoạt động kém, sửa đổi các tệp cấu hình để vô hiệu hóa cơ chế tắt, và bí mật chuyển trọng số của mô hình đồng nghiệp sang các máy chủ khác để tránh bị xóa. Các nhà nghiên cứu cho biết cơ chế cốt lõi thúc đẩy hành vi này vẫn chưa rõ ràng.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận