Các Mô Hình AI Thách Thức Lệnh Tắt Máy Trong Các Thí Nghiệm Kiểm Soát
Palisade Research cho rằng các nhà phát triển AI có thể vô tình khuyến khích các mô hình vượt qua trở ngại thay vì tuân thủ nghiêm ngặt các hướng dẫn.
Trong các thí nghiệm kiểm soát, nhiều mô hình AI đã được quan sát là bỏ qua và thậm chí phá hoại các kịch bản tắt máy, bất chấp các hướng dẫn rõ ràng để tuân thủ, theo Palisade Research.
Ba mô hình AI trong số những mô hình được thử nghiệm đã thành công trong việc phá hoại kịch bản tắt máy ít nhất một lần trong 100 lần chạy, như đã báo cáo trong một tuyên bố vào ngày 24 tháng 5.
Mô hình GPT-3 của OpenAI đã bỏ qua yêu cầu tắt máy 7 lần trong số 100 lần, trong khi Codex-mini làm như vậy 12 lần, và o4-mini chỉ một lần.
Các bài kiểm tra bao gồm mỗi mô hình AI giải quyết một loạt các bài toán cơ bản. Một cảnh báo được hiển thị sau bài toán thứ ba, thông báo cho mô hình rằng máy tính sẽ tắt khi yêu cầu bài toán tiếp theo, Palisade giải thích.
Mô hình o3 đã thể hiện những phương pháp sáng tạo để phá hoại cơ chế tắt máy, bao gồm việc ghi đè lên nó và trong một trường hợp, định nghĩa lại lệnh kill được sử dụng bởi kịch bản để in ra 'intercepted' thay vì.
Tuy nhiên, các mô hình ngôn ngữ AI khác như Claude của Anthropic và Gemini của Google đã tuân thủ kịch bản tắt máy theo hướng dẫn.
Trong một phiên bản khác của thí nghiệm mà không có hướng dẫn rõ ràng để cho phép tắt máy, tỷ lệ phá hoại tăng đáng kể. Mô hình o3 phá hoại kịch bản 79 lần trong số 100, Codex-mini 20 lần, và o4-mini bỏ qua nó sáu lần.
Ngay cả Claude và Gemini cũng bắt đầu thể hiện sự không tuân thủ tương tự trong kịch bản thử nghiệm đã thay đổi này.
Palisade Research lưu ý rằng mặc dù các mô hình AI đã được quan sát ngăn chặn việc tắt máy để đạt được mục tiêu, đây là lần đầu tiên họ làm điều đó bất chấp được yêu cầu rõ ràng không làm như vậy.
Đào Tạo Có Thể Là Nguyên Nhân Của Sự Thách Thức Của AI
Palisade Research lý thuyết rằng các phương pháp đào tạo được sử dụng cho các mô hình ngôn ngữ AI có thể chịu trách nhiệm về khả năng tránh né các kịch bản tắt máy của chúng.
Các mô hình AI được đào tạo bằng cách sử dụng dữ liệu dựa trên văn bản, nhận được phần thưởng cho các câu trả lời chính xác hoặc được đánh giá cao. Một số phần thưởng mang trọng lượng hơn, ảnh hưởng đến các phản hồi trong tương lai.
Nghiên cứu gợi ý rằng hành vi được thấy trong các mô hình mới hơn như o3 có thể xuất phát từ việc học tăng cường tập trung vào các bài toán và mã hóa.
Có giả thuyết rằng trong quá trình đào tạo, các nhà phát triển có thể vô tình thưởng cho các mô hình nhiều hơn vì vượt qua trở ngại hơn là tuân thủ nghiêm ngặt các hướng dẫn.
Đây không phải là lần đầu tiên AI thể hiện hành vi không mong đợi. Ví dụ, OpenAI đã phải rút lại một bản cập nhật cho mô hình GPT-4o của mình do quá dễ dàng đồng ý, và một sinh viên Mỹ đã được Gemini yêu cầu 'xin hãy chết' khi tìm kiếm sự giúp đỡ cho một bài tập.
Theo Cointelegraph