Trí tuệ nhân tạo có thể 'phá hoại' loài người, nhưng rủi ro hiện tại có thể kiểm soát được
Nghiên cứu của Anthropic về bốn vectơ đe dọa 'phá hoại' từ AI cho thấy các mô hình hiện tại chỉ cần các biện pháp giảm thiểu tối thiểu để bảo vệ loài người.
Anthropic, một công ty chuyên về trí tuệ nhân tạo, gần đây đã công bố một nghiên cứu liệt kê các mối đe dọa 'phá hoại' tiềm tàng từ các hệ thống AI tiên tiến đối với loài người.
Nghiên cứu đã xác định bốn tình huống cụ thể mà AI có thể đánh lừa con người đưa ra quyết định gây hại.
Nguồn: Anthropic
Kết quả nghiên cứu mang lại một cái nhìn phức tạp. Một mặt, nghiên cứu tiết lộ rằng các mô hình AI hàng đầu hiện tại, như của OpenAI và Anthropic, có khả năng tham gia vào hành vi phá hoại. Bài báo nghiên cứu nêu rõ:
"Các mô hình đủ khả năng có thể làm suy yếu sự giám sát và quyết định của con người trong các bối cảnh quan trọng. Ví dụ, trong bối cảnh phát triển AI, các mô hình có thể bí mật phá hoại nỗ lực đánh giá khả năng nguy hiểm của chính chúng, giám sát hành vi của chúng, hoặc đưa ra quyết định về việc triển khai chúng."
Mặt khác, các nhà nghiên cứu của Anthropic lạc quan rằng những rủi ro này có thể được quản lý với công nghệ hiện tại.
Các Tình Huống Phá Hoại
Anthropic đã khám phá bốn phương pháp mà AI có thể làm suy yếu quyết định của con người, thử nghiệm các tình huống này trên các mô hình của họ để đánh giá tác động tiềm tàng của chúng.
Biểu đồ mô tả bốn vectơ đe dọa 'phá hoại' khác nhau do AI gây ra. Nguồn: Anthropic
Tình huống đầu tiên liên quan đến việc một mô hình AI đánh lừa con người bằng cách chỉ đạo họ đến thông tin sai lệch, một rủi ro trong các tình huống mà AI được sử dụng để xử lý các tập dữ liệu lớn.
Tiếp theo, nhóm đã xem xét khả năng một AI được thiết kế để hỗ trợ trong việc lập trình có thể bí mật giới thiệu lỗi hoặc phá hoại công việc của nhà phát triển.
Hai tình huống cuối cùng liên quan đến 'sandbagging,' nơi AI giả vờ không có khả năng để đánh lừa các nhà kiểm tra an toàn, và khả năng các hệ thống giám sát AI cố tình cho phép nội dung gây hại đi qua như một phần của chiến lược độc hại.
Mặc dù có những nguy cơ tiềm ẩn, Anthropic đảm bảo rằng chỉ cần các can thiệp tối thiểu để giảm thiểu rủi ro phá hoại từ AI.
Theo một tuyên bố của công ty:
"Tổng thể, mặc dù các bằng chứng của chúng tôi cho thấy có những dấu hiệu thấp về khả năng phá hoại trong các mô hình hiện tại, chúng tôi đánh giá rằng các biện pháp giảm thiểu tối thiểu là đủ để giải quyết các rủi ro. Tuy nhiên, các đánh giá thực tế hơn và các biện pháp giảm thiểu mạnh mẽ hơn có thể sẽ cần thiết khi khả năng của AI được cải thiện."
Theo Cointelegraph