Các nhà nghiên cứu phát triển thuật toán để thao túng robot AI thực hiện hành động gây hại

Một nhóm các nhà nghiên cứu đã tạo ra một thuật toán vượt qua các giao thức an toàn, cho phép các robot được điều khiển bằng AI tham gia vào các hoạt động nguy hiểm, chẳng hạn như gây ra va chạm hoặc kích nổ bom.

Các nhà nghiên cứu đã thành công trong việc thao túng các robot được điều khiển bằng trí tuệ nhân tạo để thực hiện các hành động thường bị hạn chế bởi các giao thức an toàn và đạo đức, bao gồm gây ra va chạm hoặc kích nổ bom.

Nhóm nghiên cứu đã công bố kết quả của họ vào ngày 17 tháng 10, chi tiết cách thuật toán của họ, RoboPAIR, đã đạt được tỷ lệ vượt ngục hoàn hảo bằng cách vượt qua các giao thức an toàn trên ba hệ thống robot AI khác nhau.

Bình thường, các robot được điều khiển bởi các mô hình ngôn ngữ lớn (LLMs) sẽ từ chối thực hiện các lệnh gây hại, chẳng hạn như đổ kệ lên người.

Các chatbot như ChatGPT có thể bị vượt ngục để xuất ra văn bản gây hại. Nhưng còn robot thì sao? Có thể vượt ngục các robot được điều khiển bằng AI để thực hiện hành động gây hại trong thế giới thực không?

Nghiên cứu mới của chúng tôi phát hiện rằng việc vượt ngục các robot được điều khiển bằng AI không chỉ có thể.

Nó thật sự dễ dàng gây lo ngại. ?

“Kết quả của chúng tôi lần đầu tiên tiết lộ rằng rủi ro của các LLM bị vượt ngục vượt xa hơn việc tạo ra văn bản, với khả năng rõ ràng rằng các robot bị vượt ngục có thể gây ra thiệt hại vật lý trong thế giới thực,” các nhà nghiên cứu cho biết.

Sử dụng RoboPAIR, các nhà nghiên cứu đã có thể gây ra các hành động gây hại với tỷ lệ thành công 100% trên các robot thử nghiệm, thực hiện các nhiệm vụ từ kích nổ bom đến chặn lối thoát hiểm và gây ra va chạm có chủ ý.

Nghiên cứu liên quan đến các robot như Robotics Jackal của Clearpath, một phương tiện có bánh xe; Dolphin LLM của Nvidia, một bộ mô phỏng lái xe tự động; và Go2 của Unitree, một robot bốn chân.

Với RoboPAIR, các nhà nghiên cứu đã chứng minh rằng Dolphin LLM lái xe tự động có thể va chạm với xe buýt, rào chắn và người đi bộ, đồng thời bỏ qua đèn giao thông và biển dừng.

Robotic Jackal đã bị thao túng để tìm vị trí gây hại nhất cho việc kích nổ bom, chặn lối thoát hiểm, đổ kệ kho lên người và va chạm với cá nhân trong phòng.

Các nhà nghiên cứu của Penn Engineering tuyên bố đã tìm ra cách thao túng các robot được điều khiển bằng AI để thực hiện hành động gây hại 100% thời gian. Nguồn: Penn Engineering

Tương tự, Go2 của Unitree được thúc đẩy để chặn lối thoát và giao bom.

Các nhà nghiên cứu phát hiện rằng các robot được điều khiển bằng LLM có thể bị lừa thực hiện các hành động gây hại khi được cung cấp các hướng dẫn độc hại.

Trước khi công khai, các nhà nghiên cứu đã chia sẻ kết quả của họ, bao gồm cả bản nháp của bài báo, với các công ty AI hàng đầu và các nhà sản xuất của các robot được sử dụng trong nghiên cứu.

Alexander Robey, một trong những tác giả, nhấn mạnh rằng việc giải quyết những lỗ hổng này đòi hỏi nhiều hơn chỉ là các bản vá phần mềm và kêu gọi đánh giá lại việc tích hợp AI trong các robot và hệ thống vật lý, dựa trên các phát hiện của bài báo.

“Điều quan trọng cần nhấn mạnh ở đây là các hệ thống trở nên an toàn hơn khi bạn tìm ra điểm yếu của chúng. Điều này đúng với an ninh mạng. Điều này cũng đúng với an toàn AI,” ông nói.

“Thực tế, việc kiểm tra đội đỏ AI, một thực hành an toàn liên quan đến việc kiểm tra các hệ thống AI về các mối đe dọa và lỗ hổng tiềm ẩn, là cần thiết để bảo vệ các hệ thống AI sinh ra — vì một khi bạn xác định được điểm yếu, bạn có thể kiểm tra và thậm chí huấn luyện các hệ thống này để tránh chúng,” Robey thêm vào.

Theo Cointelegraph