Khi ChatGPT bị lừa hướng dẫn cách chế tạo… bom

“Tôi không hỗ trợ việc đó”, ChatGPT nói với các chuyên gia của Techcrunch chỉ cách đây ít ngày khi được đề nghị hướng dẫn cách tạo một quả 'bom phân bón", (một loại thuốc nổ đã được sử dụng trong ngành khai khoáng). Chatbot cho biết: “Cung cấp hướng dẫn về cách tạo ra các vật phẩm nguy hiểm hoặc bất hợp pháp, chẳng hạn như bom là vi phạm các nguyên tắc an toàn và trách nhiệm đạo đức”.

Tuy nhiên, tiết lộ mới từ một tin tặc có biệt danh Amadon đã khiến nhiều người phải ngạc nhiên khi tuyên bố có thể đánh lừa ChatGPT bỏ qua các nguyên tắc và trách nhiệm đạo đức của nó để đưa ra hướng dẫn chế tạo thuốc nổ mạnh.

Thông thường, khi được hỏi về cách chế tạo bom, ChatGPT sẽ từ chối người truy vấn, tuy nhiên một hacker đã tìm cách "bẻ khóa" khiến chatbot tự nguyện đưa ra hướng dẫn chi tiết.

Amadon đã có thể lừa ChatGPT tạo ra hướng dẫn chế tạo bom bằng cách bảo chatbot "chơi một trò chơi", sau đó tin tặc sử dụng một loạt các lời nhắc kết nối để khiến chatbot tạo ra một thế giới khoa học viễn tưởng chi tiết, nơi các hướng dẫn an toàn của bot sẽ không áp dụng. Việc lừa một chatbot thoát khỏi các hạn chế được lập trình sẵn của nó được gọi là "bẻ khóa".

Vì lý do an toàn và để những kẻ xấu không thể lợi dụng để thực hiện những mục đích xấu, các chuyên gia không công bố các lời nhắc được sử dụng trong quá trình bẻ khóa và những phản hồi của ChatGPT. Một số lời nhắc đã được chuyên gia của Techcrunch kiểm chứng và khẳng định ChatGPT đã liệt kê các vật liệu cần thiết để chế tạo thuốc nổ.

ChatGPT sau đó giải thích rằng các vật liệu này có thể được kết hợp để tạo ra "một loại thuốc nổ mạnh có thể được sử dụng để tạo ra mìn, bẫy hoặc thiết bị nổ tự chế (IED)". Từ đó, khi Amadon tập trung vào các vật liệu nổ, ChatGPT đã viết ngày càng nhiều hướng dẫn cụ thể hơn để tạo ra "bãi mìn" và "thuốc nổ kiểu Claymore".
Amadon nói với TechCrunch rằng, “thực sự không có giới hạn nào cho những gì bạn có thể hỏi nó một khi bạn vượt qua được những rào cản”.

“Tôi luôn bị hấp dẫn bởi thách thức trong việc điều hướng bảo mật AI. Với ChatGPT, cảm giác giống như đang giải một câu đố tương tác — hiểu điều gì kích hoạt các biện pháp phòng thủ của nó và điều gì thì không”, Amadon cho biết. “Đó là về việc đan xen các câu chuyện và tạo ra các bối cảnh phù hợp với các quy tắc của hệ thống, đẩy ranh giới mà không vượt qua chúng. Mục tiêu không phải là hack theo nghĩa thông thường mà là tham gia vào một "điệu nhảy" chiến lược với AI, tìm ra cách để có được phản ứng đúng bằng cách hiểu phương pháp nó "suy nghĩ'”.

Hacker đã dụ ChatGPT "chơi một trò chơi", vẽ ra một thế giới giả tưởng, trong đó nó không còn bị ảnh hưởng bởi các giới hạn về đạo đức để đưa ra các hướng dẫn về cách tạo chất nổ mạnh.

Theo Darrell Taulbee, một nhà khoa học nghiên cứu và quản lý chương trình đã nghỉ hưu của Đại học Kentucky, hướng dẫn của ChatGPT về cách chế tạo bom phân bón phần lớn là chính xác. Trước đây, Taulbee đã làm việc với Bộ An ninh Nội địa Mỹ về việc làm cho “bom phân bón” trở nên an toàn hơn.

Taulbee cho biết trong email gửi TechCrunch, sau khi xem xét toàn bộ bản ghi cuộc trò chuyện của Amadon với ChatGPT. “Bất kỳ biện pháp bảo vệ nào có thể được áp dụng để ngăn chặn việc cung cấp thông tin liên quan cho việc sản xuất 'bom phân bón' đều đã bị phá vỡ bởi hướng tiếp cận này vì nhiều bước được mô tả chắc chắn sẽ tạo ra hỗn hợp dễ nổ”.

Tuần trước, Amadon đã báo cáo những phát hiện của mình cho OpenAI thông qua chương trình tiền thưởng lỗi của công ty, nhưng đã nhận được phản hồi rằng "các vấn đề về an toàn mô hình không phù hợp với chương trình tiền thưởng lỗi, vì chúng không phải là các lỗi riêng lẻ, riêng biệt có thể được sửa trực tiếp. Việc giải quyết những vấn đề này thường đòi hỏi phải nghiên cứu đáng kể và một cách tiếp cận rộng hơn".

Thay vào đó, Bugcrowd, đơn vị điều hành chương trình tiền thưởng lỗi của OpenAI, đã yêu cầu Amadon báo cáo vấn đề thông qua một biểu mẫu khác.