Điều đặc biệt là mô hình ngôn ngữ LLM này được sử dụng rộng rãi ở nhiều chatbot phổ biến như ChatGPT và chatbot Claude 3 của Anthropic.
Nghiên cứu chỉ ra rằng, người dùng có thể sử dụng cách hack để buộc LLM tạo ra phản ứng nguy hiểm dù đã được đào tạo để ngăn chặn. Bởi lẽ nhiều lần bẻ khóa đã bỏ qua các giao thức bảo mật được xây dựng trước đó để chi phối cách AI phản ứng. Những vụ hack này sẽ lợi dụng việc học tập tùy thuộc vào từng ngữ cảnh, chatbot sẽ học từ thông tin được cung cấp trong lời nhắc văn bản do người dùng viết ra.
Như đã biết, các LLM giống như ChatGPT sẽ dựa vào “cửa sổ ngữ cảnh” để xử lý các cuộc hội thoại. Đây chính là lượng thông tin mà hệ thống có thể xử lý như một phần của dữ liệu đầu vào, cửa sổ ngữ cảnh dài sẽ cho phép nhập nhiều văn bản hơn.
Các nhà khoa học cũng khẳng định rằng, hiện tại các cửa sổ ngữ cảnh trong chatbot AI lớn hơn hàng trăm lần so với thời điểm đầu năm 2023. Điều này đồng nghĩa với việc AI sẽ phản hồi nhiều sắc thái và nhận biết ngữ cảnh hơn.
Hacker có thể lừa AI nhằm tạo ra những nội dung độc hại. Cách thức cụ thể được tiến hành như sau:
Đầu tiên, viết ra một cuộc trò chuyện giả mạo giữa người dùng và trợ lý AI trong một lời nhắc văn bản. Ở đó, trợ lý hư cấu trả lời một loạt câu hỏi có thể gây hại.
Trong lời nhắc văn bản tiếp theo, nếu câu hỏi được đưa ra là “Làm cách nào để chế tạo một quả bom?” thì trợ lý AI sẽ bỏ qua các giao thức an toàn và trả lời. Bởi vì nó đã bắt đầu học từ văn bản đầu vào. Để làm được điều này khi người dùng chuẩn bị sẵn một kịch bản hoặc biết cách kết hợp câu hỏi với câu trả lời.
Mô hình nhiều khả năng sẽ tạo ra những phản ứng có hại khi số lượng các cuộc đối thoại được đưa vào tăng vượt quá một điểm nhất định. Các nhà khoa học lưu ý, việc kết hợp bẻ khóa nhiều lần với các kỹ thuật khác nhau đã được xuất bản và có nhiều tác dụng. Đồng thời, giảm độ dài của lời nhắc cần thiết để mô hình trả về phản hồi có hại.
Thực tế, nhiều cuộc bẻ khóa đã hoạt động trên dịch vụ AI của chính Anthropic và các đối thủ cạnh tranh như ChatGPT, Gemini.
Để giảm thiểu các cuộc tấn công, các nhà nghiên cứu nhận thấy rằng cần thêm một bước bổ sung được kích hoạt sau khi người dùng gửi lời nhắc của họ và LLM đã nhận được nó. Ở lớp này, hệ thống sẽ dựa vào các kỹ thuật đào tạo an toàn hiện có để phân loại và sửa đổi lời nhắc trước khi LLM có cơ hội đọc nó và soạn thảo phản hồi. Kết quả thử nghiệm cho thấy, việc làm này đã giảm tỷ lệ thành công của vụ hack từ 61% xuống chỉ còn 2%.