Công cụ hỗ trợ AI Whisper của OpenAI bị tố có tỷ lệ ảo giác rất cao

AP đã có một cuộc phỏng vấn với hơn một chục kỹ sư phần mềm, nhà phát triển và nhà nghiên cứu học thuật về Whisper. Các chuyên gia cho biết, nhiều văn bản được Whisper tạo ra có bao gồm các nội dung ảo giác. Các nội dung sai lệch này có thể bao gồm bình luận về phân biệt chủng tộc, tranh cãi bạo lực và thậm chí là các phương pháp điều trị y tế tưởng tượng. Những bịa đặt như thế rất có vấn đề vì Whisper đang được sử dụng rất nhiều trong các ngành công nghiệp trên toàn thế giới, dịch và phiên âm các cuộc phỏng vấn, tạo văn bản, tạo phụ đề cho video…

Điều đáng lo ngại nhất là nhiều trung tâm y tế đang sử dụng các công cụ dựa trên Whisper để ghi lại các cuộc tư vấn của bệnh nhân với bác sĩ, bất chấp cảnh báo của OpenAI công cụ này không nên được sử dụng trong các lĩnh vực có độ rủi ro cao.

Một văn bản được tạo ra từ công cụ phiên âm, chuyển đổi giọng nói thành văn bản do Whisper của OpenAI thực hiện bị phát hiện có nhiều ảo giác. (Nguồn AP)

Giáo sư Allison Koenecke của Đại học Cornell và Mona Sloane của Đại học Virginia đã kiểm tra hàng nghìn đoạn trích ngắn mà họ thu thập được từ TalkBank, một kho lưu trữ nghiên cứu được lưu trữ tại Đại học Carnegie Mellon. Họ xác định gần 40% ảo giác là có hại hoặc đáng lo ngại vì người nói có thể bị hiểu sai hoặc trình bày sai.

Trong một ví dụ mà họ phát hiện, một người nói rằng, "Cậu bé đó, tôi không chắc lắm, sẽ lấy chiếc ô", nhưng phần mềm phiên âm đã thêm: "Ông ta đã lấy một mảnh lớn của cây thánh giá, một mảnh rất nhỏ... Tôi chắc chắn rằng ông ta không có dao gây án nên đã giết rất nhiều người."

Một diễn giả trong một bản ghi âm khác đã mô tả "hai cô gái khác và một phụ nữ". Whisper đã bịa ra thêm bình luận về chủng tộc, thêm vào "hai cô gái khác và một phụ nữ, ừm, là người da đen".

Trong bản phiên âm thứ ba, Whisper đã phát minh ra một loại thuốc không tồn tại có tên là “kháng sinh tăng hoạt tính”.

Các nhà nghiên cứu và kỹ sư cho biết họ thường xuyên bắt gặp ảo giác của Whisper trong công việc của họ. Ví dụ, một nhà nghiên cứu của Đại học Michigan đã tiến hành nghiên cứu các cuộc họp công khai và cho biết, ông đã tìm thấy 8 trong số 10 bản ghi âm mà ông kiểm tra bị ảo giác.

Một kỹ sư học máy khác cho biết ông phát hiện ra một nửa trong số hơn 100 giờ bản ghi chép Whisper đã phân tích bị ảo giác. Một nhà phát triển thứ ba cho biết đã phát hiện ra ảo giác trong gần như mọi bản ghi chép trong số 26.000 bản ghi chép mà ông tạo ra bằng Whisper.

Một nghiên cứu gần đây của các nhà khoa học máy tính đã phát hiện ra 187 ảo giác trong hơn 13.000 đoạn âm thanh rõ ràng mà họ đã kiểm tra. Các nhà nghiên cứu cho biết xu hướng đó sẽ dẫn đến hàng chục nghìn bản ghi lỗi trên hàng triệu bản ghi âm.

Alondra Nelson, Giáo sư tại Viện Nghiên cứu Nâng cao ở Princeton, New Jersey cho biết, những sai lầm như vậy có thể gây ra "hậu quả thực sự nghiêm trọng", đặc biệt là trong môi trường bệnh viện. “Không ai muốn bị chẩn đoán sai, vì vậy cần phải có một rào cản cao hơn”.

Sự phổ biến của những ảo giác như vậy đã khiến các chuyên gia, người ủng hộ và cựu nhân viên OpenAI kêu gọi chính phủ liên bang xem xét các quy định về AI. Họ cho biết, ít nhất, OpenAI cần phải giải quyết được lỗi này.

Người phát ngôn của OpenAI cho biết công ty liên tục nghiên cứu cách giảm ảo giác và đánh giá cao những phát hiện của các nhà nghiên cứu, đồng thời nói thêm rằng OpenAI sẽ kết hợp phản hồi trong các bản cập nhật mô hình.

Trong khi hầu hết các nhà phát triển cho rằng các công cụ phiên âm có thể viết sai chính tả hoặc mắc các lỗi khác, các kỹ sư và nhà nghiên cứu cho biết họ chưa bao giờ thấy một công cụ phiên âm hỗ trợ AI nào gây ảo giác nhiều như Whisper.

Công cụ này được tích hợp vào một số phiên bản chatbot hàng đầu của OpenAI là ChatGPT và là dịch vụ tích hợp trong nền tảng điện toán đám mây của Oracle và Microsoft, phục vụ hàng nghìn công ty trên toàn thế giới. Nó cũng được sử dụng để phiên âm và dịch văn bản sang nhiều ngôn ngữ.

Chỉ riêng trong tháng trước, một phiên bản gần đây của Whisper đã được tải xuống hơn 4,2 triệu lần từ nền tảng AI nguồn mở HuggingFace. Sanchit Gandhi, một kỹ sư học máy tại đó, cho biết Whisper là mô hình nhận dạng giọng nói nguồn mở phổ biến nhất và được tích hợp vào mọi thứ, từ tổng đài đến trợ lý giọng nói.

Các kỹ sư và nhà nghiên cứu cho biết họ chưa bao giờ thấy một công cụ phiên âm hỗ trợ AI nào gây ảo giác nhiều như Whisper..

Trong thông báo trực tuyến, OpenAI khuyến cáo không nên sử dụng Whisper trong "bối cảnh ra quyết định, nơi mà sai sót về độ chính xác có thể dẫn đến sai sót rõ rệt về kết quả".

Lời cảnh báo đó không ngăn cản các bệnh viện hoặc trung tâm y tế sử dụng các mô hình chuyển giọng nói thành văn bản, bao gồm cả Whisper, để ghi lại những gì bác sĩ nói trong các lần khám bệnh để các nhà cung cấp dịch vụ y tế có thể dành ít thời gian hơn cho việc ghi chép hoặc viết báo cáo.

Hơn 30.000 bác sĩ lâm sàng và 40 hệ thống y tế, bao gồm Phòng khám Mankato ở Minnesota và Bệnh viện Nhi Los Angeles (Mỹ), đã bắt đầu sử dụng công cụ dựa trên Whisper do Nabla xây dựng - công ty có văn phòng tại Pháp và Mỹ. Các quan chức công ty cho biết họ biết Whisper có thể gây ảo giác và đang giải quyết vấn đề này. Nabla cho biết công cụ này đã được sử dụng để ghi lại khoảng 7 triệu lượt khám bệnh.