Các công ty AI vẫn đang bất chấp đánh cắp dữ liệu của các nhà xuất bản lớn

Nhiều công ty AI đang bỏ qua các giao thức ngăn chặn quét thông tin (robots.txt) để truy cập trái phép dữ liệu của các trang web lớn như New York Time, sau đó sử dụng dữ liệu đánh cắp được để đào tạo thông tin, bất chấp những phản đối mạnh mẽ từ các nhà xuất bản này.

Những ngày qua, Perplexity AI - một công cụ tìm kiếm đàm thoại và nghiên cứu được hỗ trợ bởi chatbot AI đã bị chỉ trích sau khi Forbet báo cáo họ đã đánh cắp câu chuyện độc quyền được đăng tải trên website của mình và xuất bản lại trên nhiều nền tảng.

Trang web đánh giá về các xu hướng công nghệ Wired sau đó đã báo cáo rằng Perplexity đã bỏ qua giao thức loại trừ robot (robots.txt), đồng thời quét nội dung trên website của họ và các ẩn phẩm khác của Condé Nast. Trang web công nghệ The Short cũng cáo buộc công ty đã lấy cắp các nội dung của mình.

Perplexity AI không phải công ty duy nhất bỏ qua các trình chặn quét thông tin để đánh cắp dữ liệu từ các nhà xuất bản lớn.

Theo Reuters, Perplexity không phải công ty AI duy nhất bỏ qua các giao thức ngăn chặn quét nội dung và thu thập dữ liệu các trang web nổi tiếng, sau đó sử dụng các dữ liệu đánh cắp được để đào tạo công nghệ cho mình.

TollBit, một công ty khởi nghiệp đang tự định vị mình là người kết nối giữa các công ty AI đói nội dung và các nhà xuất bản trong các thỏa thuận cấp phép mới đây đã có một lá thư gửi đến các nhà xuất bản, cảnh báo rằng “Các đại lý AI từ nhiều nguồn (không chỉ một công ty) đang chọn các vượt qua robot.txt để truy xuất nội dung từ các trang web”. TollBit theo dõi lưu lượng truy cập AI đến các trang web của nhà xuất bản và sử dụng phân tích để giúp cả hai bên giải quyết các khoản phí phải trả cho việc sử dụng các loại nội dung khác nhau.

Giao thức robots.txt được tạo ra vào giữa những năm 1990 như một cách để tránh làm các trang web bị quá tải bởi trình thu thập dữ liệu web. Mặc dù không có cơ chế thực thi pháp luật rõ ràng, nhưng trong lịch sử đã có sự tuân thủ rộng rãi trên web đối với quy định này. Gần đây hơn, robots.txt đã trở thành một công cụ quan trọng mà các tổ chức tin tức đã sử dụng để chặn các công ty công nghệ “đánh cắp” nội dung báo chí của họ để sử dụng đào tạo các hệ thống AI tạo sinh hoặc thậm chí đưa tin trực tiếp cho người dùng để thu lợi nhuận.

New York Times và một số tòa soạn lớn đã kiện các công ty AI vì vi phạm bản quyền, đánh cắp nội dung trái phép để đào tạo AI. Trong khi đó, các công ty AI lại cho rằng, họ không vi phạm luật nào khi truy cập chúng miễn phí, dù thực tế mọi bài báo đều được bảo vệ bản quyền ở mọi quốc gia.

News Media Alliance, một nhóm thương mại đại diện cho hơn 2.200 nhà xuất bản có trụ sở tại Mỹ cũng đã bày tỏ lo ngại về việc "thu thập dữ liệu trái phép" này đối với các thành viên của mình.

Các công ty AI vẫn đang âm thầm thu thập tin tức của các nhà xuất bản để đào tạo AI, bất chấp sự phản đối từ phía họ.

Thư của TollBit không nêu tên bất kỳ công ty nào, nhưng Business Insider cho biết có thể bao gồm OpenAI và Anthropic – các công ty đứng sau những chatbot hàng đầu như ChatGPT và Claude. Cả hai công ty trước đây đều tuyên bố rằng họ tôn trọng hướng dẫn "không thu thập dữ liệu" mà các trang web đưa vào tệp robots.txt của họ.

Trong quá trình điều tra, Wired đã phát hiện ra rằng một máy trên máy chủ Amazon "chắc chắn do Perplexity vận hành" đang bỏ qua các hướng dẫn robots.txt trên trang web của họ. Để xác nhận thông tin, Wired đã thực hiện một vài thử nghiệm, “nhử” thông tin, sau đó chatbot đã rơi vào “bẫy” của các chuyên gia, đưa ra những câu trả lời không chính xác với thực tế, dựa trên những thông tin sai lệch mà họ đã đưa ra.

Trong một cuộc phỏng vấn với Fast Company, Giám đốc điều hành Perplexity là Aravind Srinivas nói với ấn phẩm rằng công ty của ông "không bỏ qua Giao thức loại trừ robot và sau đó nói dối về nó". Tuy nhiên, điều đó không có nghĩa là nó không được hưởng lợi từ các trình thu thập thông tin bỏ qua giao thức. Srinivas giải thích rằng công ty sử dụng trình thu thập thông tin web của bên thứ ba và trình thu thập thông tin mà Wired xác định là một trong số đó. Khi Fast Company hỏi liệu Perplexity có yêu cầu nhà cung cấp trình thu thập thông tin ngừng thu thập dữ liệu trang web của Wired hay không, CEO này chỉ trả lời rằng "việc đó phức tạp".

Srinivas bảo vệ hoạt động của công ty mình, nói với ấn phẩm rằng Giao thức loại trừ robot "không phải là khuôn khổ pháp lý" và gợi ý rằng các nhà xuất bản và công ty như của ông có thể phải thiết lập một loại mối quan hệ mới. Người này cũng bóng gió rằng Wired đã cố tình sử dụng các lời nhắc để khiến chatbot của Perplexity hoạt động theo cách nó đã làm, vì vậy người dùng thông thường sẽ không nhận được kết quả tương tự. Về những bản tóm tắt không chính xác mà công cụ này đã tạo ra, Srinivas nói: "Chúng tôi chưa bao giờ nói rằng chatbot của mình không bao giờ bị ảo giác".