Facebook, Instagram từ chối cho phép Apple AI thu thập dữ liệu của họ để đào tạo

Nhiều tháng sau khi Apple âm thầm ra mắt một công cụ cho phép các nhà xuất bản từ chối tham gia chương trình đào tạo AI của hãng là Applebot-Extended, một số hãng tin tức và nền tảng xã hội lớn đã sử dụng công cụ này của công ty để bảo vệ dữ liệu cho mình.

Trong số đó, được nhiều nguồn tin xác nhận bao gồm Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, mạng lưới USA Today và Condé Nast,… Những tờ báo và tổ chức tin tức, mạng xã hội này đã lựa chọn loại trừ dữ liệu của họ khỏi chương trình đào tạo AI của Apple.

Apple đang sử dụng các ứng dụng phần mềm (bot) tự động để thu thập dữ liệu từ các website, các tờ báo điện tử, các mạng xã hội lớn trên thế giới để phục vụ cho việc đào tạo AI của mình.

Công cụ thu thập dữ liệu từ các trang web của Apple là Applebot ban đầu được công bố vào năm 2015, bắt đầu thu thập dữ liệu trên internet để cung cấp tài nguyên cho các sản phẩm tìm kiếm gồm Siri và Spotlight. Tuy nhiên, gần đây, mục đích của Applebot đã mở rộng: Dữ liệu mà nó thu thập cũng có thể được sử dụng để đào tạo các mô hình nền tảng mà Apple đã tạo ra cho các nỗ lực AI của mình.

Applebot-Extended (Applebot mở rộng) được ra mắt tiếp theo, là công cụ cho phép chủ sở hữu trang web yêu cầu Apple không sử dụng dữ liệu của họ để đào tạo AI.

Trên trang hỗ trợ người dùng của mình, Apple giới thiệu về Applebot-Extended như sau: Với tính năng này, nhà xuất bản web có thể chọn không cho sử dụng nội dung trang web của họ để huấn luyện mô hình nền tảng của Apple hỗ trợ các tính năng AI tạo sinh trên sản phẩm bao gồm Apple Intelligence, Dịch vụ và Công cụ dành cho nhà phát triển.

Trên thực tế, Applebot-Extended không ngăn Applebot gốc thu thập dữ liệu trang web mà thay vào đó, ngăn dữ liệu đó được sử dụng để đào tạo các mô hình ngôn ngữ lớn của Apple và các dự án AI tạo sinh khác. Về bản chất, đây là một bot để tùy chỉnh cách hoạt động của một bot khác.

Các nhà xuất bản có thể chặn Applebot-Extended bằng cách cập nhật tệp văn bản trên trang web của họ được gọi là Giao thức loại trừ robot hoặc robots.txt. Nhiều nhà xuất bản đã cập nhật tệp robots.txt của họ để chặn các bot AI từ OpenAI, Anthropic và các công ty AI lớn khác.

Applebot-Extended còn quá mới nên tương đối ít trang web chặn nó. Công ty khởi nghiệp phát hiện AI có trụ sở tại Ontario, Canada là Originality AI đã phân tích một mẫu gồm 1.000 trang web có lưu lượng truy cập cao vào tuần trước và phát hiện ra rằng khoảng 7% - chủ yếu là các phương tiện truyền thông và tin tức - đang tùy chỉnh Applebot-Extended để bảo vệ dữ liệu của mình.

Dịch vụ giám sát tác nhân AI Dark Visitors đã tiến hành phân tích riêng của mình về một mẫu khác gồm 1.000 trang web có lưu lượng truy cập cao và phát hiện ra rằng khoảng 6% đã chặn các bot. Xét về tổng thể, những nỗ lực này cho thấy rằng phần lớn chủ sở hữu trang web không phản đối các hoạt động đào tạo AI của Apple hoặc chỉ đơn giản là không biết đến tùy chọn chặn Applebot-Extended.

Trong một phân tích riêng được tiến hành trong tuần này, nhà báo dữ liệu Ben Welsh phát hiện chỉ hơn một phần tư các trang web tin tức mà ông khảo sát (294 trong số 1.167 ấn phẩm chủ yếu bằng tiếng Anh, có trụ sở tại Mỹ) đang tùy chỉnh Applebot-Extended. Để so sánh, Welsh phát hiện ra rằng 53% các trang web tin tức trong mẫu của ông chặn bot của OpenAI. Trong khi Google-Extended đã bị chặn bởi gần 43% các trang web đó. Tuy nhiên, con số các nhà xuất bản và chủ sở hữu website chặn các bot của Apple đã "dần dần" tăng lên theo thời gian.

Năm ngoái, tờ New York Times đưa tin, Apple đang cố gắng đạt được thỏa thuận AI với các nhà xuất bản. Kể từ đó, các đối thủ cạnh tranh như OpenAI và Perplexity đã công bố quan hệ đối tác với nhiều hãng tin, nền tảng xã hội và các trang web phổ biến khác. "Rất nhiều nhà xuất bản lớn nhất thế giới rõ ràng đang áp dụng cách tiếp cận chiến lược", Jon Gillham, người sáng lập Originality AI, cho biết. "Tôi nghĩ trong một số trường hợp, có một chiến lược kinh doanh liên quan - chẳng hạn như giữ lại dữ liệu cho đến khi có thỏa thuận hợp tác".

Có một số bằng chứng ủng hộ lý thuyết của Gillham. Ví dụ, các trang web của Condé Nast từng chặn trình thu thập dữ liệu web của OpenAI. Sau khi công ty công bố quan hệ đối tác với OpenAI vào tuần trước, họ đã bỏ chặn các bot của công ty này. Trong khi đó, người phát ngôn của Buzzfeed, Juliana Clifton, nói với WIRED rằng công ty, hiện đang chặn Applebot-Extended, đưa mọi bot thu thập dữ liệu web AI mà họ có thể xác định vào danh sách chặn của mình trừ khi chủ sở hữu của họ đã tham gia vào quan hệ đối tác—thường là trả phí—với công ty.

Vì robots.txt cần được chỉnh sửa thủ công và có rất nhiều tác nhân AI mới ra mắt, nên việc duy trì danh sách chặn được cập nhật có thể rất khó khăn. "Mọi người không biết phải chặn cái gì", Gavin King, người sáng lập Dark Visitors, cho biết. Dark Visitors cung cấp dịch vụ freemium tự động cập nhật robots.txt của trang web khách hàng và King cho biết các nhà xuất bản chiếm một phần lớn trong số khách hàng của ông vì lo ngại về bản quyền.

Một số đơn vị đã lưu ý, họ chặn các công cụ thu thập dữ liệu AI vì hiện tại họ không có quan hệ đối tác với chủ sở hữu của chúng. "Chúng tôi đang chặn Applebot-Extended trên tất cả các tài sản của Vox Media, như chúng tôi đã làm với nhiều công cụ thu thập dữ liệu AI khác khi chúng tôi không có thỏa thuận thương mại với bên kia", Lauren Starke, Phó Chủ tịch truyền thông cấp cao của Vox Media cho biết. "Chúng tôi tin vào việc bảo vệ giá trị của tác phẩm đã xuất bản của mình".

Trong khi đó, tờ New York Times, đơn vị đang kiện OpenAI về hành vi vi phạm bản quyền, chỉ trích bản chất từ chối tham gia của Applebot-Extended và những đơn vị tương tự. “Như luật pháp và các điều khoản dịch vụ của The Times nêu rõ, việc thu thập hoặc sử dụng nội dung của chúng tôi cho mục đích thương mại là hành vi bị nghiêm cấm nếu không có sự cho phép trước bằng văn bản của chúng tôi”, Giám đốc truyền thông đối ngoại của NYT Charlie Stadtlander cho biết, đồng thời lưu ý rằng tờ Times sẽ tiếp tục thêm các bot trái phép vào danh sách chặn khi tìm thấy chúng.