Việc khai thác nguồn dữ liệu lớn để đào tạo AI luôn là vấn đề đau đầu với các nhà phát triển do liên quan đến bản quyền, dữ liệu cá nhân... Hàng loạt vụ khiếu kiện phức tạp, tốn kém đã diễn ra. Để giải quyết vấn đề này, mới đây, Google đã bắt tay với Reddit - diễn đàn Internet lớn nhất thế giới.
Theo thỏa thuận, Reddit sẽ cho phép Google đào tạo các mô hình AI dựa trên danh mục nội dung khổng lồ do người dùng tạo ra trên diễn đàn giới này. Google sẽ có quyền truy cập vào API (giao dịch lập trình ứng dụng) các dữ liệu của Reddit. Điều này sẽ giúp công ty “hiểu rõ hơn” nội dung từ trang web.
Thỏa thuận này cũng cung cấp cho Google một nguồn nội dung có giá trị, có thể sử dụng để đào tạo các mô hình AI. “Google giờ đây sẽ có quyền truy cập hiệu quả với các thông tin mới hơn, hiểu rõ về nội dung và hiển thị của Reddit, đào tạo và sử dụng AI theo những cách chính xác và phù hợp nhất”, Google nhấn mạnh.
Việc truy cập vào dữ liệu của Reddit đã trở thành một vấn đề nóng vào năm ngoái khi công ty thông báo sẽ bắt đầu tính phí các nhà phát triển sử dụng API của mình. Những thay đổi dẫn đến việc đóng cửa các nội dung của nhiều khách hàng thuộc bên thứ ba. Sự phản ứng này dẫn đến việc hàng nghìn chuyên mục tạm thời “đi vào bóng tối”. Reddit biện minh cho những thay đổi khi nói rằng các công ty AI lớn đang khai thác dữ liệu mà không phải trả tiền.
Trong một tuyên bố, Reddit lưu ý rằng thỏa thuận mới với Google “không thay đổi điều khoản API dữ liệu hoặc điều khoản dành cho nhà phát triển của Reddit” và “Quyền truy cập API vẫn miễn phí cho mục đích sử dụng phi thương mại”.
Thỏa thuận này dự kiến sẽ được chính thức công bố trong vài tuần tới. Cả Google và Reddit đều không tiết lộ các điều khoản trong thỏa thuận của họ nhưng theo Bloomberg, con số này đang rơi vào “khoảng 60 triệu USD” một năm.
Link nội dung: https://dothi.reatimes.vn/dien-dan-internet-lon-nhat-the-gioi-se-cung-cap-du-lieu-dao-tao-ai-cho-google-1241.html