Cơn sốt “dữ liệu ngầm” thời kỳ bùng nổ AI

Xu hướng ứng dụng trí tuệ nhân tạo (AI) mạnh mẽ khiến thị trường dữ liệu dù hoạt động âm thầm nhưng không kém phần nhộn nhịp. Video, ảnh, bài viết đang là những món hàng mà nhiều công ty AI sẵn sàng chi hàng chục triệu USD để mua.

Những năm 2000, Photobucket là website lưu trữ hình ảnh hàng đầu thế giới có 70 triệu người dùng, số lượng này chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ.

Hiện nay, Photobucket chỉ còn hai triệu người dùng và có xu hướng đi xuống. Nhưng, cơn sốt AI tạo sinh đang mang lại cho công ty hướng đi mới. Đại diện nền tảng này cho biết đang đàm phán với nhiều công ty công nghệ để cấp phép cho 13 tỷ ảnh và video của Photobucket. Hãng này dự định bán giá từ 0,05 đến 1 USD mỗi ảnh và 1 USD mỗi video. Bên cạnh đó, mức giá còn phụ thuộc vào bên mua và loại nội dung được tìm kiếm.

2024-04-05t095856z-1273474095-1915-3587-1712375314-1712569114.jpg
Cơn sốt AI kéo theo sự phát triển của thị trường mua bán dữ liệu

Việc nắm giữ nội dung trị giá hàng tỷ USD của Photobucket đã phác họa bức tranh về thị trường dữ liệu hoạt động âm thầm nhưng nhộn nhịp. Danh tính bên mua không được tiết lộ do thuộc điều khoản bí mật thương mại.

Các “ông lớn” công nghệ như Google, Meta, OpenAI, Microsoft sau khi đối mặt với các vụ kiện từ hàng loạt chủ sở hữu bản quyền và dịch vụ AI thu phí cũng đã được triển khai thì các công ty này cần lượng dữ liệu bản quyền lớn hơn.

Luật sư Edward Klaris từ Klaris Law chia sẻ rằng công ty hiện đang tư vấn cho một số công ty công nghệ lớn trong việc mua bản quyền nội dung và cấp phép lưu trữ phim, sách, ảnh để đào tạo AI với giá hàng chục triệu USD.

Theo đánh giá của một số chuyên gia trong ngành, thị trường này đang rất được săn đón dù chủ yếu hoạt động ngầm. Theo Business Research Insights ước tính giá trị thị trường mua bán dữ liệu AI hiện ở mức 2,5 tỷ USD và dự đoán sẽ tăng lên 30 tỷ USD trong vòng một thập kỷ.

Tờ New York Times đưa tin, Meta rất nỗ lực tìm kiếm nguồn dữ liệu mới trong cuộc chạy đua AI, lãnh đạo của công ty này họp gần như hằng ngày vào thời điểm tháng 3, 4 năm ngoái. Trong những cuộc họp đó, một số đã đưa ra quan điểm mua lại nhà xuất bản Simon & Schuster nhưng số khác lại để nghị trả 10 USD cho một cuốn sách.

Được biết, vào thời điểm đầu năm 2023, một loạt Big Tech như Meta, Amazon, Apple và Google đã đạt được thỏa thuận với nhà cung cấp hình ảnh Shutterstock. Trong đó, hợp đồng với mỗi công ty dao động từ 25 đến 50 triệu USD và đều được mở rộng sau đó. Freepik – đối thủ của Shutterstock cho biết cũng đã ký cấp phép hình ảnh cho hai công ty công nghệ lớn và có thêm 5 đơn vị khác đang liên hệ mua nội dung nhưng CEO của hãng này từ chối đề cập thông tin cụ thể về đối tác.

OpenAI là một trong những đối tác đầu tiên của Shutterstock đạt thỏa thuận với ít nhất bốn tổ chức tin tức. Không nằm ngoài xu thế đó, các công ty nhỏ hơn cũng tích cực thu thập nội dung bản quyền sau đó bán lại cho các công ty lớn. Điển hình như Defined AI hiện cấp phép cho nhiều ông lớn như Apple, Amazon, Google, Meta và Microsoft.

ai-1712569042.jpg
Việc sử dụng nội dung làm nhiên liệu đào tạo AI của những “tên tuổi Internet cũ” có thể gây ra một số rủi ro

Giới chuyên gia đánh giá, việc sử dụng nội dung làm nhiên liệu đào tạo AI của những “tên tuổi Internet cũ” như Photobucket có thể gây ra một số rủi ro nghiêm trọng đặc biệt về quyền riêng tư của người dùng. Điều này có nghĩa là những bức ảnh hoặc nội dung riêng tư của một người được đăng cách đây vài thập kỷ có thể xuất hiện trở lại trong kết quả đầu ra của AI mà không cần thông báo hoặc có sự đồng ý rõ ràng. Braga của Defined AI chia sẻ công ty của họ tránh mua nội dung từ các đơn vị mang tính nền tảng như Photobucket mà thay vào đó sẽ lấy nguồn ảnh trên mạng xã hội cho KOL tạo ra bởi đây là những người có yêu cầu rõ ràng hơn về quyền cấp phép.

Hiện nay, Photobucket không phải là nền tảng cũ duy nhất bán nội dung cho các công ty AI. Automattic, công ty mẹ của Tumblr cũng cho biết đang chia sẻ nội dung với công ty AI được chọn lọc. Đồng thời, Reddit cũng vừa đạt được thỏa thuận với Google về việc huấn luyện AI.