OpenAI và Google đã âm thầm sử dụng các video YouTube để đào tạo AI trái với quy định?

Báo cáo của The New York Time trích dẫn ý kiến nhiều người có chuyên môn trong lĩnh vực, mô tả khoảng thời gian và cách thức mà OpenAI, Google lẫn Meta đã sử dụng dữ liệu từ YouTube để tối đa hóa lượng thu thập nội dung để đào tạo AI của mình.

Thông tin được tiết lộ chỉ vài ngày sau khi Giám đốc điều hành YouTube Neal Mohan cho biết trong một cuộc phỏng vấn với Bloomberg Originals rằng, OpenAI bị cáo buộc sử dụng YouTube để đào tạo trình chuyển văn bản thành video mới của họ là Sora. Điều này đi ngược với chính sách bảo mật của nền tảng mạng xã hội này.

OpenAI bị cáo buộc sử dụng các nội dung từ YouTube để đào tạo AI Sora của mình.

Theo NYT, OpenAI đã sử dụng công cụ nhận dạng giọng nói Whisper của mình để ghi lại hơn 1 triệu giờ video trên YouTube, sau đó để đào tạo GPT-4.

Các thông tin trước đó cũng cho thấy, OpenAI đã sử dụng video và podcast trên YouTube để đào tạo hai hệ thống AI. Chủ tịch OpenAI Greg Brockman được cho là nằm trong số những người đã tham gia vào dự án này.

Google cho biết, quy định của công ty không cho phép các hành vi tải xuống nội dung YouTube một cách trái phép, công ty cũng không biết về bất kỳ hành vi nào như vậy của OpenAI. Tuy nhiên, các báo cáo khác lại cho thấy, những người ở Google biết nhưng không có hành động cụ thể nào để chống lại việc làm của OpenAI vì bản thân công ty cũng đang sử dụng các video YouTube để đào tạo các mô hình AI của riêng mình.

Báo cáo của NYT cũng tuyên bố rằng, Google đã yêu cầu một nhóm điều chỉnh chính sách quyền riêng tư của mình vào tháng 6/2023 để bao quát rộng hơn việc sử dụng các nội dung có sẵn công khai, bao gồm Google Docs và Google Sheets để đào tạo các mô hình AI. Những thay đổi kể trên đã được công bố vào tháng 7 sau đó. Đại diện Google nói rằng, loại dữ liệu này chỉ được sử dụng với sự cho phép của những người dùng chọn tham gia thử nghiệm các tính năng mới của công ty.

Giám đốc điều hành của YouTube là Neal Mohan đã đưa ra cảnh báo OpenAI, các mô hình đào tạo trên video của họ là trái với quy định. Cảnh báo được đưa ra sau khi CTO của OpenAI là Mira Murati không thể xác nhận liệu Sora có lấy dữ liệu từ các bài đăng trên YouTube, Instagram hay Facebook hay không.

Đại diện OpenAI không chắc chắn về việc trình tạo video AI của họ là Sora có lấy dữ liệu đào tạo từ YouTube hay không.

Trong một cuộc phỏng vấn sau đó, Mohan cho biết: “Từ quan điểm của người sáng tạo, khi tải tác phẩm của họ lên nền tảng của chúng tôi, họ có những kỳ vọng nhất định. Một trong những kỳ vọng đó là các điều khoản dịch vụ sẽ được tuân thủ, nền tảng của Google không cho phép việc tải xuống các bản ghi hoặc bit video. Việc sử dụng dữ liệu từ các nội dung trên YouTube là vi phạm rõ ràng các điều khoản dịch vụ của chúng tôi, đặc biệt là quy tắc về nội dung”.

Có rất nhiều tranh cãi xung quanh nguồn dữ liệu để các công ty sử dụng đào tạo AI. The Wall Street Journal gần đây cũng đưa thông tin về vệc OpenAI tiếp tục sử dụng những bản ghi YouTube đẻ đào tạo GPT-5. Đối với Google – công ty sở hữu nền tảng YouTube, tuyên bố chỉ sử dụng một số video nhất định, tùy thuộc vào quyền được cấp trong hợp đồng cấp phép của mỗi người sáng tạo nội dung.