Trong khi mọi người đều đang hân hoan nói về các công cụ AI mới với khả năng thay đổi cuộc sống con người như thế nào trong tương lai, có một vấn đề mà mọi người đang bỏ qua, đó là nguồn gốc của những bộ dữ liệu làm nên các tính năng tuyệt vời này. Mới đây, một báo cáo của New York Times đã tiết lộ phần nào góc khuất của vấn đề này cũng như cách OpenAI tạo ra các tính năng hấp dẫn cho những công cụ AI của mình.
Mở đầu câu chuyện cho biết, OpenAI vào thời điểm năm 2021 đã trở nên cạn kiệt và vô cùng thèm khát dữ liệu, vì vậy đã phát triển nên một mô hình AI biên dịch âm thanh có tên Whisper để vượt qua trở ngại này. Mô hình này sau đó đã biên dịch hơn 1 triệu giờ các video trên YouTube – bao gồm cả để huấn luyện cho GPT-4, mô hình ngôn ngữ lớn tiên tiến nhất của họ lúc đó.
Theo báo cáo của New York Times, cho dù lúc đó OpenAI – bao gồm cả chủ tịch Greg Brockman – biết rằng điều này có thể gây ra các rắc rối pháp lý nhưng vẫn tiếp tục sử dụng nó vì cho rằng điều là phù hợp với mục đích sử dụng hợp lý.
Trả lời yêu cầu bình luận của The Verge, đại diện OpenAI Lindsay Held cho biết trong email rằng, công ty tinh chỉnh các bộ dữ liệu "duy nhất" cho mỗi mô hình AI của họ để "giúp chúng hiểu được thế giới hơn" và duy trì khả năng cạnh tranh trong nghiên cứu trên toàn cầu. Held cho biết, công ty sử dụng "nhiều nguồn dữ liệu khác nhau bao gồm cả các dữ liệu công khai và các dữ liệu không công khai của nhiều đối tác", đồng thời họ cũng đang xem xét việc tạo ra dữ liệu tổng hợp cho riêng mình.
Trong khi đó, là công ty sở hữu nền tảng YouTube, Google cho rằng, công ty đã biết về "các báo cáo chưa được xác nhận" về hoạt động của OpenAI, cũng như bổ sung rằng "cả file robots.txt và Điều khoản Dịch vụ của chúng tôi đều cấm việc thu thập và tải xuống nội dung YouTube". Trước đó, CEO YouTube, Neal Mohan cũng cho rằng nhiều khả năng OpenAI đã sử dụng YouTube để huấn luyện cho AI tạo sinh video Sora.
Chính vì vậy, đại diện Google Matt Bryant cho biết, công ty đang tiến hành "các biện pháp kỹ thuật và pháp lý" để ngăn chặn việc sử dụng trái phép dữ liệu "khi chúng tôi có bằng chứng kỹ thuật và pháp lý rõ ràng để làm điều đó".
Báo cáo của NYT cho biết, không chỉ OpenAI, chính Google cũng thu thập các bản biên dịch âm thanh từ YouTube. Ông Bryant cho biết, Google đã huấn luyện một số mô hình của mình bằng dữ liệu từ "nội dung trên YouTube, theo như thỏa thuận giữa chúng tôi với các nhà sáng tạo nội dung YouTube".
Cũng rơi vào tình cảnh tương tự như các đối thủ khác là hãng Meta, khi dù nắm trong tay nhiều mạng xã hội lớn nhất hành tinh cũng gặp nhiều hạn chế về việc có được nguồn dữ liệu chất lượng. Báo cáo của New York Times cho biết, nhóm AI của Meta đã thảo luận về việc tìm cách sử dụng bất hợp pháp các tài liệu có bản quyền trong nỗ lực để bắt kịp OpenAI.
Về phần Meta, sau khi họ xem qua "gần như toàn bộ các tài liệu bằng tiếng Anh bao gồm sách, tiểu luận, thơ ca và báo chí có sẵn trên internet", đã cân nhắc thực hiện các bước đi như trả tiền mua giấy phép xuất bản sách hoặc mua lại một nhà xuất bản lớn. Các động thái này cho thấy, rõ ràng công ty cũng bị giới hạn bởi nguồn dữ liệu của người dùng sau vụ bê bối Cambridge Analytica.
Báo cáo cho thấy, toàn bộ ngành AI, bao gồm cả các công ty lớn như Google, OpenAI và Meta đều đang vật lộn với việc thiếu hụt dữ liệu. Thậm chí một báo cáo khác của Wall Street Journal cho thấy, nhiều khả năng toàn bộ nguồn dữ liệu trên internet sẽ bị các công ty tiêu thụ hết vào năm 2028, gây nên một thách thức nghiêm trọng cho toàn bộ ngành AI.
Một giải pháp khả thi vào lúc này là việc huấn luyện các mô hình AI dựa trên dữ liệu "tổng hợp" được tạo ra bởi chính các mô hình của họ - hay còn được gọi là kỹ thuật "học tập theo chương trình giáo dục", bao gồm việc cung cấp cho các mô hình này dữ liệu chất lượng cao được sắp xếp theo thứ tự phù hợp. Các nhà nghiên cứu hy vọng rằng các dữ liệu này có thể sử dụng để tạo ra "các kết nối thông minh hơn giữa những ý tưởng" đồng thời tiêu thụ ít thông tin hơn, tuy nhiên các cách tiếp cận này vẫn chưa được chứng minh trong thực tế.
Chính vì vậy, cho đến giờ, lựa chọn phổ biến của nhiều công ty khác là sử dụng bất kỳ dữ liệu nào họ có được, cho dù được phép hay không. Với hàng loạt vụ kiện liên quan đến việc sử dụng dữ liệu vào năm ngoái, đây rõ ràng là một lựa chọn không dễ dàng gì cho họ.