Chúng ta đang cạn kiệt dữ liệu để đào tạo AI?

Trong cuộc trò chuyện trực tiếp với Chủ tịch Stagwell Mark Penn, được phát trực tuyến trên X vào cuối ngày thứ Tư vừa qua, CEO Tesla là Elon Musk đã đồng tình với các chuyên gia khác rằng, chúng ta còn rất ít dữ liệu thực tế để sử dụng vào đào tạo các mô hình AI. Trong tương lai, chính AI sẽ tự tạo ra dữ liệu để đào tạo chính nó.

“Chúng ta hiện đã cạn kiệt về cơ bản tổng lượng kiến thức tích lũy của con người trong đào tạo AI”, Elon Musk thừa nhận trong cuộc trò chuyện của mình.

Người đàn ông có vai trò quan trọng, có khả năng tác động lớn đến sự phát triển của công nghệ nói chung và trí tuệ nhân tạo nói riêng trong thời gian tới cũng đã nhắc lại các chủ đề mà cựu Khoa học trưởng của OpenAI Ilya Sutskever đã đề cập tại NeurIPS (một hội nghị về máy học diễn ra vào tháng 12/2024), nêu bật quan điểm ngành công nghiệp AI đã đạt đến mức gọi là “dữ liệu đỉnh cao”. Sutskever dự đoán rằng, việc thiếu dữ liệu đào tạo sẽ buộc con người phải thay đổi cách phát triển các mô hình AI.

elon-musk-1736408284.jpg
CEO Tesla là Elon Musk cho rằng, dữ liệu do con người tạo ra, dùng để đào tạo AI đang dần cạn kiệt.

Trở lại với cuộc trò chuyện trực tuyến mới đây, Elon Musk gợi ý rằng dữ liệu tổng hợp do chính các mô hình AI tạo ra sẽ là tương lai của việc phát triển trí tuệ nhân tạo. “Cách duy nhất để bổ sung dữ liệu thực tế là bằng dữ liệu tổng hợp, nơi AI tạo ra dữ liệu đào tạo. Với dữ liệu tổng hợp, AI sẽ tự phân loại và trải qua quá tình tự học này”, ông nói.

Thực tế, các gã khổng lồ công nghệ như Microsoft, Meta, OpenAI và Anthropic, đã sử dụng dữ liệu tổng hợp để đào tạo các mô hình AI hàng đầu của mình. Theo công ty nghiên cứu và tư vấn công nghệ Mỹ là Gartner ước tính thì có tới 60% dữ liệu được sử dụng cho các dự án AI và phân tích vào năm 2024 là dữ liệu tổng hợp.

Đơn cử, phiên bản mới nhất trong loạt mô hình trí tuệ nhân tạo (AI) Phi của Microsoft là Phi-4 đã được đào tạo trên dữ liệu tổng hợp cùng với dữ liệu thực tế. Các mô hình Gemma của Google cũng vậy. Anthropic đã sử dụng một số dữ liệu tổng hợp để phát triển một trong những hệ thống hiệu suất cao nhất của mình là Claude 3.5 Sonnet. Trong khi đó, Meta đã tinh chỉnh loạt mô hình Llama mới nhất của mình  bằng cách sử dụng dữ liệu do AI tạo ra .

phi-4-microsoft-1736408735.jpg
Phi-4 mới của Microsoft, mô hình ngôn ngữ 14 tỷ tham số, thể hiện sự phát triển đáng kể về trí tuệ nhân tạo, đặc biệt là trong việc giải quyết các nhiệm vụ suy luận phức tạp lại được đào tạo dựa trên sự kết hợp của dữ liệu tổng hợp và dữ liệu thực tế.

Theo các chuyên gia, việc đào tạo trí tuệ nhân tạo dựa trên dữ liệu tổng hợp có những lợi thế khác, như tiết kiệm chi phí. Công ty khởi nghiệp AI Writer tuyên bố mô hình Palmyra X 004 của họ, được phát triển bằng hầu hết các nguồn tổng hợp, chỉ tốn 700.000 USD để phát triển, con số thấp hơn nhiều lần so với ước tính 4,6 triệu USD cho một mô hình OpenAI có quy mô tương đương.

Tuy nhiên việc đào tạo dựa trên dữ liệu tổng hợp do AI tạo ra cũng có những bất lợi. Một số nghiên cứu cho thấy dữ liệu tổng hợp có thể dẫn đến sự sụp đổ của mô hình, khi một mô hình trở nên kém "sáng tạo" hơn trong các đầu ra của nó, cuối cùng làm tổn hại nghiêm trọng đến chức năng của nó. Vì các mô hình tạo ra dữ liệu tổng hợp, nếu dữ liệu được sử dụng để đào tạo các mô hình này có thiên vị và hạn chế, thì đầu ra của chúng cũng sẽ bị ảnh hưởng tương tự.