ByteDance có một công cụ thu thập dữ liệu web nhanh hơn OpenAI 25 lần

Theo Fortune, công ty mẹ của TikTok là ByteDance đã ra mắt một trình thu thập dữ liệu web có thể thu thập dữ liệu trực tuyến nhanh hơn OpenAI 25 lần.

Có vẻ như ByteDance đang mong muốn bù đắp lại thời gian đã mất khi phải thu thập dữ liệu trên web để đào tạo các mô hình AI tạo sinh của mình.

Theo nghiên cứu từ Kasada, một công ty chuyên quản lý bot cho các công ty có dữ liệu trực tuyến cho thấy, công ty mẹ của TikTok có trụ sở tại Trung Quốc đã phát hành trình thu thập dữ liệu web hoặc bot thu thập dữ liệu, được gọi là Bytespider, vào khoảng tháng 4 năm nay. Sự tồn tại của bot cũng đã được xác nhận bởi công ty theo dõi bot thu thập dữ liệu Dark Visitors.

gettyimages-2150494792-1728345839.jpg

TikTok đang tung ra một bot thu thập dữ liệu với tốc độ lớn gấp 25 lần so với các bot thu thập của các công ty trí tuệ nhân tạo khác.

Các nghiên cứu kể trên cho thấy bot của ByteDance đã nhanh chóng trở thành một trong những công cụ thu thập dữ liệu “ghê gớm” nhất trên internet. Nó đang thu thập dữ liệu với tốc độ nhanh gấp nhiều lần so với các công ty lớn khác, chẳng hạn như Google, Meta, Amazon, OpenAI và Anthropic - những công ty này sử dụng bot thu thập dữ liệu của riêng họ để giúp tạo và cải thiện các mô hình ngôn ngữ hoặc đa phương thức lớn, được gọi là LLM hoặc LMM.

Sam Crowther, CEO của Kasada, cho biết kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ nhanh hơn khoảng 25 lần so với GPTbot - công cụ thu thập dữ liệu cho nền tảng ChatGPT của OpenAI và các mô hình cơ bản. Bytespider đã thu thập dữ liệu với tốc độ nhanh hơn 3.000 lần so với ClaudeBot của Anthropic.

Theo Kasada, khi những tháng trôi qua, Bytespider thậm chí còn gấp rút hơn trong việc thu thập dữ liệu. Hoạt động thu thập dữ liệu từ Bytespider tăng đột biến trong 6 tuần qua.

Nghiên cứu cho thấy bot Bytespider, giống như bot của OpenAI và Anthropic, không tôn trọng robots.txt - là một dòng mã mà các nhà xuất bản có thể đưa vào trang web để báo hiệu cho các bot thu thập dữ liệu rằng chúng không thể lấy dữ liệu của trang web đó.

Việc thu thập dữ liệu web đã có từ nhiều thập kỷ trước, chủ yếu là do các công cụ tìm kiếm thực hiện để thu thập liên kết đến các trang web. Nhưng sự phát triển của các công cụ AI tạo sinh đã bổ sung thêm một chiều hướng mới và biến hoạt động này thành nguồn chính của các vụ kiện tụng và tranh cãi. Những người và tổ chức có công trình bị thu thập dữ liệu cho rằng bản quyền của họ đang bị xâm phạm trong quá trình này. Tất cả các mô hình là nền tảng của các công cụ AI tạo sinh đều được đào tạo trên lượng dữ liệu trực tuyến khổng lồ, về cơ bản là mọi thứ có sẵn trên web, đặc biệt là thông tin bằng văn bản. Các công ty công nghệ sử dụng bot thu thập dữ liệu để sao chép miễn phí tất cả mọi thứ và đưa vào tập dữ liệu của họ.

"Giống như họ đang cố gắng hết sức để bắt kịp", Crowther nói về hoạt động thu thập dữ liệu tích cực do Bytespider thực hiện. Chỉ riêng năm ngoái, ByteDance được cho là đã tụt hậu rất xa trong cuộc đua AI tạo sinh đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng ByteDance, điều này trái với các điều khoản dịch vụ của OpenAI. Đầu năm nay, ByteDance đã phát hành một LLM dựa trên trò chuyện có tên là Duabo, nhưng công việc trên mô hình đó sẽ được hoàn thành trước khi tích lũy dữ liệu đào tạo gần đây hơn do Bytespider thu thập.

uploaded-huuquanbna-2024-05-08-tiktok-dang-dung-truoc-kich-ban-bi-cam-hoan-toan-tai-my-anh-getty-5619-1728345979.png

TikTok đang có nguy cơ bị cấm tại Mỹ trong những tháng tới.