Một số mô hình AI gặp khó khăn khi được hỏi 9,90 và 9,11 số nào lớn hơn

Khi được hỏi 9,11 hay 9,90 số nào lớn hơn, cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan đều không lập tức đưa ra được câu trả lời đúng. Điều này đang cho thấy các mô hình AI đang gặp khó khăn với các kiến thức toán học cơ bản?

Làn sóng trí tuệ nhân tạo dâng cao khiến các công ty Trung Quốc đã lần lượt cho ra đời tới hơn 200 mô hình ngôn ngữ lớn (LLM) – công nghệ hỗ trợ cho các dịch vụ AI tạo sinh (GenAI). LLM là các thuật toán AI học sâu có thể nhận dạng, tóm tắt, dịch, dự đoán và tạo nội dung bằng cách sử dụng các tập dữ liệu rất lớn.

Tuy nhiên, điều bất ngờ là mới đây, các phát hiện của người dùng đang cho thấy các mô hình AI đang gặp khó khăn với kiến thức toán học cơ bản. Cuối tuần trước, trong chương trình truyền hình thực tế Singer 2024 – một cuộc thi cá hát do Đài truyền hình Hồ Nam, Trung Quốc sản xuất. Nghệ sĩ Sun Nan đã nhận được 13,8% phiếu bầu trực tuyến, vượt qua ca sĩ người Mỹ là Chante Moore, người đã nhận được 13,11% phiếu bầu. Một số cư dân mạng địa phương không đồng ý với kết quả và chế giễu “11 lớn hơn 8” hàm ý thí sinh người Mỹ biểu diễn tốt hơn nhưng lại thua. Một số người khác đã nảy ra ý tưởng hỏi xem AI số nào lớn hơn. Thay vì hỏi so sánh giữa 13,8 và 13,11 thì họ đã hỏi ngẫu nhiên giữa 9,11 và 9,9. Kết quả bất ngờ là Chatbot Kimi của Moonshot Ai và Baixiaoying của Baichuan đều đưa ra câu trả lời sai. 

toan-hoc-co-ban-lam-kho-mo-hinh-ai-1721362417.jpg
Một số mô hình AI không thể phân biệt được 9,11 và 9,9 số nào lớn hơn.

2 công ty đã sửa lỗi cũng như xin lỗi người dùng. Họ cho rằng nguyên nhân nằm ở sự không chính xác của “phương pháp tiếp cận chuỗi suy nghĩ”, trong đó AI được hướng dẫn từng bước phân tích đối với một vấn đề. Với trường hợp này, AI sẽ tách con số sau dấu phẩy, từ đó so sánh 11 với 9 và khẳng định 11 lớn hơn, vì vậy 9,11 cũng lớn hơn 9,9.

Một số AI khác thậm chí còn phải dùng đến công đoạn tính toán phức tạp hơn như Qwen LLM của Alibaba Group Holding đã sử dụng Python Code Interpreter (một chương trình xử lý ngôn ngữ) để tính toán câu trả lời, trong khi Ernie Bot của Baidu đã thực hiện 6 bước mới có được câu trả lời đúng.  Ngược lại, Doubao LLM của ByteDance (công ty mẹ của TikTok) đã tạo ra một phản hồi trực tiếp với một ví dụ: "Nếu bạn có 9,90 USD và 9,11 USD, rõ ràng 9,90 USD là nhiều tiền hơn".

Wu Yiquan, một nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở Hàng Châu cho biết: GenAI không sở hữu khả năng toán học và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu đào tạo. Ông cho biết một số LLM hoạt động tốt trong các bài kiểm tra toán có thể là do "nhiễm dữ liệu", nghĩa là thuật toán ghi nhớ các câu trả lời vì các câu hỏi tương tự đã có trong dữ liệu đào tạo của nó.

Wu cho biết: "Thế giới AI được mã hóa - số, từ, dấu câu và khoảng trắng đều được xử lý như nhau. Do đó, bất kỳ thay đổi nào trong lời nhắc đều có thể ảnh hưởng đáng kể đến kết quả".

van-tam-nhat-ngon-1721362600.jpg
Các chuyên gia cho rằng, AI giỏi tổng hợp nhưng không giỏi toán.

"Kiểm tra so sánh số" cho các mô hình AI đã trở nên phổ biến sau khi nhà nghiên cứu Bill Yuchen Lin của Viện Allen và kỹ sư tiên tiến Riley Goodside của công ty công nghệ Scale AI nêu bật những thiếu sót cơ bản về toán học của công nghệ này trên nền tảng truyền thông xã hội X. Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các LLM nâng cao như GPT-4o của OpenAI, Claude 3.5 Sonnet và Mistral AI cũng đã trả lời là 9,11.

Cả hai chuyên gia đều cho rằng, LLM "có khả năng toán học kém" khi kiểm tra và so sánh số, do dữ liệu được đào tạo không phục vụ riêng cho việc tính toán. Mỗi mô hình đang "học" dữ liệu dàn trải ở đa dạng lĩnh vực và có xu hướng vĩ mô, do đó có thể sai các kiến thức cơ bản.

Trong bài đăng trên X, Goodside cho biết ông không có ý định hạ thấp chương trình LLM, nhưng muốn giúp mọi người hiểu và khắc phục những tồn tại của chương trình này.