OpenAI công bố mô hình AI lý luận o3 mới, mạnh mẽ nhất từ trước tới nay

Vào ngày cuối của chuỗi sự kiện “shipmas” kéo dài 12 ngày, OpenAI đã công bố mô hình AI o3 mới – phiên bản kế nhiệm của mô hình AI lý luận o1 mà họ đã phát hành vào đầu năm nay. Đi kèm với o3 là o3-mini, được tinh chỉnh cho từng nhiệm vụ cụ thể.

Theo tuyên bố của OpenAI, trong một số điều kiện, mô hình o3 sẽ tiệm cận với AGI (trí tuệ nhân tạo toàn năng) với những cảnh báo quan trọng. Vì lý do gọi là o3 chứ không phải là o2, theo The Information, OpenAI đã bỏ qua o2 để tránh xung đột tiềm ẩn với nhà cung cấp dịch vụ viễn thông Anh O2. 

Cả mô hình o3 và o3-mini đều chưa được cung cấp rộng rãi, mới chỉ có các nhà nghiên cứu về an toàn được phép đăng ký và tiếp cận sớm. Bản xem trước mô hình o3 sẽ đến sau, tuy nhiên chưa rõ thời điểm cụ thể. Kế hoạch ra mắt o3-mini sẽ diễn ra vào cuối tháng 1, sau đó sẽ là o3.

openai-o3-1734773395.jpg

OpenAI đã bỏ qua o2 để trực tiếp hướng tới mô hình trí tuệ nhân tạo có khả năng suy luận "như con người" tốt hơn là o3 mới, dự kiến sẽ ra mắt vào tháng sau.

Trong một tuyên bố mới đây, Altman cho biết, trước khi OpenAI phát hành các mô hình lý luận mới, ông muốn có một khuôn khổ thử nghiệm liên bang để hướng dẫn giám sát và giảm thiểu rủi ro của các mô hình như vậy.

Thực tế với mô hình o1, quá trình kiểm tra khả năng lý luận của o1 cho thấy, nó cố gắng lừa dối người dùng ở mức cao hơn so với các mô hình thông thường “không lý luận”. Các nhà nghiên cứu cho rằng, o3 sẽ có mức độ cố gắng lừa dối cao hơn so với “người tiền nhiệm” của nó. Tất cả những điều chúng ta hoài nghi sẽ phải chờ khi OpenAI và các đối tác của họ công bố kết quả thử nghiệm sau cùng.

OpenAI cho biết thêm, họ đang sử dụng một kỹ thuật mới, “căn chỉnh có chủ đích” để căn chỉnh các mô hình như o3 theo các nguyên tắc an toàn của mình.

Không giống như hầu hết các mô hình AI, o3 có khả năng tự kiểm tra thực tế hiệu quả, giúp chúng ta tránh được một số cạm bẫy thường gặp ở các mô hình. Quá trình kiểm tra thực tế này sẽ có một số độ trễ. Mô hình o3 giống như o1 trước đó, mất nhiều thời gian hơn so với thông thường, từ vài giây đến vài phút để đưa ra giải pháp cuối cùng chứ không phải ngay lập tức như các mô hình thông thường. Vì vậy, nó có xu hướng đáng tin cậy hơn trong các lĩnh vực như vật lý, khoa học và toán học.

openai-1-17347471346602081694998-1734773589.png

 

O3 được đào tạo thông qua phương pháp học tăng cường để “suy nghĩ” trước khi phản hồi thông qua thứ mà OpenAI gọi là “chuỗi suy nghĩ riêng tư”. Nó có thể suy luận thông qua một nhiệm vụ và lập kế hoạch trước, thực hiện một loạt hành động trong thời gian dài và giúp nó tìm ra giải pháp.

Khi được nhắc nhở, o3 sẽ dừng lại trước khi phản hồi, xem xét một số lời nhắc liên quan và “giải thích” lý do của nó trong suốt quá trình. Sau một thời gian, mô hình sẽ tóm tắt những gì nó coi là phản hồi chính xác nhất.

Tuy nhiên, theo các chuyên gia, mặc dù thành phần lý luận của o3 có thể giúp nó giảm bớt tỷ lệ “ảo giác” và lỗi, nhưng không hoàn toàn loại bỏ được hết.

Theo một chuẩn mực , OpenAI đang dần tiến gần hơn đến AGI (trí tuệ nhân tạo toàn năng). Trên một bài kiểm tra được thiết kế để đánh giá liệu một hệ thống AI có thể tiếp thu hiệu quả các kỹ năng mới bên ngoài dữ liệu mà nó được đào tọa không, mô hình o3 đạt điểm 87,5% ở cài đặt tính toán cao. Ở mức tệ nhất (cài đặt tính toán thấp), mô hình đã tăng gấp 3 hiệu suất của o1.

Khi trải qua Kỳ thi Toán AIME của Mỹ năm nay, o3 đạt được điểm chính xác là 96,7 %. Ngược lại, o1 chỉ đạt được xếp hạng khiêm tốn hơn là 83,3%. "Điều này có nghĩa là o3 thường chỉ bỏ lỡ một câu hỏi", Mark Chen, phó chủ tịch cấp cao phụ trách nghiên cứu tại OpenAI cho biết. Trên thực tế, o3 đã làm rất tốt trong bộ chuẩn mực thông thường mà OpenAI áp dụng cho các mô hình của mình đến mức công ty phải tìm các bài kiểm tra khó hơn để chuẩn mực hóa nó.

Minh Châu

Link nội dung: https://dothi.reatimes.vn/openai-cong-bo-mo-hinh-ai-ly-luan-o3-moi-manh-me-nhat-tu-truoc-toi-nay-8675.html