Trước đó, hồi tháng 8, Meta cũng giới thiệu trong một bài báo, nêu chi tiết cách công cụ này dựa vào cùng một kỹ thuật “chuỗi suy nghĩ” được sử dụng bởi các mô hình o1 mới phát hành của OpenAI để đưa ra những phán đoán tin cậy về phản hồi của các mô hình khác.
Kỹ thuật đó sẽ chia nhỏ các vấn đề phức tạp thành các bước logic nhỏ hơn và cải thiện độ chính xác của phản hồi đối với các vấn đề khó trong các môn học như khoa học, lập trình và toán học.
Các nhà khoa học của Meta đã sử dụng hoàn toàn dữ liệu do AI tạo ra để đào tạo mô hình đánh giá, đồng thời loại bỏ yếu tố đầu vào của con người ở giai đoạn đó.
Hai nhà nghiên cứu Meta đứng sau dự án này chia sẻ khả năng sử dụng AI để đánh giá AI một cách đáng tin cậy, mở ra một hướng đi khả thi hướng tới việc xây dựng các tác nhân AI tự động có khả năng học hỏi từ chính những sai lầm của mình.
Nhiều người trong lĩnh vực AI hình dung những tác nhân như vậy là trợ lý kỹ thuật số đủ thông minh để thực hiện nhiều nhiệm vụ mà không cần sự can thiệp của con người.
Các mô hình tự cải thiện có thể loại bỏ nhu cầu về một quy trình thường được gọi là học tăng cường từ phản hồi của con người. Quy trình này đòi hỏi sự tham gia của người hướng dẫn, những người phải có chuyên môn đặc biệt để dán nhãn dữ liệu chính xác và xác minh câu trả lời cho các truy vấn toán học và viết phức tạp là chính xác.
Jason Weston, một trong những nhà nghiên cứu trong dự án của Meta cho biết: "Chúng tôi hy vọng rằng khi AI ngày càng trở nên siêu phàm hơn, nó sẽ ngày càng kiểm tra công việc của mình tốt hơn, để thực sự có thể giỏi hơn con người trung bình".
Ông cho biết: "Ý tưởng tự học và có khả năng tự đánh giá về cơ bản là rất quan trọng để đạt tới trình độ AI siêu phàm này".
Các công ty khác bao gồm Google và Anthropic cũng đã công bố nghiên cứu về khái niệm RLAIF, hay Học tăng cường từ phản hồi AI. Tuy nhiên, không giống như Meta, các công ty đó có xu hướng không công bố mô hình của họ để sử dụng công khai.
Các công cụ AI khác được Meta phát hành vào thứ Sáu bao gồm bản cập nhật cho mô hình Segment Anything nhận dạng hình ảnh của công ty, một công cụ giúp tăng tốc thời gian tạo phản hồi LLM và các tập dữ liệu có thể được sử dụng để hỗ trợ việc khám phá các vật liệu vô cơ mới.
Minh Châu
Link nội dung: https://dothi.reatimes.vn/meta-ra-mat-mo-hinh-ai-moi-co-the-check-kha-nang-hoc-hoi-cua-cac-ai-khac-7386.html