OpenAI ra mắt “Operator” có thể tự đặt chỗ, mua sản phẩm và đặt vé du lịch

OpenAI đã ra mắt Operator, tác nhân AI đầu tiên dành cho những người đăng ký ChatGPT Pro tại Mỹ, nó có khả năng tự động hoàn thành các nhiệm vụ như đặt chỗ hoặc mua hàng tạp hóa. Operator được hỗ trợ bởi một mô hình mới được tích hợp trong GPT-4o có tên là CUA.

Các chuyên gia dự đoán rằng năm 2025 sẽ là năm các tác nhân AI trở nên phổ biến và OpenAI đang thực hiện đúng dự báo đó. Vào thứ năm vừa qua, OpenAI đã ra mắt Operator, một hệ thống có thể sử dụng trình duyệt web để thực hiện các thao tác như đặt chỗ du lịch và mua sản phẩm.

Trong khi các chatbot như ChatGPT phổ biến của OpenAI sử dụng AI tạo sinh để trả lời các truy vấn thì Operator là một tác nhân được thiết kế để thực hiện các tác vụ một cách tự động.

openai-1737703431.jpg
OpenAI ra mắt “Operator”, tác nhân AI có thể tự đặt chỗ nhà hàng, mua sản phẩm và đặt vé du lịch.

OpenAI cho biết Operator sẽ có mặt tại Mỹ từ ngày 23/1, dành cho người dùng ChatGPT Pro (gói cước trị giá 200 USD hàng tháng cung cấp quyền truy cập vào các mô hình mới nhất của công ty, bao gồm truy cập mô hình GPT o1). Trong những tháng tới, công ty cho biết, nó cũng sẽ được cung cấp cho những người đăng ký ChatGPT Plus (gói đăng ký 20 USD hàng tháng của OpenAI), và cả người dùng ở các quốc gia khác.

OpenAI đã mô tả thêm về cách Operator hoạt động: "Operator có thể "xem" (thông qua ảnh chụp màn hình) và "tương tác" (sử dụng tất cả các hành động mà chuột và bàn phím được phép) với trình duyệt, cho phép nó thực hiện hành động trên web mà không cần tích hợp API tùy chỉnh. Nếu gặp phải thách thức hoặc mắc lỗi, Operator có thể tận dụng khả năng suy luận của mình để tự sửa lỗi. Khi bị kẹt và cần hỗ trợ, nó chỉ cần trả lại quyền kiểm soát cho người dùng, đảm bảo trải nghiệm mượt mà và mang tính cộng tác".

Trong buổi phát trực tiếp công bố Operator vào thứ năm, CEO của OpenAI Sam Altman gọi bản phát hành này là "bản xem trước nghiên cứu ban đầu", đồng thời nói thêm rằng nó sẽ được tinh chỉnh trong những tháng tới. Ông cho biết OpenAI cũng sẽ có nhiều tác nhân hơn để ra mắt.

Về cách thức hoạt động của tác nhân AI, khi người dùng giao cho Operator một nhiệm vụ, nó sẽ chia nhỏ thành các bước nhỏ hơn. Ví dụ, yêu cầu Operator đặt hàng tạp hóa từ Instacart sau khi đưa cho nó một bức ảnh về danh sách mua sắm viết tay. Operator đã khởi chạy một phiên bản trình duyệt trên đám mây và có thể mở trang web của Instacart, tìm kiếm các mặt hàng riêng lẻ và thêm chúng vào giỏ hàng, thậm chí là thực hiện thanh toán. Tuy nhiên, ứng dụng vẫn cần xác nhận từ người dùng ở nhiều bước khác nhau trước khi thực hiện bất kỳ hành động không thể đảo ngược nào trên trang web.

Reiichiro Nakano, một thành viên của đội ngũ kỹ thuật của OpenAI cho biết trong buổi phát trực tiếp rằng Operator được cung cấp năng lượng bởi CUA, một model mới được xây dựng trên GPT-4o.

Ông cho biết: "Nó được "đào tạo để sử dụng và điều khiển máy tính theo cùng một cách như con người, chỉ bằng cách nhìn vào màn hình và sử dụng chuột và bàn phím để điều khiển máy tính".

Nakano cho biết mô hình này bỏ qua nhu cầu về API, cơ chế cho phép các thành phần phần mềm giao tiếp với nhau và "mở ra một loạt phần mềm hoàn toàn mới mà trước đây chúng ta không thể truy cập được".

Ông nói thêm rằng mô hình này đã loại bỏ "thêm một nút thắt nữa trên con đường hướng tới AGI" hay trí tuệ nhân tạo tổng quát.

Tuy nhiên, Operator vẫn còn phải đi một chặng đường dài nữa mới có thể sánh được với khả năng điều hướng web của con người.