Vào tháng 5, OpenAI đã phát hành mẫu AI mới có tên GPT-4.o, có khả năng trò chuyện với người dùng bằng giọng nói trực tiếp, đồng thời có thể tương tác qua văn bản và hình ảnh. GPT-4.o gây kinh ngạc bởi khả năng tương tác như với người thật. Tuy nhiên, ngay sau khi ra mắt, mô hình trí tuệ nhân tạo này đã gặp phải sự phản ứng từ ngôi sao điện ảnh Scarlett Johansson vì giọng nói của GPT giống giọng của cô đến mức kinh ngạc. OpenAI mặc dù bác bỏ những cáo buộc của ngôi sao điện ảnh nhưng sau đó vẫn phải dừng áp dụng giọng nói này cho GPT-4.o và vẫn tiếp tục với các giọng nói còn lại.
Nhà sản xuất ChatGPT dự kiến sẽ triển khai trò trải nghiệm trò chuyện bằng giọng nói thực tế (Voice Mode) cho một nhóm nhỏ người dùng gói dịch vụ ChatGPT Plus từ tháng 6 này, tuy nhiên họ buộc phải trì hoãn vì “cần thời gian để đạt được tiêu chuẩn ra mắt”.
OpenAI cho biết trong thông báo được phát đi: “Chúng tôi đang cải thiện khả năng phát hiện và từ chối một số nội dung nhất định của mô hình. Chúng tôi cũng đang nỗ lực cải thiện trải nghiệm người dùng và chuẩn bị cơ sở hạ tầng của mình để có thể mở rộng quy mô lên hàng triệu trong khi vẫn duy trì phản hồi theo thời gian thực”.
Công ty cho biết, tính năng này ban đầu sẽ được phát hành cho một nhóm nhỏ người dùng để thu thập phản hồi và sẽ được cung cấp cho tất cả người dùng gói Plus vào cuối năm nay, tùy thuộc vào việc kiểm tra độ an toàn và tin cậy.
Các khả năng tương tác bằng âm thanh, giọng nói sẽ cho phép người dùng nói chuyện với ChatGPT và nhận được phản hồi theo thời gian thực mà không bị chậm trễ, khiến cho cuộc trò chuyện trở nên “có linh hồn” hơn. Không chỉ với OpenAI, các nhà sản xuất khác cũng đang nhắm tới tính năng như này và cố gắng đưa nó vào chatbot AI của mình, tuy nhiên cho đến thời điểm hiện tại, chưa có mô hình nào thực sự vượt qua OpenAI về tính năng này.
Theo các nhà quan sát, OpenAI dường như cũng đang nỗ lực để phát triển GPT-5, hiện chưa rõ thời gian công bố sản phẩm này. GPT-5 dự kiến sẽ có khả năng đa phương thức và tự chủ tiềm năng, có thể cách mạng các tương tác AI. Nếu đúng như những thông tin này, khi chuyển sang mô hình tác nhân, GPT-5 sẽ tự đông thực hiện được các hành động, nhiệm vụ cụ thể trong thế giới thực. GPT-5 cũng có thể mở khóa các hành vi và ứng dụng không lường trước được, làm mờ ranh giới giữa trí thông minh của con người và máy móc. Về khả năng tương tác bằng giọng nói, GPT-5 sẽ có khả năng ngôn ngữ nâng cao hơn với sự trôi chảy, chính xác và hiểu biết ngữ cảnh cao hơn, bao gồm khả năng đa ngôn ngữ được cải thiện. Lý luận cũng như việc tăng cường cảm xúc cũng cao hơn….