OpenAI Phát Hành Ba Mô Hình Giọng Nói trong API Realtime; GPT-Realtime-2 có Cửa Sổ Ngữ Cảnh 128K

Theo Beating, OpenAI đã phát hành ba mô hình giọng nói trong Realtime API của mình: GPT-Realtime-2 cho hội thoại giọng nói có suy luận, GPT-Realtime-Translate cho dịch thuật thời gian thực và GPT-Realtime-Whisper cho ghi âm dạng phát trực tuyến. GPT-Realtime-2 là mô hình giọng nói đầu tiên của OpenAI có năng lực suy luận ngang mức GPT-5, mở rộng cửa sổ ngữ cảnh từ 32K lên 128K token, hỗ trợ tối đa 1-2 giờ hội thoại dày đặc.

GPT-Realtime-2 cải thiện 15,2% trên benchmark Big Bench Audio và 13,8% trên Audio MultiChallenge so với GPT-Realtime-1.5. GPT-Realtime-Translate hỗ trợ 70+ ngôn ngữ đầu vào để dịch sang 13 ngôn ngữ đầu ra. Giá: GPT-Realtime-2 ở mức 32 USD/1 triệu token đầu vào và 64 USD/1 triệu token đầu ra; Translate ở mức 0,034 USD/phút; Whisper ở mức 0,017 USD/phút.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận