Phát hành Step Audio 2.5 Realtime: Điểm đánh giá chủ quan 80,41, vượt GPT-Realtime-1.5 tới 18%, cuộc gọi thoại có chi phí 3,8 Nhân dân tệ/giờ

Theo Beating, Step Audio 2,5 Realtime, một mô hình giọng nói thời gian thực end-to-end của Step Cosmos, đã ra mắt trên API nền tảng mở của họ vào tháng 4 năm 2026. Mô hình tập trung vào hội thoại tự nhiên với các nhân cách nhân vật có thể tùy chỉnh và khả năng nhận biết tín hiệu cận ngôn ngữ (giọng điệu, ngắt quãng, tiếng thở dài).

Trong thử nghiệm chính thức trên năm tiêu chí, Step Audio 2,5 Realtime xếp hạng số 1 ở tất cả các hạng mục. Điểm đánh giá chủ quan (các cuộc trò chuyện trên ứng dụng điện thoại do người dùng thật thực hiện) đạt 80,41, so với 68,01 của GPT-Realtime-1,5 và 67,16 của Gemini Live. Chuẩn đo giọng nói Q&A đạt 79,80, gần gấp 1,5 lần 53,20 của GPT-Realtime-1,5. Giá API: 10 nhân dân tệ cho mỗi 1 triệu token đầu vào (2 nhân dân tệ khi cache hit), 70 nhân dân tệ cho mỗi 1 triệu token đầu ra, với ước tính cuộc gọi giọng nói liên tục ở mức 3,8 nhân dân tệ mỗi giờ.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận