Theo Beating, Step Audio 2,5 Realtime, một mô hình giọng nói thời gian thực end-to-end của Step Cosmos, đã ra mắt trên API nền tảng mở của họ vào tháng 4 năm 2026. Mô hình tập trung vào hội thoại tự nhiên với các nhân cách nhân vật có thể tùy chỉnh và khả năng nhận biết tín hiệu cận ngôn ngữ (giọng điệu, ngắt quãng, tiếng thở dài).
Trong thử nghiệm chính thức trên năm tiêu chí, Step Audio 2,5 Realtime xếp hạng số 1 ở tất cả các hạng mục. Điểm đánh giá chủ quan (các cuộc trò chuyện trên ứng dụng điện thoại do người dùng thật thực hiện) đạt 80,41, so với 68,01 của GPT-Realtime-1,5 và 67,16 của Gemini Live. Chuẩn đo giọng nói Q&A đạt 79,80, gần gấp 1,5 lần 53,20 của GPT-Realtime-1,5. Giá API: 10 nhân dân tệ cho mỗi 1 triệu token đầu vào (2 nhân dân tệ khi cache hit), 70 nhân dân tệ cho mỗi 1 triệu token đầu ra, với ước tính cuộc gọi giọng nói liên tục ở mức 3,8 nhân dân tệ mỗi giờ.