xAI ra mắt Voice Agent Builder Beta, Grok Voice vượt qua GPT trong bài kiểm tra chuẩn

XAI4,24%
GROK-0,47%

xAI ngày 1 tháng 7 công bố ra mắt phiên bản Beta của Voice Agent Builder, đây là nền tảng xây dựng tác nhân giọng nói AI hoàn toàn không cần code, cho phép người dùng xây dựng tác nhân giọng nói cấp doanh nghiệp trong vòng 2 phút thông qua gợi ý ngôn ngữ tự nhiên; nền tảng sử dụng đường dẫn giọng nói đơn nhất Speech-to-Speech từ đầu đến cuối được kết hợp chặt chẽ với Grok Voice, vượt qua GPT trong các bài kiểm tra chuẩn.

Bài kiểm tra chuẩn τ-voice Bench: Grok Voice Think Fast 1.0 vượt qua GPT

xAI AI語音代理建置平台 (Nguồn: website xAI)

Theo công bố chính thức từ xAI, Grok Voice Think Fast 1.0 đứng đầu bảng xếp hạng bài kiểm tra chuẩn giọng nói τ-voice Bench, vượt trực tiếp Google Gemini 3.1 Flash Live và OpenAI GPT Realtime 1.5 về hai chỉ số tốc độ phản hồi và khả năng suy luận.

xAI giải thích rằng Grok Voice được huấn luyện với các tình huống cuộc gọi thực tế được thiết kế "khó nhất", bao gồm nhiễu điện thoại chất lượng thấp, giọng địa phương mạnh, người dùng ngắt lời giữa chừng và hướng dẫn mơ hồ, đồng thời hỗ trợ bản địa hơn 25 ngôn ngữ.

Kiến trúc Speech-to-Speech từ đầu đến cuối: Đường dẫn giọng nói đơn nhất thay thế kiến trúc ghép STT+LLM+TTS truyền thống

xAI chính thức giải thích, dịch vụ khách hàng giọng nói AI doanh nghiệp truyền thống phải kết nối ba hệ thống độc lập: chuyển giọng nói thành văn bản (STT), mô hình ngôn ngữ lớn (LLM) và chuyển văn bản thành giọng nói (TTS). Kiến trúc ghép này làm tăng độ trễ đa bước nhảy, đồng thời tăng tỷ lệ lỗi và chi phí vận hành.

Voice Agent Builder sử dụng đường dẫn giọng nói đơn nhất Speech-to-Speech từ đầu đến cuối được kết hợp chặt chẽ với Grok Voice, toàn bộ quy trình xử lý giọng nói không chuyển đổi theo từng đoạn, nhằm giảm độ trễ và giảm lỗi kết nối.

Cơ sở kiến thức, kết nối công cụ, nhân bản giọng nói và truy cập điện thoại: Bốn tính năng cốt lõi

Theo mô tả tính năng chính thức từ xAI, bốn mô-đun tính năng cốt lõi của Voice Agent Builder như sau:

Cơ sở kiến thức (Knowledge Base): Hỗ trợ tải lên các định dạng Word, Excel, PDF, JSON, có thể sắp xếp thành Collections chia sẻ giữa các tác nhân, đảm bảo tính nhất quán về thông số sản phẩm và chính sách.

Kết nối công cụ (Tools & Connectors): Tích hợp sẵn lịch Google/Outlook, tìm kiếm Web, tìm kiếm X (Twitter) và Notion; hỗ trợ chuyển tiếp tới nhân viên hỗ trợ thực, kết thúc cuộc gọi và thông báo nhóm tức thì.

Giọng nói và điện thoại (Voice & Telephony): Cung cấp hơn 80 giọng nói tích hợp sẵn; hỗ trợ nhân bản giọng nói thương hiệu chỉ cần 2 phút âm thanh; có thể nhận số điện thoại miễn phí từ xAI, hoặc kết nối với hệ thống tổng đài hiện có qua SIP.

Định giá minh bạch (Pricing): Phí API tính toán là 0,05 USD mỗi phút, không thu phí nền tảng bổ sung; khi sử dụng số điện thoại do xAI cung cấp, thu thêm phí liên lạc 0,01 USD mỗi phút.

Cơ chế bảo mật doanh nghiệp: Tự động ghi âm bản ghi chép, nhật ký sử dụng công cụ và thiết lập ranh giới hội thoại

Theo thông báo chính thức từ xAI, Voice Agent Builder tích hợp sẵn cơ chế giám sát (Observability) và lan can bảo mật (Guardrails) cho người dùng doanh nghiệp: mỗi cuộc gọi tự động ghi âm và tạo bản ghi chép; quản trị viên có thể xem nhật ký công cụ mà AI đã sử dụng trong cuộc gọi bất cứ lúc nào; và có thể thiết lập các ranh giới hội thoại nghiêm ngặt, ví dụ buộc AI không được đọc số thẻ tín dụng của khách hàng, hoặc cấm thảo luận với người dùng về các chủ đề chính trị lạc đề.

xAI cho biết trong thông báo chính thức: "Đánh giá bằng tai chính xác hơn nhìn vào bài kiểm tra chuẩn — hãy xây dựng một tác nhân, gọi điện thử với quy trình làm việc khó nhất của bạn."

Câu hỏi thường gặp

Phí API tính toán của xAI Voice Agent Builder là bao nhiêu?

Theo thông báo chính thức từ xAI, phí API tính toán là 0,05 USD mỗi phút, không thu phí nền tảng bổ sung; nếu sử dụng số điện thoại miễn phí do xAI cung cấp, thì thu thêm phí liên lạc 0,01 USD mỗi phút.

Hiệu suất của Grok Voice Think Fast 1.0 trên τ-voice Bench như thế nào?

Theo công bố chính thức từ xAI, Grok Voice Think Fast 1.0 vượt qua Google Gemini 3.1 Flash Live và OpenAI GPT Realtime 1.5 trong bài kiểm tra chuẩn τ-voice Bench, đứng đầu bảng xếp hạng về hai chỉ số tốc độ phản hồi và khả năng suy luận.

Hiện tại có thể dùng thử xAI Voice Agent Builder ở đâu?

Theo thông báo chính thức từ xAI, phiên bản Beta của Voice Agent Builder đã chính thức được triển khai trên xAI Console, mở cho dùng thử.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận