人工智慧初創公司aiOla推出了一項能夠革命性提升語音識別準確度的新解決方案。該公司發布的"語音智能閘道"系統,可即時分析用戶語音並自動連接至最適合的語音識別模型。該系統通過動態判斷複雜的語言特性後,選擇能實現最佳準確度的模型進行處理。
aiOla去年公開的"DRAX"是通過並行流學習技術克服傳統語音識別局限的語音AI模型。DRAX能同時處理所有語句,在面對環境噪音、語調等多種現實變數時表現出強大性能。基於此技術,此次發布的新技術"QUASAR"通過分析語音特徵、說話者語調、噪音存在與否、上下文等信息,從眾多自動語音識別引擎中自動選擇最合適的模型。
目前語音AI市場雖有多家ASR服務商圍繞噪音環境或語調優化展開競爭,包括OpenAI的Whisper、亞馬遜的Transcribe、阿里巴巴的Qwen2以及Deepgram等,但多數企業仍僅使用在標準評估中表現最優的單一模型。這導致實際使用環境中識別錯誤頻發,用戶體驗大幅下降的批評持續不斷。
aiOla聯合創始人兼總裁阿米爾·哈拉馬蒂指出企業被迫承受特定ASR模型缺陷的現狀:"有些模型在處理美式英語時表現卓越,但在英式語調或噪音環境中往往束手無策。"他強調:“QUASAR是首個將語音識別視為動態問題而非靜態技術的系統。”
aiOla在內部基準測試中將該系統應用於多種實際語調、背景噪音和專業內容環境。結果顯示,在88.8%的回應請求中能動態選擇最優ASR引擎以提升準確度。預計該技術將在客戶支持、會議記錄、自動應答系統等領域顯著提升人機對話的理解度。
哈拉馬蒂表示:"隨著語音識別逐漸成為連接人類與AI的基礎介面,識別錯誤已變得不可接受。“他將QUASAR稱為"將ASR轉化為活體基礎設施的技術”,並補充道:“這不僅是技術突破,更是能影響從處理數十億通話數據的全球呼叫中心到開發字幕功能的獨立開發者的變革。”
aiOla計劃通過此項技術大幅提升語音AI界面的實用性與可靠性,為整個AI語音生態系統創造結構性轉折點。