Sakana AI meluncurkan sistem KAME, dengan penundaan hampir nol sambil mencapai injeksi pengetahuan yang lebih dalam

robot
Pembuatan abstrak sedang berlangsung

Pesan AIMPACT, 3 Mei (UTC+8), Sakana AI meluncurkan arsitektur campuran KAME, yang dapat menyuntikkan pengetahuan LLM backend secara real-time sambil menjaga latensi mendekati nol. Sistem ini terdiri dari dua komponen asinkron yang berjalan paralel: modul S2S berbasis arsitektur Moshi di frontend yang memproses audio setiap sekitar 80 milidetik dan langsung menghasilkan respons; backend terdiri dari komponen STT dan LLM lengkap, yang terus membangun transkripsi parsial dan menghasilkan aliran oracle yang dikirim kembali ke frontend, dan dapat memperbaiki respons di tengah jalan saat oracle yang lebih baik tiba. Penilaian menunjukkan bahwa skor Moshi sendiri adalah 2,05, KAME+gpt-4.1 mendapatkan skor 6,43, KAME+claude-opus-4-1 mendapatkan skor 6,23, dengan latensi yang sebanding dengan Moshi; sistem tingkat lanjut Unmute mendapatkan skor 7,70 tetapi latensinya mencapai 2,1 detik. Backend KAME tidak bergantung, mendukung pergantian LLM saat inferensi tanpa perlu retraining.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan