Sakana AI lança o sistema KAME, alcançando uma latência quase zero enquanto realiza uma injeção de conhecimento mais profunda

robot
Geração de resumo em curso

AIMPACT mensagem, 3 de maio (UTC+8), Sakana AI lançou a arquitetura híbrida KAME, que pode injetar conhecimento do LLM de backend em tempo real, mantendo uma latência quase zero.
O sistema é composto por dois componentes assíncronos que operam em paralelo: o módulo S2S baseado na arquitetura Moshi, que processa áudio aproximadamente a cada 80 milissegundos e gera respostas imediatamente;
o backend é composto por um componente STT e um LLM completo, que constrói continuamente transcrições parciais e gera um fluxo de oráculo que é enviado de volta ao frontend, podendo corrigir a resposta no meio do caminho quando um oráculo melhor chega.
A avaliação mostrou que, isoladamente, Moshi obteve uma pontuação de 2,05, KAME+gpt-4.1 obteve 6,43, KAME+claude-opus-4-1 obteve 6,23, com latências semelhantes às do Moshi;
sistemas de nível superior, como Unmute, alcançaram uma pontuação de 7,70, mas com uma latência de até 2,1 segundos.
O backend do KAME é independente, suportando a troca de LLMs durante a inferência sem necessidade de retreinamento.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar