Sakana AI запускает систему KAME, достигая почти нулевой задержки и обеспечивая более глубокое внедрение знаний

robot
Генерация тезисов в процессе

AIMPACT сообщение, 3 мая (UTC+8), Sakana AI выпустила гибридную архитектуру KAME, которая может одновременно поддерживать почти нулевую задержку и в реальном времени внедрять знания из бэкендовых LLM. Эта система состоит из двух асинхронных компонентов, работающих параллельно: фронтенд на базе архитектуры Moshi с модулем S2S, обрабатывающим аудио примерно за 80 миллисекунд и немедленно генерирующим ответ; бэкенд состоит из компонента STT и полноценного LLM, постоянно формирующих частичные транскрипты и создающих поток oracle, который передается на фронтенд, при этом при поступлении более точного oracle ответ может быть скорректирован в процессе. Оценка показала, что Moshi набрала 2.05 баллов, KAME+gpt-4.1 — 6.43 балла, KAME+claude-opus-4-1 — 6.23 балла, задержка у всех примерно такая же, как у Moshi; система премиум-класса Unmute получила 7.70 баллов, но задержка достигала 2,1 секунды. Бэкенд KAME не зависит от конкретной модели, поддерживая переключение LLM во время инференса без необходимости повторного обучения.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить