Baseten revela um método de compressão de cache KV ainda mais otimizado, alcançando uma taxa de compressão de 200x

De acordo com Beating, a equipe de pesquisa da Baseten divulgou o Still, um método de compressão de KV cache que alcança até 200x de compressão em uma única passada forward, sem otimização online ou atualizações de gradiente. O Still integra compressadores Perceiver leves—com tamanho de aproximadamente 1% dos parâmetros do modelo base—em cada camada do Transformer, aplicando cross-attention ao KV cache completo para gerar o cache comprimido diretamente. Testado nos modelos Qwen e Gemma em janelas de contexto de 8k a 64k com taxas de compressão de 8x a 200x, o Still manteve alta precisão e superou métodos comparáveis como SnapKV, H2O e KV-Distill no benchmark RULER.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários