Google implementa Previsão Multi-Token nos Pixel 9 e 10, aumentando a velocidade de inferência do Gemini Nano em mais de 50%

Segundo a Beating, a Google implementou a arquitetura Multi-Token Prediction (MTP) nos dispositivos Pixel 9 e Pixel 10, acelerando significativamente o modelo Gemini Nano v3 no dispositivo. A nova arquitetura aumentou a velocidade de inferência em mais de 50%, preservando o alinhamento de segurança e a qualidade de saída do modelo.

O mecanismo de zero-copy permite que a cabeça de predição reutilize diretamente as funcionalidades em cache do modelo principal através de cross-attention, eliminando a sobrecarga de cache chave-valor separada dos modelos de rascunho tradicionais. Este design economizou aproximadamente 130 MB de memória enquanto reduzia a latência de inicialização. Em aplicações do mundo real, como sumarização de notificações e respostas inteligentes, o MTP alcançou um aumento de 55% na taxa de aceitação de tokens, reduzindo a frequência de ativação do processador e diminuindo o consumo de energia do sistema.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário