Os GPU Nvidia Blackwell custam o dobro, mas o custo da inferência por token desce 35x face ao Hopper

De acordo com a análise mais recente no blog da Nvidia, as GPUs Blackwell custam quase o dobro por hora em comparação com a geração Hopper, mas entregam custos de inferência por token 35 vezes mais baixos. Usando o modelo de teste DeepSeek-R1, a Blackwell (GB300 NVL72) é alugada a 2,65 USD por GPU por hora, face aos 1,41 USD da Hopper, mas o throughput de um único GPU salta de 90 para 6.000 tokens por segundo. Este ganho de throughput de 65x reduz os custos por milhão de tokens de 4,20 USD para 0,12 USD.

O valor de 0,12 USD assume optimização total de software, incluindo inferência com baixa precisão FP4 e previsão multi-token (MTP). Sem MTP activado, os custos por milhão de tokens atingem aproximadamente 2,35 USD, descendo para 0,11 USD com ele ativo, demonstrando um impacto de optimização de 21x apenas com essa funcionalidade.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário