O custo das GPUs Nvidia Blackwell dobra, mas a despesa com inferência por token cai 35x em comparação com a Hopper

De acordo com a análise mais recente do blog da Nvidia, as GPUs Blackwell custam quase o dobro por hora em comparação com a geração Hopper, mas entregam 35 vezes menos custos de inferência por token. Usando o modelo de teste DeepSeek-R1, Blackwell (GB300 NVL72) é alugado por US$ 2,65 por GPU por hora, enquanto o Hopper custa US$ 1,41. Ainda assim, o throughput de uma única GPU salta de 90 para 6.000 tokens por segundo. Esse ganho de throughput de 65x reduz os custos por milhão de tokens de US$ 4,20 para US$ 0,12.

O valor de US$ 0,12 pressupõe otimização total de software, incluindo inferência com FP4 em baixa precisão e previsão de múltiplos tokens (MTP). Sem MTP habilitado, os custos por milhão de tokens chegam a aproximadamente US$ 2,35, caindo para US$ 0,11 com ele ativo, demonstrando um impacto de otimização de 21x atribuível apenas a esse recurso.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários