De acordo com a análise mais recente no blog da Nvidia, as GPUs Blackwell custam quase o dobro por hora em comparação com a geração Hopper, mas entregam custos de inferência por token 35 vezes mais baixos. Usando o modelo de teste DeepSeek-R1, a Blackwell (GB300 NVL72) é alugada a 2,65 USD por GPU por hora, face aos 1,41 USD da Hopper, mas o throughput de um único GPU salta de 90 para 6.000 tokens por segundo. Este ganho de throughput de 65x reduz os custos por milhão de tokens de 4,20 USD para 0,12 USD.
O valor de 0,12 USD assume optimização total de software, incluindo inferência com baixa precisão FP4 e previsão multi-token (MTP). Sem MTP activado, os custos por milhão de tokens atingem aproximadamente 2,35 USD, descendo para 0,11 USD com ele ativo, demonstrando um impacto de optimização de 21x apenas com essa funcionalidade.