De acordo com a análise mais recente do blog da Nvidia, as GPUs Blackwell custam quase o dobro por hora em comparação com a geração Hopper, mas entregam 35 vezes menos custos de inferência por token. Usando o modelo de teste DeepSeek-R1, Blackwell (GB300 NVL72) é alugado por US$ 2,65 por GPU por hora, enquanto o Hopper custa US$ 1,41. Ainda assim, o throughput de uma única GPU salta de 90 para 6.000 tokens por segundo. Esse ganho de throughput de 65x reduz os custos por milhão de tokens de US$ 4,20 para US$ 0,12.
O valor de US$ 0,12 pressupõe otimização total de software, incluindo inferência com FP4 em baixa precisão e previsão de múltiplos tokens (MTP). Sem MTP habilitado, os custos por milhão de tokens chegam a aproximadamente US$ 2,35, caindo para US$ 0,11 com ele ativo, demonstrando um impacto de otimização de 21x atribuível apenas a esse recurso.