Nvidiaの最新ブログ分析によると、Blackwell GPUはHopper世代と比べて1時間あたりの費用がほぼ2倍になる一方で、1トークンあたりの推論コストは35分の1にまで下がります。テストモデルとしてDeepSeek-R1を使うと、Blackwell(GB300 NVL72)は1GPUあたり1時間$2.65でレンタルできるのに対し、Hopperは$1.41です。しかし、単一GPUのスループットは90から6,000トークン/秒へと急増します。この65倍のスループット向上により、1百万トークンあたりのコストは$4.20から$0.12へと引き下げられます。
$0.12という数値は、FP4の低精度推論やマルチトークン予測(MTP)など、完全なソフトウェア最適化を前提としています。MTPが有効化されていない場合、1百万トークンあたりのコストは約$2.35まで上がり、MTPを有効にすると$0.11まで下がります。これは、その機能だけで最適化の効果が21倍であることを示しています。