Biaya GPU Nvidia Blackwell Lipat Dua, Namun Biaya Inferensi Per-Token Turun 35x Dibanding Hopper

Menurut analisis blog terbaru Nvidia, GPU Blackwell hampir dua kali lebih mahal per jam dibanding generasi Hopper, namun menghasilkan biaya inferensi per token yang 35 kali lebih rendah. Dengan DeepSeek-R1 sebagai model uji, sewa Blackwell (GB300 NVL72) sebesar $2,65 per GPU per jam, sedangkan Hopper $1,41, tetapi throughput per GPU meningkat dari 90 menjadi 6.000 token per detik. Kenaikan throughput 65x ini menurunkan biaya per sejuta token dari $4,20 menjadi $0,12.

Angka $0,12 mengasumsikan optimasi perangkat lunak penuh termasuk inferensi low-precision FP4 dan multi-token prediction (MTP). Tanpa MTP diaktifkan, biaya per sejuta token mencapai sekitar $2,35, turun menjadi $0,11 dengan MTP aktif, yang menunjukkan dampak optimasi 21x hanya dari fitur tersebut.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar