Pada konferensi Hot Chips 2025, Nvidia memberikan pandangan mendalam tentang arsitektur Blackwell Ultra miliknya, mengungkap peningkatan performa yang signifikan dan kemampuan teknologi baru yang menempatkan GPU terbaru perusahaan di garis depan komputasi AI. Pengumuman ini hadir saat Nvidia terus mendominasi pasar perangkat keras AI, meskipun hasil pendapatan terbaru menunjukkan sentimen investor yang beragam akibat pembatasan perdagangan China.
Sorotan Keuangan Nvidia Q2 2025
- Total Pendapatan: USD 46,74 miliar (+56% YoY)
- Pendapatan Datacenter: USD 41,1 miliar (+56% YoY, +5% sekuensial)
- Laba Bersih: USD 26,4 miliar (+40,8% dari kuartal sebelumnya)
- Laba Per Saham: USD 1,08 (vs USD 1,02 yang diproyeksikan)
- Margin Kotor: 72,4% (naik dari 61% kuartal lalu)
- Penjualan China H20: USD 0 (karena pembatasan perdagangan)
- Potensi Pasar China: USD 2-5 miliar jika masalah geopolitik terselesaikan
Performa NVFP4 yang Ditingkatkan dengan Tensor Core yang Dioptimalkan
GPU seri Blackwell Ultra B300 menampilkan Tensor core yang baru dioptimalkan yang dirancang khusus untuk format data proprietary NVFP4 milik Nvidia. Peningkatan ini memberikan hingga 50% lebih banyak performa PetaFLOPS NVFP4 dibandingkan dengan seri Blackwell B100/B200 standar. Namun, optimisasi ini datang dengan trade-off, karena performa NVFP4 yang ditingkatkan menghasilkan berkurangnya kemampuan komputasi INT8 dan FP64. Format NVFP4 merepresentasikan kemajuan signifikan dalam efisiensi pemrosesan AI, menggunakan layout E2M1 yang kompak dengan pendekatan dual scaling yang mempertahankan akurasi mendekati BF16 sambil secara dramatis mengurangi kebutuhan memori.
Spesifikasi Teknis Format NVFP4
- Tata Letak Format: E2M1 (1-bit tanda, 2-bit eksponen, 1-bit mantissa)
- Rentang Numerik: Sekitar -6 hingga +6
- Pendekatan Penskalaan: Dua tingkat ( FP8 E4M3 untuk grup 16 nilai, faktor global FP32 )
- Efisiensi Memori: 1,8x lebih rendah dari FP8 , 3,5x lebih rendah dari FP16
- Akurasi: Kurang dari 1% deviasi dibandingkan FP8 pada sebagian besar beban kerja
- Kemampuan Pelatihan: Layak untuk pretraining skala triliunan token
![]() |
---|
Perbandingan performa NVFP4 terhadap BF16 untuk tugas AI , menampilkan peningkatan dalam akurasi dan efisiensi |
Peningkatan Memori dan Konektivitas yang Substansial
GPU Blackwell Ultra kini menampilkan memori HBM3E sebesar 288 GB, merepresentasikan peningkatan signifikan dari 186 GB yang ditemukan pada implementasi Blackwell sebelumnya. Ekspansi memori ini memungkinkan ukuran batch yang lebih besar dan urutan yang lebih panjang untuk beban kerja AI. Selain itu, seri B300 menjadi GPU data center resmi pertama yang mendukung interkoneksi PCIe 6.0, menawarkan bandwidth bidirectional 128 GB/s per slot x16 melalui signaling PAM4 dan encoding berbasis FLIT. Saat ini, hanya CPU Grace milik Nvidia yang mendukung kemampuan PCIe 6.0 ini, menciptakan ekosistem yang terintegrasi erat.
Perbandingan Blackwell vs Blackwell Ultra
Spesifikasi | Blackwell (B100/B200) | Blackwell Ultra (B300) |
---|---|---|
Performa NVFP4 | Standar | Peningkatan +50% |
Memori HBM3E | 186 GB | 288 GB |
Dukungan PCIe | 5.0 | 6.0 |
TDP | 1,200W | 1,400W |
Tensor Cores | Standar | Dioptimalkan untuk NVFP4 |
Performa INT8/FP64 | Standar | Berkurang |
Trade-off Konsumsi Daya untuk Peningkatan Performa
Kemampuan yang ditingkatkan dari Blackwell Ultra datang dengan biaya peningkatan konsumsi daya. Seri B300 beroperasi pada TDP 1.400W, merepresentasikan peningkatan 200W dari TDP 1.200W processor Blackwell standar. Peningkatan daya ini mencerminkan sumber daya komputasi tambahan dan kapasitas memori yang terintegrasi ke dalam arsitektur Ultra, menyoroti tantangan berkelanjutan dalam menyeimbangkan performa dengan efisiensi energi dalam aplikasi komputasi berkinerja tinggi.
Format Proprietary NVFP4 Mendorong Keunggulan Kompetitif
Format NVFP4 milik Nvidia meluas melampaui aplikasi inference sederhana untuk mendukung pretraining pada skala trilion-token. Eksperimen awal dengan model 7-miliar-parameter yang dilatih pada 200 miliar token menunjukkan hasil yang sebanding dengan presisi BF16. Format ini mencapai kebutuhan memori sekitar 1,8 kali lebih rendah dari FP8 dan 3,5 kali lebih rendah dari FP16, secara signifikan mengurangi overhead penyimpanan dan pergerakan data di seluruh fabric NVLink dan NVSwitch. Meskipun bersifat proprietary dan terbatas pada perangkat keras Nvidia, perusahaan mengintegrasikan dukungan NVFP4 ke dalam framework open-source termasuk Cutclass, NCCL, dan TensorRT Model Optimizer.
![]() |
---|
Perbandingan skor akurasi yang menunjukkan performa canggih NVFP4 dibanding FP8 di berbagai evaluasi model |
Posisi Pasar di Tengah Tantangan Perdagangan China
Pengumuman Blackwell Ultra bertepatan dengan laporan pendapatan terbaru Nvidia, yang menunjukkan performa kuat namun mengecewakan beberapa investor karena nol penjualan chip H20 kepada pelanggan berbasis China. Pendapatan mencapai 46,74 miliar dolar Amerika Serikat, melampaui proyeksi Wall Street sebesar 46,52 miliar dolar Amerika Serikat, dengan pendapatan datacenter tumbuh 56% year-over-year menjadi 41,1 miliar dolar Amerika Serikat. CEO Jensen Huang menekankan bahwa produksi Blackwell Ultra sedang meningkat dengan kecepatan penuh, dan permintaannya luar biasa, memposisikan arsitektur baru sebagai pusat dari perlombaan infrastruktur AI yang berkelanjutan meskipun ada kendala geopolitik yang mempengaruhi pasar tertentu.