Di persidangan Hot Chips 2025, Nvidia memberikan pandangan mendalam mengenai seni bina Blackwell Ultra, mendedahkan peningkatan prestasi yang ketara dan keupayaan teknologi baharu yang meletakkan GPU terkini syarikat itu di barisan hadapan pengkomputeran AI. Pengumuman ini datang ketika Nvidia terus menguasai pasaran perkakasan AI, walaupun keputusan pendapatan terkini menunjukkan sentimen pelabur yang bercampur-campur akibat sekatan perdagangan China.
Sorotan Kewangan Nvidia Q2 2025
- Jumlah Hasil: USD 46.74 bilion (+56% YoY)
- Hasil Pusat Data: USD 41.1 bilion (+56% YoY, +5% berturut-turut)
- Keuntungan Bersih: USD 26.4 bilion (+40.8% daripada suku sebelumnya)
- Pendapatan Sesaham: USD 1.08 (berbanding USD 1.02 yang diramalkan)
- Margin Kasar: 72.4% (naik daripada 61% suku lepas)
- Jualan China H20: USD 0 (disebabkan sekatan perdagangan)
- Potensi Pasaran China: USD 2-5 bilion jika isu geopolitik diselesaikan
Prestasi NVFP4 yang Dipertingkatkan dengan Tensor Cores yang Dioptimumkan
GPU siri Blackwell Ultra B300 menampilkan Tensor cores yang baru dioptimumkan khusus direka untuk format data proprietari NVFP4 Nvidia. Peningkatan ini memberikan sehingga 50% lebih prestasi NVFP4 PetaFLOPS berbanding siri Blackwell B100/B200 standard. Walau bagaimanapun, pengoptimuman ini datang dengan pertukaran, kerana prestasi NVFP4 yang dipertingkatkan mengakibatkan pengurangan keupayaan pengiraan INT8 dan FP64. Format NVFP4 mewakili kemajuan ketara dalam kecekapan pemprosesan AI, menggunakan susun atur E2M1 yang padat dengan pendekatan penskalaan dwi yang mengekalkan ketepatan hampir dengan BF16 sambil mengurangkan keperluan memori secara dramatik.
Spesifikasi Teknikal Format NVFP4
- Susun Atur Format: E2M1 (1-bit tanda, 2-bit eksponen, 1-bit mantissa)
- Julat Berangka: Lebih kurang -6 hingga +6
- Pendekatan Penskalaan: Dua peringkat ( FP8 E4M3 untuk kumpulan 16 nilai, faktor global FP32 )
- Kecekapan Memori: 1.8x lebih rendah daripada FP8 , 3.5x lebih rendah daripada FP16
- Ketepatan: Kurang daripada 1% sisihan berbanding FP8 dalam kebanyakan beban kerja
- Keupayaan Latihan: Berdaya maju untuk pralatihan skala trilion-token
![]() |
---|
Perbandingan prestasi NVFP4 berbanding BF16 untuk tugasan AI, mempamerkan peningkatan dalam ketepatan dan kecekapan |
Peningkatan Memori dan Sambungan yang Besar
GPU Blackwell Ultra kini menampilkan 288 GB memori HBM3E, mewakili peningkatan ketara daripada 186 GB yang terdapat dalam pelaksanaan Blackwell sebelumnya. Pengembangan memori ini membolehkan saiz kumpulan yang lebih besar dan urutan yang lebih panjang untuk beban kerja AI. Selain itu, siri B300 menjadi GPU pusat data rasmi pertama yang menyokong interkoneksi PCIe 6.0, menawarkan lebar jalur dua arah 128 GB/s setiap slot x16 melalui isyarat PAM4 dan pengekodan berasaskan FLIT. Pada masa ini, hanya CPU Grace Nvidia yang menyokong keupayaan PCIe 6.0 ini, mewujudkan ekosistem yang terintegrasi rapat.
Perbandingan Blackwell vs Blackwell Ultra
Spesifikasi | Blackwell (B100/B200) | Blackwell Ultra (B300) |
---|---|---|
Prestasi NVFP4 | Standard | Peningkatan +50% |
Memori HBM3E | 186 GB | 288 GB |
Sokongan PCIe | 5.0 | 6.0 |
TDP | 1,200W | 1,400W |
Tensor Cores | Standard | Dioptimumkan NVFP4 |
Prestasi INT8/FP64 | Standard | Dikurangkan |
Pertukaran Penggunaan Kuasa untuk Keuntungan Prestasi
Keupayaan yang dipertingkatkan bagi Blackwell Ultra datang dengan kos peningkatan penggunaan kuasa. Siri B300 beroperasi pada TDP 1,400W, mewakili peningkatan 200W berbanding TDP 1,200W pemproses Blackwell standard. Peningkatan kuasa ini mencerminkan sumber pengiraan tambahan dan kapasiti memori yang disepadukan ke dalam seni bina Ultra, menyerlahkan cabaran berterusan untuk mengimbangi prestasi dengan kecekapan tenaga dalam aplikasi pengkomputeran berprestasi tinggi.
Format Proprietari NVFP4 Memacu Kelebihan Daya Saing
Format NVFP4 Nvidia melangkaui aplikasi inferens mudah untuk menyokong pralatihan pada skala trilion token. Eksperimen awal dengan model 7 bilion parameter yang dilatih pada 200 bilion token menunjukkan keputusan yang setanding dengan ketepatan BF16. Format ini mencapai keperluan memori kira-kira 1.8 kali lebih rendah daripada FP8 dan 3.5 kali lebih rendah daripada FP16, mengurangkan dengan ketara overhed penyimpanan dan pergerakan data merentasi fabrik NVLink dan NVSwitch. Walaupun bersifat proprietari dan terhad kepada perkakasan Nvidia, syarikat itu sedang menyepadukan sokongan NVFP4 ke dalam rangka kerja sumber terbuka termasuk Cutclass, NCCL, dan TensorRT Model Optimizer.
![]() |
---|
Perbandingan skor ketepatan yang mempamerkan prestasi canggih NVFP4 berbanding FP8 merentasi pelbagai penilaian model |
Kedudukan Pasaran di Tengah-tengah Cabaran Perdagangan China
Pengumuman Blackwell Ultra bertepatan dengan laporan pendapatan terkini Nvidia, yang menunjukkan prestasi kukuh tetapi mengecewakan sesetengah pelabur kerana sifar jualan cip H20 kepada pelanggan berasaskan China. Hasil mencapai 46.74 bilion dolar Amerika, melebihi unjuran Wall Street sebanyak 46.52 bilion dolar Amerika, dengan hasil pusat data berkembang 56% tahun ke tahun kepada 41.1 bilion dolar Amerika. Ketua Pegawai Eksekutif Jensen Huang menekankan bahawa pengeluaran Blackwell Ultra sedang meningkat dengan kelajuan penuh, dan permintaan adalah luar biasa, meletakkan seni bina baharu sebagai pusat kepada perlumbaan infrastruktur AI yang berterusan walaupun kekangan geopolitik mempengaruhi pasaran tertentu.