GPU Blackwell Nvidia Menghadapi Penelitian Terhadap Kaedah Penanda Aras dan Cabaran Pembuatan

Pasukan Komuniti BigGo

GPU Blackwell Nvidia Menghadapi Penelitian Terhadap Kaedah Penanda Aras dan Cabaran Pembuatan

Seni bina GPU Blackwell terkini Nvidia telah mencetuskan perbincangan hangat dalam komuniti teknologi, dengan pakar mempersoalkan kesahihan pendekatan penanda aras semasa dan membangkitkan kebimbangan mengenai kerumitan pembuatan. GPU utama ini menjanjikan penambahbaikan ketara dengan fail daftar 192KB dan cache arahan 512KB, tetapi implikasi dunia sebenar masih diperdebatkan.

Spesifikasi Utama Nvidia Blackwell:

Bilangan transistor: 208 bilion
Saiz die: 750mm²
Proses pembuatan: TSMC 4NP
Fail daftar: 192KB
Cache L1D arahan: 512KB
Kapasiti cache L2: 144MB
Lebar jalur memori: Sehingga 5TB/s
Anggaran saiz transistor: ~85nm x 85nm

Perdebatan Penanda Aras OpenCL vs CUDA

Titik perbalahan utama tertumpu pada cara prestasi Blackwell diukur. Penganalisis teknologi telah membangkitkan kebimbangan bahawa banyak penilaian GPU bergantung banyak pada ujian OpenCL , yang mungkin tidak mencerminkan corak penggunaan dunia sebenar. Isu ini berpunca daripada fakta bahawa kebanyakan profesional yang membeli GPU Nvidia untuk kerja pengiraan sebenarnya menggunakan rangka kerja CUDA atau HIP , yang mempunyai proses kompilasi berbeza.

Walau bagaimanapun, sesetengah ahli komuniti berhujah bahawa untuk kod penanda aras asas, perbezaan antara OpenCL , CUDA , dan HIP adalah minimum. Variasi hanya menjadi ketara dalam aplikasi kompleks yang melancarkan berbilang tugas pemprosesan dan memindahkan sejumlah besar data di antara mereka. Ini telah membawa kepada perbincangan berterusan tentang sama ada analisis prestasi semasa benar-benar mewakili apa yang pengguna boleh jangkakan daripada Blackwell dalam aplikasi praktikal.

OpenCL (Open Computing Language) adalah rangka kerja untuk menulis program yang berjalan merentasi pelbagai jenis pemproses, manakala CUDA adalah platform pengkomputeran selari proprietari Nvidia .

Kerumitan Pembuatan dan Ketumpatan Transistor

Spesifikasi teknikal Blackwell mendedahkan nombor yang mengagumkan, tetapi ia juga menyerlahkan cabaran pembuatan. Dengan 208 bilion transistor yang dipadatkan ke dalam die 750mm² menggunakan proses 4NP TSMC , cip ini mewakili pencapaian kejuruteraan yang ketara. Pengiraan komuniti mencadangkan saiz transistor sekitar 85nm x 85nm, walaupun pakar menyatakan bahawa kadar penggunaan sebenar biasanya hanya mencapai 70-75% disebabkan oleh ruang yang diperlukan untuk pendawaian dan keperluan pembuatan.

Proses pembuatan melibatkan berbilang lapisan pendawaian logam yang disusun di atas transistor, mewujudkan struktur tiga dimensi yang kompleks. Peraturan reka bentuk memerlukan ruang tambahan untuk diod antena dan elemen perlindungan lain untuk memastikan pengeluaran yang berjaya dan kadar hasil yang baik. Faktor-faktor ini menyumbang kepada saiz die keseluruhan dan kos pembuatan.

Rantaian Bekalan dan Kedudukan Pasaran

Ketersediaan pengguna kekal sebagai isu berterusan, dengan kekurangan berterusan menjejaskan pasaran permainan. Punca utama nampaknya adalah permintaan besar-besaran daripada syarikat AI yang sanggup membayar harga premium untuk peruntukan wafer. Ini telah menjadikan GPU pengguna kurang menarik untuk dihasilkan dari perspektif perniagaan, membawa kepada harga yang lebih tinggi dan ketersediaan terhad.

Pemahaman saya ialah permintaan AI dan kesanggupan membayar wang gila untuk wafer yang menjadikan GPU pengguna produk yang jauh kurang menarik untuk dihasilkan.

Isu kawalan kualiti terkini, termasuk ROP (Render Output Units) yang hilang dalam sesetengah kad pengguna, telah merumitkan lagi situasi bekalan. Kecacatan ini telah memaksa pemulangan dan pertukaran, memberikan tekanan tambahan pada inventori yang sudah terhad.

ROP adalah komponen khusus dalam GPU yang bertanggungjawab untuk pemprosesan piksel akhir dan output ke paparan.

Perbandingan Pasaran GPU (Kepadatan Kuasa):

Nvidia RTX 5090: 575W kuasa puncak, 750mm² die
Intel Core Ultra 285K: 250W kuasa puncak, 243mm² die
Kuasa per kawasan: CPU menggunakan 25% lebih kuasa per mm² berbanding GPU
Nota: CPU termasuk lapisan penyebar haba tambahan, GPU menggunakan penyejukan die terus

Pertimbangan Seni Bina Masa Depan

Melihat ke hadapan, perbincangan telah muncul tentang sama ada Nvidia patut membangunkan pemproses yang lebih khusus serupa dengan TPU (Tensor Processing Units) Google . Ini akan kurang boleh diprogramkan tetapi berpotensi lebih cekap untuk tugas inferens AI . Walau bagaimanapun, teras tensor semasa Nvidia sudah menggabungkan tatasusunan sistolik kecil, dan pelaburan ekosistem kukuh syarikat menjadikan perubahan seni bina dramatik tidak mungkin dalam jangka masa terdekat.

Perdebatan ini mencerminkan persoalan yang lebih luas tentang masa depan reka bentuk GPU kerana beban kerja AI terus mendominasi pasaran. Walaupun Blackwell mewakili evolusi seni bina GPU tradisional, sesetengah pihak tertanya-tanya sama ada pendekatan yang lebih khusus mungkin lebih baik melayani pasaran inferens yang berkembang.

Konsensus komuniti mencadangkan bahawa walaupun Blackwell menawarkan spesifikasi yang mengagumkan di atas kertas, penilaian prestasi dunia sebenar kekal mencabar disebabkan oleh batasan penanda aras dan sifat kompleks beban kerja pengiraan moden. Apabila seni bina matang dan lebih banyak metodologi ujian yang pelbagai muncul, gambaran yang lebih jelas tentang keupayaan sebenar Blackwell sepatutnya berkembang.

Rujukan: Blackwell: Nvidia's Intensive GPU