Prestasi Flash Attention NVIDIA RTX 5090 Tidak Memenuhi Jangkaan Walaupun Kemajuan Perkakasan

Pasukan Komuniti BigGo
Prestasi Flash Attention NVIDIA RTX 5090 Tidak Memenuhi Jangkaan Walaupun Kemajuan Perkakasan

Pasaran GPU permainan sedang menyaksikan perubahan menarik apabila NVIDIA RTX 5090 terbaru menghadapi cabaran yang tidak dijangka dalam beban kerja pembelajaran mesin, terutamanya dengan pelaksanaan Flash Attention. Walaupun kad ini mempamerkan spesifikasi yang mengagumkan di atas kertas, prestasi dunia sebenar menceritakan kisah yang berbeza dan menarik perhatian pembangun serta penyelidik.

Analisis corak akses memori yang menyerlahkan potensi kesesakan dalam beban kerja pembelajaran mesin pada RTX 5090
Analisis corak akses memori yang menyerlahkan potensi kesesakan dalam beban kerja pembelajaran mesin pada RTX 5090

Batasan Prestasi Walaupun Perkakasan Canggih

Prestasi teori BF16 RTX 5090 mencapai 209.5 TFLOPs, tetapi ini mewakili kurang daripada 10% daripada kad gred pelayan Blackwell seperti B200, yang menyampaikan 2,250 TFLOPs. Yang lebih membimbangkan bagi pembangun ialah prestasi Flash Attention pada 5090 kelihatan lebih teruk daripada kad seni bina Hopper generasi sebelumnya, walaupun dibina pada teknologi Blackwell yang lebih baharu.

Jurang prestasi ini berpunca daripada sekatan sengaja NVIDIA pada kad permainan. Bermula dengan RTX 4090, syarikat ini mengehadkan prestasi tensor core khusus untuk operasi latihan pembelajaran mesin. Pendaraban matriks FP8 dan FP16 berjalan pada kelajuan penuh hanya apabila terkumpul dalam FP16, tetapi jatuh kepada separuh kelajuan dengan pengumpulan FP32 - sekatan yang tidak wujud pada kad kelas stesen kerja.

TFLOPs: Trillion Floating Point Operations Per Second, ukuran prestasi pengiraan Tensor Cores: Unit pemprosesan khusus yang direka untuk pengiraan AI dan pembelajaran mesin

Perbandingan Prestasi: RTX 5090 vs B200

Spesifikasi RTX 5090 B200
BF16 TFLOPs 209.5 2,250
Harga (USD) ~$2,000 $30,000-40,000
TFLOPs setiap $1K 105 56
Lebar Jalur Memori ~2TB/s Tidak dinyatakan
Sokongan NVLink Tidak Ya
Pengumpulan FP32 Separuh kelajuan Kelajuan penuh

Analisis Kos-Prestasi Mendedahkan Keputusan Mengejutkan

Apabila meneliti prestasi setiap dolar, ekonomi menjadi lebih kompleks. RTX 5090 menyampaikan kira-kira 105 TFLOPs setiap 1,000 dolar Amerika, manakala B200 menyediakan 56 TFLOPs setiap 1,000 dolar Amerika berdasarkan titik harga 30,000-40,000 dolar Amerika. Walau bagaimanapun, kelebihan yang jelas ini hilang apabila mempertimbangkan cabaran penggunaan praktikal.

Mendapat hanya 2x FLOP setiap dolar mungkin tidak berbaloi dengan kerumitan perlu memasang 10x lebih banyak GPU, sambil tidak mempunyai NVLink.

Ketiadaan sambungan NVLink pada kad pengguna mewujudkan kesesakan yang ketara untuk persediaan berbilang GPU. Selain itu, penggunaan kuasa menjadi faktor utama apabila membandingkan satu B200 dengan sepuluh RTX 5090 yang diperlukan untuk kuasa pengiraan yang setara.

NVLink: Teknologi sambungan berkelajuan tinggi NVIDIA untuk komunikasi GPU-ke-GPU

Perwakilan visual kekangan prestasi dalam seni bina GPU , menekankan potensi cabaran kecekapan dalam persediaan berbilang- GPU
Perwakilan visual kekangan prestasi dalam seni bina GPU , menekankan potensi cabaran kecekapan dalam persediaan berbilang- GPU

Cabaran Pelaksanaan dan Penyelesaian Sementara

Pembangun yang cuba melaksanakan Flash Attention pada kad RTX 5090 telah menghadapi pelbagai isu keserasian. Seni bina Blackwell yang lebih baharu menggunakan pelaksanaan Blackwell palsu tanpa sokongan tcgen05, mengehadkan saiz pendaraban matriks dan daya pemprosesan melalui tensor core. Ini mewujudkan kesesakan prestasi yang tidak dijangka walaupun kod berjaya dikompil.

Keadaan bertambah baik sedikit dengan operasi ketepatan rendah. Pengiraan MXFP4 boleh berjalan pada daya pemprosesan penuh pada RTX 5090, tetapi memerlukan teknik yang lebih canggih untuk mengekalkan kestabilan latihan. Trend semasa ke arah latihan ketepatan rendah mungkin membantu mengurangkan beberapa batasan prestasi, walaupun pengumpulan FP32 kekal penting untuk banyak aplikasi.

Batasan Teknikal Utama RTX 5090

  • Sekatan Tensor Core: Operasi FP16/FP8 berjalan pada separuh kelajuan dengan pengumpulan FP32
  • Ciri Perkakasan Hilang: Tiada sokongan tcgen05 mengehadkan keupayaan pendaraban matriks
  • Tiada NVLink: Menghalang komunikasi multi-GPU yang cekap
  • Isu Flash Attention: Prestasi lebih teruk daripada seni bina Hopper sebelumnya
  • Pelaksanaan Blackwell: Menggunakan Blackwell "palsu" tanpa set ciri penuh

Implikasi Pasaran dan Prospek Masa Depan

Ciri-ciri prestasi ini menunjukkan bahawa strategi NVIDIA untuk membezakan produk permainan dan pusat data menjadi lebih ketara. Zaman apabila kad permainan menawarkan alternatif kos efektif untuk beban kerja pembelajaran mesin nampaknya berakhir. Walaupun RTX 5090 menyediakan lebar jalur memori yang murah hati menghampiri 2TB/s, batasan pengiraannya menjadikannya kurang menarik untuk pembangunan AI yang serius.

Keadaan ini menyerlahkan kerumitan yang semakin meningkat dalam penilaian prestasi GPU melebihi kiraan FLOP mudah. Pengkomputeran prestasi tinggi moden memerlukan pertimbangan hierarki memori, keupayaan penghantaran arahan, dan ciri perkakasan khusus yang berbeza dengan ketara antara barisan produk.

Bagi pembangun yang bekerja dengan Flash Attention dan beban kerja serupa, pilihan antara perkakasan pengguna dan profesional kini melibatkan pertukaran yang lebih bernuansa daripada yang mungkin dicadangkan oleh pengiraan kos-setiap-FLOP mudah.

Rujukan: Writing: Speed-of-Light Flash Attention for SD90 in CUDA C++