Para penyelidik telah berjaya menunjukkan serangan Rowhammer pertama yang menyasarkan memori GPU, khususnya mempengaruhi kad grafik NVIDIA RTX A6000. Serangan terobosan ini, yang digelar GPUHammer, mewakili pengembangan ketara kelemahan keselamatan berasaskan memori daripada sistem CPU tradisional kepada perkakasan GPU moden yang digunakan secara meluas dalam beban kerja AI dan pembelajaran mesin.
Pasukan penyelidik berjaya menginduksi bit flip merentasi semua bank DRAM yang diuji dalam memori GDDR6 A6000, walaupun terdapat langkah keselamatan terbina dalam seperti Target Row Refresh (TRR). Demonstrasi mereka yang paling mengejutkan menunjukkan bagaimana satu bit yang rosak boleh memusnahkan model pembelajaran mesin, mengurangkan ketepatan daripada 80% kepada hanya 0.1% merentasi lima rangkaian neural ImageNet yang berbeza.
Prestasi Serangan:
- Kiraan pengaktifan minimum (TRH): ~12K pengaktifan
- Bit flip yang diperhatikan: 8 bit flip tunggal yang berbeza
- Kemerosotan ketepatan model ML: Daripada 80% kepada 0.1% dengan satu bit flip
- Model yang terjejas: 5 model DNN ImageNet berbeza yang diuji
![]() |
---|
Gambaran keseluruhan penyelidikan GPUHammer , menonjolkan implikasi serangan Rowhammer terhadap memori GPU |
Cabaran Teknikal dan Daya Tarikan Komuniti
Persekitaran GPU memberikan halangan unik berbanding serangan Rowhammer berasaskan CPU tradisional. Memori GDDR6 beroperasi dengan kependaman yang lebih tinggi dan kadar refresh yang lebih pantas daripada DDR4, menjadikan masa yang tepat yang diperlukan untuk serangan yang berjaya lebih sukar dicapai. Selain itu, GPU NVIDIA tidak mendedahkan alamat memori fizikal kepada kod peringkat pengguna, memaksa penyelidik untuk merekayasa balik pemetaan memori melalui analisis masa.
Pencapaian teknikal ini telah mencetuskan perbincangan falsafah dalam komuniti keselamatan tentang sifat kelemahan perkakasan. Sesetengah pemerhati mendapati serangan ini amat menarik kerana ia mengeksploitasi fizik asas yang mendasari sistem komputer dan bukannya pepijat perisian atau kecacatan reka bentuk.
Anda melarikan diri dari alam semesta maya tertutup bukan dengan 'memecah keluar' dalam erti kata tradisional, mengeksploitasi beberapa pepijat dalam sempadan hypervisor VM itu sendiri, tetapi dengan memanipulasi fizik asas alam semesta secara langsung di mana alam semesta maya itu diasaskan, hanya dengan mencipta corak di dalam alam semesta maya itu sendiri.
Perkakasan yang Terjejas:
- NVIDIA RTX A6000 (48 GB GDDR6) - Terdedah
- NVIDIA RTX 3080 - Tidak terjejas dalam ujian
- NVIDIA A100 (memori HBM) - Tidak terjejas
- NVIDIA H100 (HBM3) - Dilindungi oleh ECC on-die
- RTX 5090 (GDDR7) - Dilindungi oleh ECC on-die
![]() |
---|
Ilustrasi pemprosesan selari dalam pengkomputeran GPU yang berkaitan dengan metodologi serangan GPUHammer |
Kesan Dunia Sebenar dan Kebimbangan Mitigasi
Implikasi praktikal GPUHammer kekal agak terhad disebabkan corak penggunaan GPU semasa. Penyedia awan utama seperti AWS, Google Cloud, dan Microsoft Azure biasanya memperuntukkan keseluruhan GPU kepada penyewa individu dan bukannya berkongsi antara berbilang pengguna. Pengasingan ini mengurangkan permukaan serangan dengan ketara, kerana kod berniat jahat perlu berjalan bersama beban kerja mangsa pada perkakasan fizikal yang sama.
Walau bagaimanapun, penyelidikan ini menyerlahkan kebimbangan yang semakin meningkat tentang keselamatan GPU kerana pemproses ini menjadi semakin penting kepada infrastruktur AI. Serangan ini berfungsi melalui kod CUDA standard yang berpotensi boleh dilaksanakan oleh mana-mana pengguna GPU, menjadikannya boleh diakses oleh penyerang yang mempunyai akses GPU yang sah.
NVIDIA telah mengakui kelemahan tersebut dan mengesyorkan membolehkan Error Correction Codes (ECC) sebagai strategi mitigasi. Walaupun ECC boleh mencegah bit flip tunggal seperti yang ditunjukkan dalam penyelidikan, ia datang dengan kos prestasi sehingga 10% dan mengurangkan kapasiti memori yang tersedia sebanyak 6.25% pada sistem yang terjejas.
Kos Mitigasi ECC:
- Impak prestasi: Sehingga 10% kelembapan untuk inferens ML
- Pengurangan kapasiti memori: 6.25% pada A6000
- Arahan untuk membolehkan:
nvidia-smi -e 1
(memerlukan but semula)
![]() |
---|
Metrik prestasi yang menggambarkan kesan Kod Pembetulan Ralat ( ECC ) dalam mencegah serangan Rowhammer pada memori GPU |
Evolusi Perkakasan dan Pandangan Masa Depan
Kelemahan ini nampaknya terhad kepada konfigurasi perkakasan tertentu. Ujian mendedahkan bahawa hanya NVIDIA A6000 dengan memori GDDR6 menunjukkan kerentanan kepada serangan, manakala GPU lain termasuk RTX 3080 dan A100 dengan memori HBM kekal tidak terjejas. Variasi ini berkemungkinan berpunca daripada perbezaan dalam vendor memori, ciri-ciri cip, dan keadaan operasi.
Generasi GPU yang lebih baru mungkin menawarkan perlindungan yang lebih baik. H100 dan RTX 5090 yang akan datang menampilkan ECC on-die yang sepatutnya menyamarkan bit flip tunggal, walaupun penyelidik menyatakan bahawa varian serangan multi-bit masa depan berpotensi memintas perlindungan sedemikian.
Penyelidikan ini menggariskan ketegangan berterusan dalam reka bentuk perkakasan antara pengoptimuman prestasi dan keteguhan keselamatan. Pengilang memori telah lama mengetahui tentang isu sensitiviti corak yang membolehkan serangan Rowhammer, tetapi tekanan pasaran secara historis mengutamakan memori yang lebih pantas dan padat berbanding alternatif yang lebih selamat. Seperti yang dinyatakan oleh seorang ahli komuniti, industri menghadapi masalah eksternaliti ekonomi klasik di mana pengilang tidak bertanggungjawab atas kecuaian keselamatan, yang membawa kepada penggunaan meluas perkakasan yang terdedah.
Penyelidikan GPUHammer berfungsi sebagai pencapaian teknikal dan amaran tentang permukaan serangan yang berkembang apabila GPU menjadi lebih penting kepada infrastruktur pengkomputeran. Walaupun risiko praktikal segera nampaknya terhad, kerja ini menunjukkan bahawa tiada platform pengkomputeran kekal kebal daripada teknik eksploitasi peringkat perkakasan yang kreatif.
Rujukan: GPUHammer: Rowhammer Attacks on GPU Memories are Practical