Pengkompil MPE Mencapai Inferens LLM 1.7x Lebih Pantas dengan Teknologi Megakernel Fusion

Pasukan Komuniti BigGo

Pengkompil MPE Mencapai Inferens LLM 1.7x Lebih Pantas dengan Teknologi Megakernel Fusion

Satu pasukan penyelidik dari CMU , UIUC , Berkeley , NVIDIA , dan Tsinghua University telah membangunkan sistem pengkompil terobosan yang meningkatkan kelajuan inferens model bahasa besar secara dramatik. Sistem Mirage Persistent Kernel ( MPK ) secara automatik mengubah operasi LLM menjadi satu megakernel tunggal yang berjalan sepenuhnya pada perkakasan GPU , memberikan peningkatan prestasi 1.2 hingga 1.7 kali lebih pantas daripada sistem sedia ada.

Inovasi ini menangani ketidakcekapan asas dalam sistem LLM semasa, di mana berbilang operasi GPU berasingan mewujudkan kesesakan dan membazirkan kuasa pemprosesan. Daripada melancarkan berpuluh kernel individu untuk tugas berbeza, MPE menggabungkan semuanya menjadi satu operasi berterusan yang tidak pernah berhenti berjalan pada GPU .

Perbandingan Prestasi pada NVIDIA A100 (40GB)

Sistem tradisional ( vLLM , SGLang ): 51.5ms setiap token
Sistem MPE : 33.1ms setiap token
Minimum teoritikal: 30ms setiap token
Peningkatan prestasi: 1.2-1.7x lebih pantas

Kernel Fusion Revolusioner Menghapuskan Kesesakan Prestasi

Sistem inferens LLM tradisional mengalami kecacatan kritikal: mereka menganggap setiap operasi sebagai tugas berasingan dan lengkap yang mesti selesai sebelum yang seterusnya bermula. Ini mewujudkan tempoh menunggu yang tidak perlu di mana perkakasan GPU yang berkuasa terbiar. Komuniti telah mengiktiraf ini sebagai masalah yang telah lama wujud, dengan pembangun menyatakan bahawa penyelesaian sedia ada seperti CUDA Graphs masih mengekalkan sempadan tegar antara operasi.

Pendekatan MPE memecahkan halangan buatan ini dengan mewujudkan tugas berbutir halus yang boleh bertindih dan berjalan serentak. Sebagai contoh, sementara satu bahagian GPU memproses pengiraan matriks, bahagian lain boleh segera memulakan tugas komunikasi dengan hasil separa, daripada menunggu keseluruhan pengiraan selesai.

Sistem ini berfungsi dengan menganalisis keperluan pengiraan LLM secara automatik dan membina semula sebagai rangkaian tugas kecil yang saling berkaitan. Setiap tugas berjalan pada pemproses berbilang streaming GPU individu, dengan penjadual terbina dalam menyelaras aliran kerja tanpa sebarang campur tangan luar.

Komponen Seni Bina Sistem MPE

Workers: Melaksanakan tugasan pada pemproses berbilang aliran GPU individu (SMs)
Schedulers: Berjalan pada warp tunggal, sehingga 4 setiap SM, menguruskan barisan tugasan
Task Graph: Unit berbutir halus yang menggantikan model tradisional kernel-per-operator
Events: Titik penyegerakan antara tugasan yang membolehkan pertindihan saluran paip

Peningkatan Prestasi Mengagumkan Merentasi Persediaan GPU Tunggal dan Berbilang

Ujian pada perkakasan NVIDIA A100 menunjukkan peningkatan luar biasa dalam senario dunia sebenar. Untuk konfigurasi GPU tunggal, MPE mengurangkan masa penjanaan setiap token dari 51.5 milisaat kepada 33.1 milisaat, menghampiri kelajuan maksimum teoritikal yang mungkin memandangkan had lebar jalur memori.

Kelebihan prestasi menjadi lebih ketara dengan berbilang GPU . Sementara sistem tradisional bergelut dengan overhed penyelarasan antara kad grafik berasingan, pendekatan bersatu MPE membolehkan pertindihan lancar antara pengiraan dan komunikasi antara- GPU . Ini menjadikan teknologi tersebut amat berharga untuk penggunaan berskala besar di mana berbilang GPU bekerja bersama.

Maklum balas komuniti sangat positif, dengan pembangun yang bekerja rapat dengan sistem sedia ada seperti vLLM dan SGLang menyatakan keseronokan tentang pendekatan analisis graf kebergantungan.

Cabaran Teknikal dan Pembangunan Masa Depan

Walaupun keputusan yang mengagumkan, MPE kini menghadapi batasan yang sedang ditangani secara aktif oleh pasukan penyelidik. Sistem ini berfungsi terbaik dengan graf pengiraan statik, menjadikannya tidak serasi dengan model dinamik seperti seni bina Mixture-of-Experts yang mengubah tingkah laku berdasarkan kandungan input.

Pasukan juga sedang mengusahakan sokongan untuk seni bina GPU generasi akan datang seperti NVIDIA Blackwell , yang memberikan peluang dan cabaran pengoptimuman baharu. Dasar penjadualan lanjutan boleh meningkatkan lagi prestasi untuk kes penggunaan khusus seperti aplikasi sensitif latensi atau senario kelompok hibrid.

Projek ini adalah dari CMU . Hazy Research di Stanford turut bercakap tentang megakernel... Gembira melihat persaingan dalam bidang ini.

Landskap persaingan termasuk usaha selari dari institusi penyelidikan lain, terutamanya kumpulan Hazy Research Stanford , walaupun tumpuan MPE pada kompilasi automatik membezakannya daripada pendekatan pengoptimuman manual.

Pengkompil MPE mewakili langkah penting ke arah menjadikan inferens LLM berprestasi tinggi boleh diakses oleh pembangun tanpa memerlukan kepakaran mendalam dalam pengaturcaraan GPU . Dengan hanya beberapa dozen baris kod Python , pembangun kini boleh mengkompil model mereka menjadi megakernel yang dioptimumkan, mendemokrasikan akses kepada pengoptimuman prestasi canggih yang sebelum ini memerlukan pengetahuan khusus.

Rujukan: Compiling LLMs into a MegaKernel: A Path to Low-Latency Inference