Kernel Metal Yang Dijana AI Menunjukkan Potensi Tetapi Menghadapi Persoalan Ketepatan dalam Pengoptimuman PyTorch

Pasukan Komuniti BigGo

Kernel Metal Yang Dijana AI Menunjukkan Potensi Tetapi Menghadapi Persoalan Ketepatan dalam Pengoptimuman PyTorch

Para penyelidik telah menunjukkan penggunaan kecerdasan buatan untuk menjana kernel Metal secara automatik bagi peranti Apple , mendakwa peningkatan prestasi sehingga 87% dalam inferens PyTorch . Walau bagaimanapun, komuniti teknologi sedang membangkitkan persoalan penting mengenai metodologi dan implikasi praktikal pendekatan ini.

Penyelidikan ini dibina berdasarkan KernelBench , set data yang dikeluarkan pada November 2024 yang mengandungi sekitar 250 modul PyTorch untuk ujian penjanaan kernel. Pasukan ini menggunakan pelbagai model AI , termasuk GPT-5 , untuk menterjemah kernel CUDA sedia ada kepada kernel Metal yang boleh berjalan dengan cekap pada ekosistem perkakasan Apple .

Dakwaan Prestasi dan Metodologi:

Penambahbaikan yang dilaporkan: Sehingga 87% lebih pantas untuk inferens PyTorch
Garis dasar: Inferens PyTorch yang tidak dioptimumkan berbanding kernel Metal tersuai
Set data: ~250 modul PyTorch daripada KernelBench (dikeluarkan November 2024)
Faedah kompilasi luar talian: ~20% penambahbaikan masa pelaksanaan
Pengoptimuman sumber GPU: ~25% pengurangan dalam latensi dan kos ejen


Gambaran keseluruhan kernel Metal yang dijana AI meningkatkan prestasi inferens PyTorch pada peranti Apple

Konteks Penggunaan Mencetuskan Perdebatan

Satu perkara utama yang dibincangkan tertumpu pada perbandingan asas yang digunakan dalam penyelidikan ini. Pengkritik berhujah bahawa membandingkan inferens PyTorch yang tidak dioptimumkan dengan kernel tersuai mewujudkan kelebihan yang tidak adil, kerana PyTorch biasanya digunakan untuk prototaip dan bukannya penggunaan produksi. Dalam senario dunia sebenar, pembangun biasanya mengeksport model kepada format seperti ONNX sebelum mengkompilnya untuk peranti tertentu.

Walau bagaimanapun, penyokong membantah bahawa pendekatan ini menangani keperluan tulen dalam aliran kerja pembangunan. Banyak projek sumber terbuka, terutamanya dalam AI generatif, memang bergantung banyak pada PyTorch untuk pembangunan dan penggunaan kerana fleksibiliti dan kemudahan penggunaannya.

Kebimbangan Ketepatan Teknikal

Penyelidikan ini mendedahkan beberapa isu ketepatan yang membimbangkan dengan kernel yang dijana AI . Walaupun GPT-5 berjaya menterjemah kernel 97% daripada masa untuk operasi mudah dan 88% untuk seni bina kompleks, majoriti kernel yang dijana sebenarnya berprestasi lebih perlahan daripada pelaksanaan rujukan.

Yang lebih membimbangkan ialah toleransi longgar yang digunakan untuk ujian ketepatan. Para penyelidik membenarkan toleransi 0.01 dalam kedua-dua pengukuran ralat relatif dan mutlak apabila membandingkan output. Untuk kernel pengkomputeran berangka, toleransi ini kelihatan luar biasa tinggi dan berpotensi menyembunyikan ralat pengiraan yang ketara.

Untuk kernel berangka, ini nampaknya terlalu longgar, tetapi ternyata had tersebut datang terus daripada KernelBench , yang hanya menguji ketepatan pada 5 input rawak secara lalai dalam harnessnya, bukan 100 yang mereka gunakan di sini.

Kadar Kejayaan Model AI untuk Penjanaan Kernel Logam:

Tahap 1 (Operasi tunggal): 97% terjemahan berjaya
Tahap 3 (Seni bina kompleks): 88% terjemahan berjaya
Ujian ketepatan: 0.01 toleransi untuk ralat relatif dan mutlak
Metodologi ujian: 100 input rawak setiap kernel (berbanding 5 dalam KernelBench asal)

Pendekatan Alternatif dan Hala Tuju Masa Depan

Perbincangan komuniti juga menyentuh penyelesaian alternatif untuk pengoptimuman merentas platform. Sesetengah pembangun mencadangkan bahawa alat seperti Tinygrad atau bahasa seperti Mojo , JAX , atau Julia mungkin menawarkan penyelesaian jangka panjang yang lebih baik untuk penjanaan dan pengoptimuman kernel automatik.

Pendekatan kumpulan agentik yang disebut dalam penyelidikan, di mana pelbagai model AI menjana kernel secara selari sebelum memilih yang berprestasi terbaik, menarik sedikit keraguan. Pengkritik menyatakan bahawa hanya menjalankan lapan model berbeza dan memilih hasil terpantas, walaupun secara teknikalnya merupakan pendekatan kumpulan, mungkin tidak membenarkan terminologi tersebut.

Persoalan Pelaksanaan Praktikal

Walaupun terdapat kebimbangan teknikal, penyelidikan ini menunjukkan bahawa AI boleh berjaya menjana kernel Metal yang berfungsi untuk peranti Apple . Pendekatan ini menunjukkan potensi khusus untuk kernel Tahap 2, yang melibatkan penggabungan pelbagai operasi bersama - satu kawasan di mana mungkin terdapat lebih banyak peluang pengoptimuman berbanding operasi tunggal mudah atau seni bina penuh yang kompleks.

Para penyelidik belum lagi mengeluarkan kernel yang dijana atau kod pelaksanaan mereka, walaupun kadar kejayaan tinggi dengan GPT-5 mencadangkan bahawa pembangun berpotensi boleh menghasilkan semula keputusan yang serupa menggunakan set data KernelBench yang tersedia untuk umum.

Walaupun penyelidikan ini mewakili langkah menarik ke arah pengoptimuman kernel automatik, respons komuniti menyerlahkan keperluan untuk standard ketepatan yang lebih ketat dan perbandingan yang lebih jelas dengan amalan penggunaan sedia ada. Pendekatan ini mungkin terbukti paling berharga sebagai alat pembangunan dan bukannya pengganti untuk saluran pengoptimuman yang telah ditetapkan.

Rujukan: Speeding up PyTorch Inference by 87% on Apple devices with AI-generated Metal kernels