Gemma 3n Google Mendakwa Prestasi 60 FPS pada Pixel, Tetapi Ujian Dunia Sebenar Menunjukkan 0.16 FPS

Pasukan Komuniti BigGo
Gemma 3n Google Mendakwa Prestasi 60 FPS pada Pixel, Tetapi Ujian Dunia Sebenar Menunjukkan 0.16 FPS

Google baru-baru ini melancarkan Gemma 3n, model AI pada peranti baharu yang menjanjikan keupayaan multimodal yang mengagumkan untuk telefon pintar dan peranti tepi. Syarikat itu mendakwa model ini boleh memproses sehingga 60 bingkai sesaat pada peranti Google Pixel, membolehkan analisis video masa nyata dan pengalaman interaktif. Walau bagaimanapun, ujian komuniti mendedahkan jurang yang ketara antara janji pemasaran dan prestasi sebenar.

Memperkenalkan Gemma 3n : model AI dalam peranti baharu Google untuk telefon pintar
Memperkenalkan Gemma 3n : model AI dalam peranti baharu Google untuk telefon pintar

Dakwaan Prestasi Tidak Sepadan dengan Ujian Dunia Sebenar

Apabila pembangun memuat turun aplikasi demo rasmi Google dan mengujinya pada peranti Pixel sebenar, hasilnya sangat berbeza daripada spesifikasi yang diiklankan. Daripada 60 bingkai sesaat yang dijanjikan, ujian dunia sebenar menunjukkan model memproses pada hanya 0.16 bingkai sesaat - kira-kira 375 kali lebih perlahan daripada yang didakwa. Seorang penguji mendapati bahawa model 2B mengambil masa 6.2 hingga 7.5 saat hanya untuk mula bertindak balas kepada input imej, dengan kelajuan penjanaan hanya 4-5 token sesaat.

Percanggahan ini nampaknya berpunca daripada had teknikal yang tidak dijelaskan dengan jelas oleh Google. Walaupun sistem dalaman Google boleh mengakses unit pemprosesan Tensor secara langsung melalui proses sistem istimewa, pembangun pihak ketiga dan juga aplikasi demo awam Google sendiri terhad kepada inferens CPU sahaja. Ini mewujudkan jurang prestasi yang besar yang menjadikan keupayaan masa nyata yang diiklankan pada dasarnya tidak boleh digunakan untuk kebanyakan pembangun.

Perbandingan Prestasi: Dakwaan berbanding Sebenar

  • Dakwaan Google: 60 bingkai sesaat pada Google Pixel
  • Ujian Dunia Sebenar: 0.16 bingkai sesaat (375 kali lebih perlahan)
  • Masa Tindak Balas: 6.2-7.5 saat untuk memulakan pemprosesan
  • Penjanaan Token: 4-5 token sesaat
Prestasi MMLU berbanding Saiz Model: Menonjolkan kebimbangan prestasi Gemma 3n
Prestasi MMLU berbanding Saiz Model: Menonjolkan kebimbangan prestasi Gemma 3n

Inovasi Seni Bina Menunjukkan Potensi Walaupun Terdapat Isu Prestasi

Walaupun terdapat kebimbangan prestasi, Gemma 3n memperkenalkan beberapa inovasi teknikal yang menarik. Model ini menggunakan seni bina MatFormer berdasarkan konsep anak patung Matryoshka - di mana model yang lebih kecil dan berfungsi disarangkan dalam model yang lebih besar. Ini membolehkan pembangun mengekstrak model bersaiz berbeza daripada satu proses latihan, menawarkan fleksibiliti dalam mengimbangi prestasi dan keupayaan.

Model ini juga menampilkan teknologi Per-Layer Embeddings (PLE), yang membantu mengurangkan penggunaan memori dengan menyimpan parameter tertentu pada CPU dan bukannya dalam memori pemecut. Untuk varian E2B, ini bermakna hanya kira-kira 1 bilion parameter perlu dimuatkan ke dalam memori berkelajuan tinggi, walaupun jumlah model mengandungi 5 bilion parameter.

MatFormer: Seni bina transformer bersarang di mana model yang lebih kecil terkandung dalam model yang lebih besar, serupa dengan anak patung Russia bersarang Per-Layer Embeddings (PLE): Teknik yang memisahkan parameter model antara memori CPU dan pemecut untuk mengurangkan keperluan memori

Inovasi Teknikal

  • Seni Bina MatFormer: Transformer bersarang dengan model yang lebih kecil terkandung dalam model yang lebih besar
  • Per-Layer Embeddings (PLE): Membahagikan parameter antara memori CPU dan pemecut
  • Perkongsian KV Cache: Peningkatan 3x dalam prestasi prefill berbanding Gemma 3 4B
  • MobileNet-V5: Pengekod penglihatan baharu yang menyokong resolusi 256x256, 512x512, dan 768x768

Penerimaan Komuniti dan Keserasian

Komuniti pembangun telah pantas menyesuaikan Gemma 3n untuk pelbagai platform dan kes penggunaan. Beberapa pembangun telah mencipta versi yang dioptimumkan untuk rangka kerja yang berbeza, termasuk format GGUF untuk llama.cpp dan varian MLX untuk peranti Apple Silicon. Model ini menunjukkan keserasian yang baik dengan aliran kerja penalaan halus sedia ada, dengan beberapa pembangun melaporkan integrasi yang berjaya ke dalam skrip sedia ada mereka tanpa pengubahsuaian.

Walau bagaimanapun, komuniti juga telah membangkitkan kebimbangan tentang konvensyen penamaan Google dan kekeliruan antara Gemma (pemberat terbuka) dan Gemini Nano (API Android). Kekeliruan ini meluas kepada soalan pelesenan, kerana sesetengah pembangun mempertikaikan sama ada pemberat model AI sebenarnya boleh dilindungi hak cipta di bawah undang-undang AS semasa.

Kedudukan Skor Elo LMArena yang menyerlahkan prestasi Gemma 3n di antara pesaing-pesaingnya
Kedudukan Skor Elo LMArena yang menyerlahkan prestasi Gemma 3n di antara pesaing-pesaingnya

Aplikasi Praktikal Kekal Terhad

Walaupun Google mempromosikan Gemma 3n untuk aplikasi masa nyata seperti pengecaman pertuturan, analisis video, dan interaksi multimodal, had prestasi sebenar sangat mengehadkan kes penggunaan praktikal. Model ini berfungsi lebih baik untuk tugas luar talian seperti pemprosesan dokumen, analisis data peribadi, dan situasi di mana sambungan rangkaian terhad atau privasi menjadi kebimbangan.

Bagi saya? Mengendalikan data seperti memo suara peribadi, gambar, video, maklumat kalendar, e-mel, beberapa kod dll. Perkara yang saya tidak mahu kongsi di internet.

Jurang antara dakwaan pemasaran Google dan prestasi yang boleh disampaikan menimbulkan persoalan tentang bagaimana syarikat sepatutnya menyampaikan keupayaan AI, terutamanya apabila had teknikal menghalang pembangun pihak ketiga daripada mencapai hasil yang sama seperti demonstrasi dalaman.

Spesifikasi Model Gemma 3n

  • Model E2B: 5 bilion jumlah parameter, ~1 bilion dalam memori pemecut
  • Model E4B: 6 bilion jumlah parameter, ~4 bilion dalam memori pemecut
  • Keperluan Memori: 2GB (E2B) dan 5GB (E4B)
  • Input yang Disokong: Imej, audio, video, dan teks
  • Sokongan Bahasa: 145 bahasa untuk teks, 35 untuk multimodal

Kesimpulan

Gemma 3n mewakili langkah menarik ke hadapan dalam teknologi AI pada peranti, dengan seni bina inovatif dan keupayaan multimodal. Walau bagaimanapun, ketidakselarasan yang ketara antara dakwaan prestasi Google dan apa yang sebenarnya boleh dicapai oleh pembangun menyerlahkan cabaran berterusan dalam industri AI sekitar ketelusan dan jangkaan yang realistik. Sehingga Google menyediakan akses yang lebih baik kepada pecutan perkakasan untuk pembangun pihak ketiga, keupayaan masa nyata yang dijanjikan sebahagian besarnya kekal teori untuk kebanyakan kes penggunaan.

Rujukan: Introducing Gemma 3n: The developer guide