Satu demonstrasi terkini menjalankan model AI berparameter 30 bilion merentasi empat peranti Raspberry Pi 5 telah mencetuskan perbincangan mengenai kepraktisan dan keberkesanan kos pengkomputeran teragih untuk aplikasi AI. Susunan tersebut mencapai 13.04 token sesaat untuk penjanaan teks menggunakan model Qwen3, menunjukkan potensi pengklusteran komputer papan tunggal mampu milik untuk beban kerja AI.
Spesifikasi Model:
- Model: Qwen3 30B A3B Q40 (terkuantisasi)
- Seni bina: Mixture of Experts (MOE)
- Keperluan memori: 5,513 MB
- Lapisan: 48
- Panjang konteks: 4,096 token (dikurangkan daripada 262,144 asal)
- Kuantisasi: format Q40
Semakan Realiti Prestasi vs Harga
Respons komuniti mendedahkan perpecahan yang ketara mengenai sama ada pendekatan ini masuk akal dari segi kewangan. Pengkritik menunjukkan bahawa satu kad grafik NVIDIA RTX 5060Ti, berharga 430 dolar Amerika Syarikat, akan memberikan lebih 60 token sesaat - hampir lima kali lebih pantas daripada kluster Raspberry Pi bernilai 550 dolar Amerika Syarikat. Jurang prestasi ini menimbulkan persoalan mengenai bila pengkomputeran teragih menjadi berbaloi untuk aplikasi AI.
Walau bagaimanapun, penyokong berhujah bahawa nilai sebenar terletak bukan pada prestasi mentah tetapi pada kebolehcapaian dan peluang pembelajaran. Demonstrasi ini membuktikan bahawa model AI yang canggih boleh dijalankan pada perkakasan yang mudah didapati, membuka pintu untuk projek pendidikan dan eksperimen tanpa memerlukan kad grafik yang mahal.
Perbandingan Prestasi:
Perkakasan | Kos (USD) | Prestasi | Token/Saat |
---|---|---|---|
Kluster 4x RPi 5 | $550 | 13.04 tok/s | Teragih |
RTX 5060Ti | $430 | 60+ tok/s | GPU Tunggal |
M1 Max 64GB (terpakai) | <$1,500 | Tidak dinyatakan | Memori bersatu |
Pendekatan Alternatif Mendapat Perhatian
Perbincangan ini juga telah menyerlahkan penyelesaian alternatif yang mungkin menawarkan nilai yang lebih baik. Beberapa ahli komuniti mencadangkan bahawa MacBook Apple Silicon terpakai dengan memori bersepadu boleh menyediakan laluan yang lebih kos efektif untuk menjalankan model AI besar secara tempatan. M1 Max 2021 dengan memori bersepadu 64GB boleh didapati dengan harga di bawah 1,500 dolar Amerika Syarikat, menawarkan kapasiti memori yang besar pada penggunaan kuasa peringkat komputer riba.
Pendekatan ini menangani salah satu batasan utama susunan desktop tradisional - kos tinggi dan penggunaan kuasa kad grafik dengan memori yang mencukupi untuk model besar. Seni bina memori bersepadu Apple membolehkan keseluruhan memori sistem digunakan untuk beban kerja AI, berpotensi menjadikannya lebih cekap daripada susunan teragih.
Batasan Teknikal dan Kebimbangan Penskalaan
Perbincangan komuniti mendedahkan pertimbangan teknikal penting mengenai penskalaan sistem AI teragih. Latensi rangkaian menjadi kesesakan yang ketara apabila lebih banyak peranti ditambah kepada kluster. Susunan semasa memproses lapisan secara berurutan merentasi peranti, yang bermaksud menambah lebih banyak unit Raspberry Pi tidak semestinya memberikan peningkatan prestasi linear.
Isu keserasian model juga muncul sebagai kebimbangan utama. Walaupun perisian distributed-llama yang digunakan dalam demonstrasi ini berfungsi dengan baik, ia menyokong bilangan model AI yang terhad berbanding penyelesaian lain. Sekatan ini boleh mengehadkan aplikasi praktikal susunan sedemikian untuk pengguna yang ingin bereksperimen dengan model berbeza.
Persediaan Perkakasan:
- 4x peranti Raspberry Pi 5 8GB
- Suis rangkaian TP-Link LS1008G
- Jumlah kos: ~$550 USD
- Penggunaan kuasa: Rendah (angka tepat tidak dinyatakan)
Implikasi Masa Depan untuk Edge Computing
Walaupun terdapat batasan semasa, demonstrasi ini mewakili langkah penting ke arah menjadikan AI lebih mudah diakses di pinggir rangkaian. Keupayaan untuk menjalankan model canggih tanpa sambungan internet membuka kemungkinan untuk aplikasi terbenam, alat pendidikan, dan sistem AI yang berfokuskan privasi.
Perdebatan ini mencerminkan persoalan yang lebih luas mengenai masa depan penggunaan AI - sama ada perkhidmatan awan berpusat akan mendominasi atau jika model teragih yang dijalankan secara tempatan akan menemui niche mereka dalam aplikasi khusus di mana privasi, latensi, atau operasi luar talian lebih penting daripada prestasi mentah.
Rujukan: [v0.16.0] Qwen3 30B A3B Q40 on 4 x Raspberry Pi 5 8GB