Komuniti teknologi sedang hangat berdebat mengenai ekonomi perkakasan Cerebras Systems berikutan pengumuman syarikat tersebut untuk mengehoskan Qwen3-235B pada kelajuan yang tidak pernah dicapai sebelum ini. Walaupun Cerebras membanggakan prestasi 1,500 token sesaat, pembangun sedang mengira nombor yang melukiskan gambaran yang membimbangkan tentang kos asas.
Spesifikasi Teknikal
- Model: Qwen3-235B dengan sokongan konteks 131K
- Prestasi: 1,500 token per saat
- Keperluan Memori: ~2TB untuk ketepatan fp16 penuh
- Cerebras SRAM setiap cip: 44GB
- Harga: $0.60 per juta token input, $1.20 per juta token output
Analisis Kos Perkakasan Mencetuskan Kebimbangan Besar
Ahli komuniti telah mengira bahawa menjalankan Qwen3-235B dengan konteks penuh 131K memerlukan pelaburan perkakasan yang besar. Satu analisis terperinci mencadangkan bahawa menyimpan model dalam SRAM memerlukan 45 cip Cerebras pada harga 3 juta dolar Amerika setiap satu, berjumlah 135 juta dolar Amerika. Sebaliknya, dua sistem NVIDIA DGX B200 dengan memori 2.8TB boleh mengendalikan beban kerja yang sama dengan kos sekitar 1 juta dolar Amerika - perbezaan kos yang mengejutkan sebanyak 135 kali ganda.
Walau bagaimanapun, wakil Cerebras telah menolak pengiraan ini, dengan pegawai syarikat menyatakan bahawa angka 3 juta dolar Amerika setiap cip adalah sangat tidak tepat. Syarikat tersebut masih belum memberikan butiran harga sebenar, meninggalkan komuniti untuk membuat spekulasi tentang kos sebenar.
SRAM (Static Random Access Memory) adalah memori dalam cip yang sangat pantas yang membolehkan akses data yang cepat tetapi jauh lebih mahal daripada jenis memori tradisional.
Perbandingan Kos Perkakasan
- Penyelesaian Cerebras : 45 cip × $3J USD = $135J USD (dipertikaikan oleh syarikat)
- Alternatif NVIDIA : 2× sistem DGX B200 = $1J USD
- Perbezaan Kos: 135x lebih mahal untuk pendekatan Cerebras
Perdebatan Seni Bina Memori Semakin Sengit
Perbincangan telah berkembang menjadi penyelidikan teknikal mendalam tentang seni bina memori. Sesetengah ahli komuniti berhujah bahawa Cerebras tidak perlu menyimpan keseluruhan model dalam SRAM , sebaliknya menggunakan sistem MemoryX mereka untuk mengalirkan data dari memori jalur lebar luar. Pendekatan ini akan mengurangkan keperluan perkakasan dengan ketara sambil mengekalkan kelebihan kelajuan.
Pengkritik menunjukkan bahawa jika Cerebras bergantung pada memori luaran seperti persediaan GPU tradisional, kelebihan asas pendekatan skala wafer mereka akan berkurangan. Faedah teras memori dalam cip yang besar akan hilang jika sistem kerap mengakses storan luar cip.
Persoalan Kuantisasi Masih Tidak Terjawab
Satu lagi kebimbangan utama berpusat pada kuantisasi model - proses mengurangkan keperluan memori dengan menggunakan nombor ketepatan yang lebih rendah. Sistem AI moden biasanya menggunakan 6-8 bit setiap pemberat berbanding ketepatan penuh 16-bit, mengurangkan keperluan memori secara dramatik tanpa kehilangan kualiti yang ketara.
Tidak ada sebab untuk menjalankan model untuk inferens pada fp16 statik, format kuantisasi moden secara dinamik memberikan ketepatan kepada lapisan yang memerlukannya, purata 6bpw adalah praktikal yang tidak dapat dibezakan daripada ketepatan penuh.
Cerebras tidak mendedahkan kaedah kuantisasi yang mereka gunakan untuk Qwen3-235B , meninggalkan pembangun tidak pasti tentang keperluan perkakasan sebenar dan sama ada dakwaan prestasi berdasarkan model yang dioptimumkan atau ketepatan penuh.
Kesan Kuantisasi Terhadap Memori
- Ketepatan penuh (fp16): 100% penggunaan memori
- Kuantisasi 8-bit: ~50% pengurangan memori
- Kuantisasi 6-bit: ~62.5% pengurangan memori
- Ketepatan campuran moden: Berbeza mengikut kepentingan lapisan
Semakan Realiti Pasaran
Walaupun pencapaian teknikal, ramai pembangun mempersoalkan cadangan nilai praktikal. Kelajuan yang melampau mungkin hanya masuk akal untuk aplikasi khusus seperti perdagangan frekuensi tinggi atau analisis kewangan masa nyata, di mana milisaat lebih penting daripada kos.
Untuk aliran kerja pembangunan biasa, komuniti nampaknya berpecah antara keseronokan tentang respons AI yang hampir serta-merta dan keraguan tentang membayar harga premium untuk peningkatan kelajuan. Perdebatan mencerminkan persoalan yang lebih luas tentang sama ada pelaburan infrastruktur AI semasa adalah mampan atau mewakili satu lagi gelembung teknologi.
Kontroversi ini menyerlahkan bagaimana pencapaian teknikal yang mengagumkan sekalipun boleh menghadapi penelitian apabila ekonomi asas tidak sejajar dengan jangkaan pasaran. Memandangkan kos infrastruktur AI terus meningkat, syarikat seperti Cerebras mesti mengimbangi prestasi canggih dengan kemampuan praktikal.
Rujukan: Cerebras Launches Qwen3-235B: World's Fastest Frontier Al Model with Full 131K Context Support