GPT-OSS vs Qwen3: Ujian Komuniti Mendedahkan Jurang Prestasi dalam Penggunaan Dunia Sebenar

Pasukan Komuniti BigGo

GPT-OSS vs Qwen3: Ujian Komuniti Mendedahkan Jurang Prestasi dalam Penggunaan Dunia Sebenar

Pelancaran GPT-OSS telah mencetuskan perdebatan sengit dalam komuniti AI tentang sama ada kemajuan seni bina atau kualiti data latihan lebih penting untuk prestasi model. Walaupun GPT-OSS membanggakan skor penanda aras yang mengagumkan dan penggunaan sumber yang cekap, ujian dunia sebenar oleh pembangun mendedahkan gambaran yang lebih kompleks apabila dibandingkan dengan model pesaing seperti Qwen3 .

Prestasi Penanda Aras vs Penggunaan Dunia Sebenar

Ujian komuniti telah mendedahkan jurang ketara antara pencapaian penanda aras GPT-OSS dan aplikasi praktikalnya. Pengguna melaporkan bahawa GPT-OSS kelihatan dioptimumkan khusus untuk penanda aras penaakulan, yang membawa kepada skor kukuh dalam ujian berpiawai tetapi prestasi lemah dalam tugas harian. Seorang pembangun menyatakan bahawa apabila diminta untuk mencipta teka-teki mudah, GPT-OSS menghasilkan respons yang tidak masuk akal dan memberikan jawapan kepada soalannya sendiri dengan serta-merta.

Sebaliknya, model Qwen3 secara konsisten menunjukkan pematuhan gesaan yang lebih baik dan respons yang lebih bunyi semula jadi merentasi pelbagai tugas. Model Qwen3 32 bilion parameter khususnya cemerlang dalam mengikut arahan dengan tepat, manakala GPT-OSS sering bergelut dengan tugas perbualan asas walaupun varian 120 bilion parameternya yang lebih besar.

Kecekapan Sumber dan Keperluan Perkakasan

GPT-OSS memperkenalkan penambahbaikan kecekapan yang ketara melalui seni bina Mixture of Experts ( MoE ) dan kuantisasi MXFP4 . Model 120 bilion parameter mengaktifkan hanya 5.1 bilion parameter setiap token, menjadikannya lebih pantas untuk dijalankan daripada model padat dengan keupayaan serupa. Ini membolehkan model dijalankan pada perkakasan pengguna yang sebaliknya akan bergelut dengan model sebesar ini.

Walau bagaimanapun, prestasi dunia sebenar berbeza dengan ketara berdasarkan kekangan perkakasan. Pada GPU pengguna dengan VRAM terhad, model padat seperti Qwen3 32B sering mengatasi GPT-OSS 120B dalam kedua-dua kelajuan dan ketepatan. Pengguna dengan kad grafik RTX 5090 melaporkan Qwen3 32B mencapai 65 token sesaat berbanding GPT-OSS 120B yang mencapai 37 token sesaat apabila pemunggahan CPU diperlukan.

*MoE (Mixture of Experts): Seni bina di mana hanya subset parameter model yang aktif untuk setiap input, meningkatkan kecekapan.*MXFP4: Kaedah kuantisasi menggunakan ketepatan 4-bit untuk pemberat sambil mengekalkan ketepatan lebih tinggi untuk komponen lain.

Perbandingan Prestasi pada RTX 5090 (kuantisasi 4-bit):

GPT-OSS 120B : 37 token/saat (dengan pemindahan CPU )
Qwen3 32B : 65 token/saat
Qwen3 30B-A3B : 150 token/saat

Kebimbangan Strategi Latihan

Komuniti telah membangkitkan persoalan tentang metodologi latihan GPT-OSS , dengan ramai yang mengesyaki ia mengikuti pendekatan data sintetik serupa dengan model Phi Microsoft . Strategi ini memfokuskan pada permainan penanda aras khusus daripada membangunkan keupayaan umum, menghasilkan model yang cemerlang dalam ujian tetapi gagal dalam aplikasi praktikal.

Perkara ini jelas dilatih melalui RL untuk berfikir dan menyelesaikan tugas untuk penanda aras penaakulan khusus. Tiada yang lain.

Pembangun melaporkan bahawa GPT-OSS memerlukan konteks yang jauh lebih banyak dan gesaan terperinci untuk menghasilkan hasil berguna, menunjukkan latihannya mengutamakan prestasi penanda aras sempit berbanding kebolehgunaan luas. Ini berbeza ketara dengan pendekatan Qwen3 yang lebih seimbang, yang mengekalkan prestasi kukuh merentasi senario dunia sebenar yang pelbagai.

Pengkodan dan Tugas Teknikal

Untuk aplikasi pengaturcaraan, jurang prestasi menjadi lebih ketara. Model Qwen3-Coder menunjukkan keupayaan panggilan alat yang unggul dan pematuhan yang lebih baik kepada keperluan pemformatan kod. Pengguna yang menguji pelbagai format penyuntingan kod melaporkan bahawa Qwen3 jarang gagal dengan penyuntingan berasaskan diff, manakala GPT-OSS bergelut dengan tugas serupa.

Model Qwen3-Coder 30B khususnya telah menarik perhatian pembangun dengan keupayaannya mengendalikan aliran kerja kompleks, termasuk mengenali proses yang berjalan, mengurus contoh pelayan, dan menyediakan bantuan kontekstual yang menyaingi model komersial. Utiliti praktikal ini telah menjadikannya pilihan utama untuk persekitaran pembangunan tempatan.

Keperluan Perkakasan:

GPT-OSS 20B: ~13GB RAM ( Ollama ), tidak muat dalam 10GB VRAM
Qwen3-Coder 30B-A3B: ~20GB RAM pada 32GB Mac
Qwen3 4B: Sesuai untuk penggunaan tempatan pada perkakasan pengguna

Implikasi Pasaran

Penemuan ini menyerlahkan perpecahan yang semakin meningkat dalam pembangunan model AI antara pengoptimuman penanda aras dan utiliti praktikal. Walaupun GPT-OSS menunjukkan bahawa skor mengagumkan tidak semestinya diterjemahkan kepada kepuasan pengguna, kejayaan Qwen3 menunjukkan bahawa pendekatan latihan seimbang mungkin lebih berharga untuk aplikasi dunia sebenar.

Keutamaan komuniti untuk Qwen3 walaupun GPT-OSS mempunyai kiraan parameter yang lebih besar dan pencapaian penanda aras menunjukkan bahawa pengguna mengutamakan kebolehpercayaan dan keupayaan umum berbanding metrik prestasi mentah. Trend ini mungkin mempengaruhi strategi pembangunan model masa depan apabila syarikat mengimbangi antara demonstrasi yang mengagumkan dan utiliti praktikal.

Rujukan: From GPT-2 to GPT-NeoX: Analyzing the Architectural Advances