Qwen3-235B-A22B-Thinking-2507 Menghadapi Persoalan Ketepatan Penanda Aras Walaupun Dakwaan Prestasi Kukuh

Pasukan Komuniti BigGo
Qwen3-235B-A22B-Thinking-2507 Menghadapi Persoalan Ketepatan Penanda Aras Walaupun Dakwaan Prestasi Kukuh

Model AI terbaru Alibaba , Qwen3-235B-A22B-Thinking-2507 , telah mencetuskan perbincangan hangat dalam komuniti AI, bukan sahaja kerana skor penanda aras yang mengagumkan, tetapi juga kerana persoalan mengenai ketepatan beberapa keputusan yang dilaporkan. Model ini mewakili kemas kini utama kepada keupayaan pemikiran Qwen , menampilkan keupayaan penaakulan yang dipertingkatkan dan pemahaman konteks panjang sehingga 362,144 token secara asli.

Spesifikasi Model

  • Jumlah Parameter: 235B (110B diaktifkan)
  • Seni Bina: Mixture-of-Experts dengan 128 pakar (8 diaktifkan)
  • Panjang Konteks: 362,144 token secara natif
  • Lapisan: 94
  • Kepala Perhatian: 60 untuk Q dan K, 6 untuk KV
  • Lesen: Apache 2.0
Imej ini menggambarkan kad model untuk  Qwen3-235B-A22B-Thinking-2507 , menonjolkan keupayaan penaakulan canggih dan pemahaman konteks panjangnya
Imej ini menggambarkan kad model untuk Qwen3-235B-A22B-Thinking-2507 , menonjolkan keupayaan penaakulan canggih dan pemahaman konteks panjangnya

Percanggahan Pelaporan Penanda Aras Menimbulkan Kebimbangan

Kontroversi ketara telah muncul berkaitan ketepatan penanda aras. Pasukan Qwen pada mulanya melaporkan skor 41.8% pada penanda aras ARC-AGI untuk model bukan pemikiran mereka, yang akan mewakili pencapaian terobosan. Walau bagaimanapun, apabila pasukan ARC menguji model yang sama secara bebas, mereka mendapati skor hanya 11% - masih dihormati, tetapi berbeza secara dramatik daripada dakwaan asal.

Percanggahan ini telah meninggalkan komuniti AI dalam kekeliruan, tanpa penjelasan yang jelas diberikan oleh pasukan Qwen . Perbezaan ini amat ketara kerana ia mewakili varians empat kali ganda dalam prestasi yang dilaporkan, menimbulkan persoalan mengenai metodologi ujian dan proses pengesahan keputusan.

Pencapaian Prestasi Utama

  • GPQA: 80.3% (berbanding Claude3 Opus Thinking: 78.6%)
  • LiveCodeBench: 74.1% (skor tertinggi)
  • Arena Hard v1.2: 87.7%
  • IFEval: 97.8%
  • Kontroversi ARC-AGI: Pada mulanya dilaporkan 41.8%, disahkan secara bebas pada 11%

Keupayaan Teknikal dan Sambutan Komuniti

Walaupun terdapat kontroversi penanda aras, model ini menunjukkan spesifikasi teknikal yang mengagumkan. Ia menampilkan 235 bilion parameter keseluruhan dengan 110 bilion diaktifkan, menggunakan seni bina campuran pakar dengan 128 pakar (8 diaktifkan), dan menyokong mod pemikiran secara eksklusif. Model ini menunjukkan prestasi kukuh merentasi pelbagai tugas termasuk pengekodan, matematik, dan cabaran penaakulan.

Ahli komuniti telah mencatatkan kedudukan kompetitif model terhadap sistem AI terkemuka lain. Jika keputusan penanda aras tahan terhadap penelitian, ini akan mewakili nisbah keupayaan-kepada-parameter yang luar biasa, terutamanya untuk model sumber terbuka yang dikeluarkan di bawah lesen Apache 2.0 .

Pelaksanaan Praktikal dan Pengoptimuman

Komuniti pembangunan AI telah bergerak pantas untuk menjadikan model ini boleh diakses untuk inferens tempatan. Teknik kuantisasi khusus sedang dibangunkan untuk menjalankan model pada perkakasan pengguna, dengan pelbagai tahap mampatan tersedia untuk mengimbangi prestasi dan keperluan memori.

Perkakasan dan kos diandaikan kira-kira kelas desktop. Jika anda mempunyai rig permainan dengan RTX 4090 dan 128GB RAM , anda boleh menjalankan ini jika anda memilih kuant yang betul.

Untuk penggunaan perusahaan, model ini memerlukan sumber pengiraan yang besar, dengan cadangan untuk perkakasan H200 atau B200 untuk daya pemprosesan optimum apabila memproses jejak penaakulan besar dan konteks input yang besar.

Keperluan Perkakasan

  • Minimum untuk Inferens Tempatan: RTX 4090 dengan 128GB RAM (dengan pengkuantuman)
  • Penggunaan Perusahaan: H200 atau B200 perkakasan disyorkan
  • Saranan Panjang Konteks: >131,072 token untuk penaakulan optimum
  • Panjang Output: 32,768 token (standard), 81,920 token (tugas kompleks)

Landskap Kompetitif dan Implikasi Strategik

Keluaran ini menyerlahkan persaingan berterusan antara makmal AI China dan Barat. Pemerhati komuniti mencatatkan bahawa syarikat China seperti Alibaba terus mengeluarkan model sumber terbuka besar manakala syarikat Amerika cenderung memberi tumpuan kepada saiz yang lebih kecil, lebih berdaya maju secara komersial atau mengekalkan model terbesar mereka sebagai proprietari.

Perbezaan strategik ini mencerminkan model perniagaan dan persekitaran kawal selia yang berbeza-beza. Makmal China nampaknya menggunakan keluaran sumber terbuka sebagai strategi kompetitif, berpotensi mengganggu model pendapatan berasaskan inferens syarikat AI Barat sambil membina pengaruh teknologi secara global.

Dakwaan prestasi model, jika disahkan, akan meletakkannya dalam kedudukan kompetitif terhadap sistem proprietari seperti Gemini 2.5 Pro dan GPT-4 , menjadikannya pilihan menarik untuk organisasi yang mencari keupayaan AI yang berkuasa tanpa penguncian vendor atau sekatan penggunaan.

Rujukan: Qwen3-235B-A22B-Thinking-2507