Qodo Command baru-baru ini mencapai pencapaian 71.2% pada SWE-bench Verified telah mencetuskan perbincangan hangat dalam komuniti pembangun mengenai integriti penanda aras pengekodan AI. Walaupun skor tersebut meletakkan Qodo dalam 5 teratas di peringkat global, cerita sebenar terletak pada bagaimana syarikat-syarikat berbeza mendekati penilaian ini.
Pencapaian Terbaik SWE-bench Verified:
- Refact: 74.4% (dengan rangka kerja tersuai 2,000 baris)
- Qodo Command: 71.2% (versi produksi, tanpa pengubahsuaian)
- Claude Sonnet 4: ~72.2% (penyerahan Anthropic)
- SWE-bench Multilingual terbaik: ~43% ( Claude 3.7 Sonnet )
Masalah Manipulasi Penanda Aras
Komuniti teknologi membangkitkan kebimbangan serius mengenai bagaimana penyerahan berprestasi tinggi mencapai skor tinggi mereka. Beberapa penyertaan berprestasi tinggi dalam papan pendahulu SWE-bench langsung tidak menjalankan produk yang sedia untuk pengeluaran. Sebaliknya, mereka telah membina rangka kerja ujian yang rumit khusus direka untuk memanipulasi keputusan penanda aras.
Ambil Refact, yang kini berada di kedudukan kedua dengan 74.4%. Mereka membina rangka kerja kod 2,000 baris secara eksklusif untuk SWE-bench, lengkap dengan berbilang ejen dan mekanisme percubaan semula yang canggih. Apabila ejen utama gagal, ejen nyahpepijat menganalisis kegagalan dan memberikan pandangan untuk percubaan lain. Pendekatan ini secara berkesan memberikan berbilang percubaan pada setiap masalah sambil secara teknikal mendakwa ia adalah satu percubaan.
Membina berbilang percubaan ke dalam ejen anda adalah meregangkan peraturan, walaupun secara teknikal ia boleh diterima.
Amalan ini menunjukkan Hukum Goodhart - apabila ukuran menjadi sasaran, ia kehilangan nilainya sebagai ukuran. Penanda aras direka untuk menguji keupayaan pengekodan dunia sebenar, tetapi syarikat-syarikat kini mengoptimumkan khusus untuk ujian daripada untuk tugas kejuruteraan perisian sebenar.
Penyelesaian Pengeluaran Berbanding Khusus Penanda Aras
Apa yang menjadikan pendekatan Qodo patut diberi perhatian bukan hanya skor itu sendiri, tetapi bagaimana mereka mencapainya. Tidak seperti pesaing yang membina perancah tersuai, Qodo mendakwa mereka menggunakan ejen CLI pengeluaran mereka tepat seperti pelanggan akan memasangnya - dengan arahan npm yang mudah. Tiada penalaan khas, tiada pengubahsuaian khusus penanda aras, hanya produk siap guna.
Perbezaan ini amat penting bagi pembangun yang mempertimbangkan alat-alat ini. Sistem yang dioptimumkan penanda aras yang mencapai skor 75% mungkin berprestasi buruk dalam senario dunia sebenar, manakala sistem pengeluaran yang mencapai skor 71% boleh memberikan keputusan yang konsisten merentas pelbagai tugas pengekodan.
Komuniti amat bimbang mengenai had panjang konteks dan sistem pengambilan. Masalah SWE-bench boleh melibatkan pangkalan kod yang besar, dan bagaimana ejen mengendalikan pemilihan konteks sering menentukan kejayaan. Sesetengah sistem memanipulasi ini dengan menggunakan mekanisme pengambilan canggih yang dibina semata-mata untuk penanda aras, bukannya penyelesaian praktikal yang sebenarnya akan digunakan oleh pembangun.
Ciri-ciri Seni Bina Arahan Qodo:
- Peringkasan Konteks: Menyuling pangkalan kod berbilang fail kepada ringkasan berstruktur
- Perancangan Pelaksanaan: Pendekatan "rancang dahulu" dengan penguraian matlamat berstruktur
- Mekanisme Percubaan Semula: Sehingga 3 percubaan semula dengan diagnosis ralat pintar
- Rangka Kerja LangGraph: Sistem orkestrasi berasaskan graf yang modular
- Alat Ejen: Operasi sistem fail, pelaksanaan shell, carian Raggap, pemikiran berurutan
Seruan untuk Pengesahan Bebas
Kekecewaan dengan penanda aras yang berpotensi mengelirukan telah membawa kepada seruan untuk badan ujian bebas. Ahli komuniti mencadangkan penubuhan piawaian antarabangsa untuk penilaian pengekodan AI, serupa dengan bagaimana industri lain mengendalikan ujian prestasi. Sistem semasa terlalu bergantung pada keputusan yang dilaporkan sendiri daripada syarikat dengan insentif kewangan yang jelas untuk menaikkan skor mereka.
Pendekatan alternatif seperti LiveBench, yang mengeluarkan ujian baharu secara berkala untuk mencegah overfitting, semakin mendapat perhatian. Terdapat juga minat yang semakin meningkat dalam penanda aras pelbagai bahasa, kerana SWE-bench Verified hanya memfokuskan pada isu Python. Prestasi pelbagai bahasa terbaik pada masa ini berada sekitar 43%, menunjukkan betapa banyak ruang untuk penambahbaikan wujud dalam senario pengekodan dunia sebenar yang pelbagai.
Pemasangan dan Ketersediaan:
- Pemasangan:
npm install -g @qodocommand
- Sokongan Model: Semua LLM peringkat teratas, dioptimumkan untuk Claude
- Perkongsian: Penyelesaian "Powered by Claude" dengan Anthropic
- Integrasi UI: Termasuk Qodo Merge untuk alur kerja semakan kod
Melihat Melampaui Angka
Perdebatan ini mendedahkan ketegangan asas dalam pembangunan AI. Syarikat memerlukan metrik untuk menunjukkan kemajuan dan menarik pelanggan, tetapi mengoptimumkan untuk penanda aras khusus boleh mencipta produk yang cemerlang dalam senario ujian sempit sambil gagal dalam aplikasi praktikal.
Bagi pembangun yang menilai alat pengekodan AI, pengajarannya jelas: lihat melampaui skor penanda aras utama. Pertimbangkan sama ada pendekatan ujian mencerminkan aliran kerja sebenar anda, sama ada alat mengendalikan bahasa pengaturcaraan dan jenis projek anda, dan yang paling penting, sama ada prestasi penanda aras diterjemahkan kepada keuntungan produktiviti dalam persekitaran khusus anda.
Apabila ruang pengekodan AI semakin matang, dorongan komuniti untuk kaedah penilaian yang lebih jujur dan praktikal berkemungkinan akan membentuk semula bagaimana alat-alat ini dibangunkan dan dipasarkan. Pemenang sebenar akan menjadi syarikat yang memfokuskan pada menyelesaikan masalah pembangun tulen daripada memanipulasi metrik buatan.
Rujukan: Qodo Command mencapai skor 71.2% pada SWE-bench Verified