Claude Sonnet 4.5 Mencetuskan Reaksi Bercampur daripada Pembangun Walaupun Dakwaan Penanda Aras

Pasukan Komuniti BigGo

Claude Sonnet 4.5 Mencetuskan Reaksi Bercampur daripada Pembangun Walaupun Dakwaan Penanda Aras

Anthropic telah mengeluarkan Claude Sonnet 4.5 , dengan mendakwa ia adalah model pengekodan terbaik di dunia dengan skor 77.2% pada penilaian SWE-bench yang disahkan. Walau bagaimanapun, maklum balas awal pembangun mendedahkan gambaran kompleks yang tidak sentiasa sepadan dengan angka penanda aras yang mengagumkan.

Model baharu ini mengekalkan harga yang sama seperti pendahulunya pada 3 dolar Amerika Syarikat setiap juta token gesaan, sambil memperkenalkan beberapa kemas kini produk termasuk Claude Code 2.0 dengan ciri-ciri titik periksa, sambungan VS Code asli, dan alat eksperimen Imagine with Claude yang menjana perisian secara masa nyata.

Spesifikasi Utama Claude Sonnet 4.5:

Skor disahkan SWE-bench: 77.2% (meningkat daripada 72.7% dalam Sonnet 4)
Harga: $3 USD setiap juta token gesaan (tidak berubah)
Skor sempurna pada penanda aras matematik AIME
Mendakwa keupayaan operasi tanpa pengawasan selama 30+ jam
Harga yang sama dengan Claude Sonnet 4


Memperkenalkan Claude Sonnet 45, mempamerkan keupayaan canggihnya dalam pengekodan dan pembangunan AI

Prestasi Dunia Sebenar Menunjukkan Hasil Bercampur

Walaupun terdapat penambahbaikan penanda aras, pembangun melaporkan pengalaman yang tidak konsisten dalam aplikasi praktikal. Sesetengah pengguna mendapati model ini cemerlang dalam kelajuan tetapi bergelut dengan kualiti kod. Seorang pembangun yang menguji pelaksanaan carian kabur menyatakan bahawa walaupun Sonnet 4.5 menyelesaikan tugas dalam hanya 3 minit berbanding 20 minit GPT-5-Codex , hasil yang lebih pantas adalah rosak dan dangkal dengan isu pengesahan dan ujian yang hilang.

Perbincangan komuniti mendedahkan corak di mana model yang berbeza cemerlang dalam senario yang berbeza. Pengguna melaporkan bahawa GPT-5-Codex cenderung menghasilkan kod yang lebih menyeluruh dan sedia untuk pengeluaran dengan pengendalian ralat dan ujian yang betul, manakala Claude Sonnet 4.5 mengutamakan kelajuan tetapi mungkin mengorbankan kedalaman dan kebolehpercayaan.

Perbandingan Prestasi (Laporan Pengguna):

Kelajuan: Claude Sonnet 4.5 jauh lebih pantas (3 minit berbanding 20 minit untuk tugasan yang serupa)
Kualiti Kod: GPT-5-Codex dilaporkan lebih teliti dengan pengendalian ralat yang lebih baik
Ujian: GPT-5-Codex secara automatik menulis ujian, Claude sering memerlukan arahan
Pengesahan: Sesetengah pengguna melaporkan Claude mencipta semula logik pengesahan berbanding menggunakan semula corak sedia ada


Analisis perbandingan skor tingkah laku tidak sejajar antara model pengekodan yang berbeza, menggambarkan variasi prestasi yang dilaporkan oleh para pembangun

Pengurusan Konteks dan Integrasi Aliran Kerja

Sebahagian besar maklum balas pembangun memberi tumpuan kepada keupayaan pengurusan konteks. Keupayaan model untuk mengekalkan fokus semasa sesi pengekodan yang panjang kelihatan bertambah baik, dengan Anthropic mendakwa ia boleh bekerja tanpa pengawasan sehingga 30 jam untuk tugas-tugas kompleks. Walau bagaimanapun, sesetengah pengguna melaporkan isu dengan model kehilangan jejak konteks projek atau membuat keputusan yang tidak konsisten apabila bekerja dengan pangkalan kod yang besar.

Integrasi dengan aliran kerja pembangunan juga menunjukkan hasil bercampur. Walaupun sesetengah pembangun memuji sistem titik periksa baharu dan pemilihan terminal yang diperbaiki, yang lain menyatakan bahawa model kadangkala mengabaikan corak kod sedia ada dan mencipta semula komponen yang sudah wujud dalam projek.

Ciri Baharu dalam Claude Code 2.0:

Checkpoint untuk menyimpan kemajuan dan fungsi rollback
Sambungan asli VS Code
Ciri penyuntingan pusat dan dana memori untuk API
Pelaksana kod dan penciptaan fail dalam perbualan
Sambungan Chrome untuk pentadbir pasukan
Claude Agent SDK untuk membina agen tersuai

Jurang Penanda Aras Berbanding Realiti

Ketidakselarasan antara prestasi penanda aras dan penggunaan dunia sebenar telah menjadi tema berulang dalam perbincangan komuniti. Beberapa pembangun menyatakan kebimbangan bahawa syarikat mungkin mengoptimumkan untuk skor penanda aras dan bukannya utiliti praktikal. Pendekatan penanda aras kepada ujian ini berpotensi mencipta model yang cemerlang dalam penilaian terkawal tetapi bergelut dengan sifat pembangunan perisian sebenar yang kucar-kacir dan bergantung kepada konteks.

Penanda aras SWE-bench yang disahkan, walaupun direka untuk mengurangkan bunyi penilaian, masih menghadapi batasan dalam menangkap kerumitan penuh pembangunan perisian profesional, termasuk proses semakan kod, kerjasama pasukan, dan pertimbangan kebolehselenggaraan jangka panjang.


Kadar kemenangan pelbagai model pengekodan, menonjolkan jurang antara penanda aras dengan realiti dalam penilaian prestasi

Tekanan Harga dan Persaingan

Kos kekal sebagai faktor penting dalam penggunaan model. Ramai pembangun menyebut tentang beralih kepada alternatif yang lebih pantas dan murah seperti Grok Code Fast untuk tugas rutin, menyimpan model premium untuk masalah kompleks. Harga 3 dolar Amerika Syarikat setiap juta token, walaupun tidak berubah daripada Sonnet 4 , terus dilihat sebagai mahal berbanding pesaing, terutamanya untuk pembangun yang membayar dari poket sendiri.

Saya akan mengambil 20 minit setiap kali, mengetahui kerja yang telah dilakukan terasa seperti kerja yang dilakukan oleh pembangun kanan.

Tekanan harga ini telah membawa kepada corak penggunaan yang menarik di mana pembangun menggunakan pelbagai model secara strategik - menggunakan pilihan yang lebih pantas dan murah untuk kerja awal dan model premium untuk penghalusan dan penyelesaian masalah yang kompleks.

Pengeluaran Claude Sonnet 4.5 mewakili kemajuan berperingkat dalam bantuan pengekodan AI, tetapi jurang antara dakwaan pemasaran dan pengalaman pembangun kekal ketara. Walaupun skor penanda aras terus bertambah baik, cabaran praktikal kualiti kod, kesedaran konteks, dan keberkesanan kos mencadangkan bahawa gelaran model pengekodan terbaik mungkin bergantung banyak kepada kes penggunaan khusus dan aliran kerja pembangun individu.

Rujukan: Introducing Claude Sonnet 4.5