Anthropic telah mengeluarkan Claude Sonnet 4.5 , dengan mendakwa ia adalah model pengekodan terbaik di dunia dengan skor 77.2% pada penilaian SWE-bench yang disahkan. Walau bagaimanapun, maklum balas awal pembangun mendedahkan gambaran kompleks yang tidak sentiasa sepadan dengan angka penanda aras yang mengagumkan.
Model baharu ini mengekalkan harga yang sama seperti pendahulunya pada 3 dolar Amerika Syarikat setiap juta token gesaan, sambil memperkenalkan beberapa kemas kini produk termasuk Claude Code 2.0 dengan ciri-ciri titik periksa, sambungan VS Code asli, dan alat eksperimen Imagine with Claude yang menjana perisian secara masa nyata.
Spesifikasi Utama Claude Sonnet 4.5:
- Skor disahkan SWE-bench: 77.2% (meningkat daripada 72.7% dalam Sonnet 4)
- Harga: $3 USD setiap juta token gesaan (tidak berubah)
- Skor sempurna pada penanda aras matematik AIME
- Mendakwa keupayaan operasi tanpa pengawasan selama 30+ jam
- Harga yang sama dengan Claude Sonnet 4
![]() |
---|
Memperkenalkan Claude Sonnet 45, mempamerkan keupayaan canggihnya dalam pengekodan dan pembangunan AI |
Prestasi Dunia Sebenar Menunjukkan Hasil Bercampur
Walaupun terdapat penambahbaikan penanda aras, pembangun melaporkan pengalaman yang tidak konsisten dalam aplikasi praktikal. Sesetengah pengguna mendapati model ini cemerlang dalam kelajuan tetapi bergelut dengan kualiti kod. Seorang pembangun yang menguji pelaksanaan carian kabur menyatakan bahawa walaupun Sonnet 4.5 menyelesaikan tugas dalam hanya 3 minit berbanding 20 minit GPT-5-Codex , hasil yang lebih pantas adalah rosak dan dangkal dengan isu pengesahan dan ujian yang hilang.
Perbincangan komuniti mendedahkan corak di mana model yang berbeza cemerlang dalam senario yang berbeza. Pengguna melaporkan bahawa GPT-5-Codex cenderung menghasilkan kod yang lebih menyeluruh dan sedia untuk pengeluaran dengan pengendalian ralat dan ujian yang betul, manakala Claude Sonnet 4.5 mengutamakan kelajuan tetapi mungkin mengorbankan kedalaman dan kebolehpercayaan.
Perbandingan Prestasi (Laporan Pengguna):
- Kelajuan: Claude Sonnet 4.5 jauh lebih pantas (3 minit berbanding 20 minit untuk tugasan yang serupa)
- Kualiti Kod: GPT-5-Codex dilaporkan lebih teliti dengan pengendalian ralat yang lebih baik
- Ujian: GPT-5-Codex secara automatik menulis ujian, Claude sering memerlukan arahan
- Pengesahan: Sesetengah pengguna melaporkan Claude mencipta semula logik pengesahan berbanding menggunakan semula corak sedia ada
![]() |
---|
Analisis perbandingan skor tingkah laku tidak sejajar antara model pengekodan yang berbeza, menggambarkan variasi prestasi yang dilaporkan oleh para pembangun |
Pengurusan Konteks dan Integrasi Aliran Kerja
Sebahagian besar maklum balas pembangun memberi tumpuan kepada keupayaan pengurusan konteks. Keupayaan model untuk mengekalkan fokus semasa sesi pengekodan yang panjang kelihatan bertambah baik, dengan Anthropic mendakwa ia boleh bekerja tanpa pengawasan sehingga 30 jam untuk tugas-tugas kompleks. Walau bagaimanapun, sesetengah pengguna melaporkan isu dengan model kehilangan jejak konteks projek atau membuat keputusan yang tidak konsisten apabila bekerja dengan pangkalan kod yang besar.
Integrasi dengan aliran kerja pembangunan juga menunjukkan hasil bercampur. Walaupun sesetengah pembangun memuji sistem titik periksa baharu dan pemilihan terminal yang diperbaiki, yang lain menyatakan bahawa model kadangkala mengabaikan corak kod sedia ada dan mencipta semula komponen yang sudah wujud dalam projek.
Ciri Baharu dalam Claude Code 2.0:
- Checkpoint untuk menyimpan kemajuan dan fungsi rollback
- Sambungan asli VS Code
- Ciri penyuntingan pusat dan dana memori untuk API
- Pelaksana kod dan penciptaan fail dalam perbualan
- Sambungan Chrome untuk pentadbir pasukan
- Claude Agent SDK untuk membina agen tersuai
Jurang Penanda Aras Berbanding Realiti
Ketidakselarasan antara prestasi penanda aras dan penggunaan dunia sebenar telah menjadi tema berulang dalam perbincangan komuniti. Beberapa pembangun menyatakan kebimbangan bahawa syarikat mungkin mengoptimumkan untuk skor penanda aras dan bukannya utiliti praktikal. Pendekatan penanda aras kepada ujian ini berpotensi mencipta model yang cemerlang dalam penilaian terkawal tetapi bergelut dengan sifat pembangunan perisian sebenar yang kucar-kacir dan bergantung kepada konteks.
Penanda aras SWE-bench yang disahkan, walaupun direka untuk mengurangkan bunyi penilaian, masih menghadapi batasan dalam menangkap kerumitan penuh pembangunan perisian profesional, termasuk proses semakan kod, kerjasama pasukan, dan pertimbangan kebolehselenggaraan jangka panjang.
![]() |
---|
Kadar kemenangan pelbagai model pengekodan, menonjolkan jurang antara penanda aras dengan realiti dalam penilaian prestasi |
Tekanan Harga dan Persaingan
Kos kekal sebagai faktor penting dalam penggunaan model. Ramai pembangun menyebut tentang beralih kepada alternatif yang lebih pantas dan murah seperti Grok Code Fast untuk tugas rutin, menyimpan model premium untuk masalah kompleks. Harga 3 dolar Amerika Syarikat setiap juta token, walaupun tidak berubah daripada Sonnet 4 , terus dilihat sebagai mahal berbanding pesaing, terutamanya untuk pembangun yang membayar dari poket sendiri.
Saya akan mengambil 20 minit setiap kali, mengetahui kerja yang telah dilakukan terasa seperti kerja yang dilakukan oleh pembangun kanan.
Tekanan harga ini telah membawa kepada corak penggunaan yang menarik di mana pembangun menggunakan pelbagai model secara strategik - menggunakan pilihan yang lebih pantas dan murah untuk kerja awal dan model premium untuk penghalusan dan penyelesaian masalah yang kompleks.
Pengeluaran Claude Sonnet 4.5 mewakili kemajuan berperingkat dalam bantuan pengekodan AI, tetapi jurang antara dakwaan pemasaran dan pengalaman pembangun kekal ketara. Walaupun skor penanda aras terus bertambah baik, cabaran praktikal kualiti kod, kesedaran konteks, dan keberkesanan kos mencadangkan bahawa gelaran model pengekodan terbaik mungkin bergantung banyak kepada kes penggunaan khusus dan aliran kerja pembangun individu.
Rujukan: Introducing Claude Sonnet 4.5