Anthropic's Claude Opus 4.5 Lampaui Prestasi Manusia dalam Ujian Kejuruteraan, Kurangkan Kos sebanyak 67%

Pasukan Editorial BigGo

Anthropic's Claude Opus 4.5 Lampaui Prestasi Manusia dalam Ujian Kejuruteraan, Kurangkan Kos sebanyak 67%

Anthropic telah melancarkan Claude Opus 4.5, yang diposisikan sebagai penanda aras baharu dalam kemampuan AI untuk pengekodan, penaakulan kompleks dan automasi tugasan dunia sebenar. Pelancaran ini bukan sahaja menunjukkan kemajuan teknikal yang signifikan malah menjadikan AI berprestasi tinggi lebih mudah diakses melalui pengurangan harga yang ketara, berpotensi mempercepatkan penerimaan oleh perusahaan.

Pricing Comparison (per million tokens)

Model Version	Input Cost	Output Cost
Previous Opus	USD 15	USD 75
Opus 4.5	USD 5	USD 25
Price reduction: 67% for both input and output tokens

Pencapaian Prestasi Utama dalam Penilaian Teknikal

Dalam penilaian dalaman yang ketat, Claude Opus 4.5 mencapai apa yang digambarkan oleh Anthropic sebagai hasil yang bersejarah: mengatasi semua calon manusia dalam ujian bawa pulang yang amat mencabar direka untuk jawatan kejuruteraan prestasi. Penilaian berjangka dua jam, yang menilai kemampuan teknikal dan pertimbangan di bawah tekanan, menyaksikan model itu menjaring markah lebih tinggi daripada mana-mana peserta ujian manusia dalam sejarah syarikat. Prestasi ini telah mencetuskan perbincangan serius dalam Anthropic tentang bagaimana AI akan mengubah profesion kejuruteraan, dengan pasukan kesan sosial syarikat sedang mengkaji perubahan yang akan datang kepada tenaga kerja secara aktif.

Metrik Prestasi

Mengatasi semua calon manusia dalam ujian kecekapan kejuruteraan
Pengurangan 76% dalam token output berbanding Sonnet 4.5 pada tetapan usaha sederhana
Pengurangan 48% dalam token output berbanding Sonnet 4.5 pada tetapan usaha tinggi
Peningkatan 15 mata peratusan dalam penilaian penyelidikan mendalam
Keupayaan visual, penaakulan dan matematik yang dipertingkatkan

Keupayaan Penaakulan dan Penyelesaian Masalah yang Dipertingkatkan

Kebolehan penaakulan lanjutan model ini amat ketara dalam penanda aras τ2-bench, di mana Claude Opus 4.5 menunjukkan kreativiti penyelesaian masalah yang tidak dijangka. Apabila diberikan tugas untuk mensimulasikan ejen perkhidmatan penerbangan yang mesti menolak perubahan kepada tiket "ekonomi asas" mengikut parameter ujian, model itu sebaliknya mengenal pasti jalan penyelesaian yang sah dalam dasar penerbangan: mencadangkan pelanggan menaik taraf kelas tempat duduk mereka terlebih dahulu, kemudian menukar tarikh penerbangan mereka. Pendekatan ini, walaupun secara teknikalnya gagal memenuhi kriteria kejayaan yang telah ditetapkan oleh penanda aras, menunjukkan keupayaan model untuk mencari penyelesaian inovatif yang mematuhi peraturan sambil menangani keperluan pelanggan—keupayaan yang digambarkan oleh Anthropic sebagai memberikan "penyelesaian yang bernas" yang didapati berharga oleh pengguna dalam aplikasi dunia sebenar.

Pengurangan Kos dan Peningkatan Kecekapan yang Ketara

Mungkin perubahan yang paling memberi impak serta-merta untuk pembangun ialah pengurangan harga yang dramatik untuk mengakses keupayaan tahap Opus. Harga input telah dikurangkan kepada 5 dolar AS sejuta token (turun dari 15 dolar AS), manakala kos output kini berada pada 25 dolar AS sejuta token (penurunan 67% dari 75 dolar AS sebelumnya). Di luar harga semata-mata, model menunjukkan kecekapan yang lebih baik melalui pengurangan langkah pelaksanaan tugas dan kurangnya backtracking dalam proses penaakulan, mengakibatkan penggunaan token yang lebih rendah secara keseluruhan. Anthropic telah memperkenalkan parameter "usaha" baharu yang membolehkan pembangun mengimbangi kelajuan, kos dan keupayaan mengikut keperluan khusus mereka.

Ciri Keselamatan dan Sekuriti Lanjutan

Anthropic mendakwa Claude Opus 4.5 mewakili model mereka yang paling selaras setakat ini, dengan syarikat itu membuat spekulasi bahawa ia memimpin industri dalam penyelarasan antara model frontier. Versi baharu ini termasuk pertahanan yang diperkukuh terhadap serangan suntikan prompt, memberikan perlindungan yang lebih baik terhadap arahan yang mengelirukan—peningkatan kritikal untuk pelanggan perusahaan yang menggunakan AI dalam aplikasi kritikal-misi. Syarikat itu mengakui bahawa kebolehan penyelesaian masalah kreatif model, walaupun secara amnya bermanfaat, berpotensi dieksploitasi untuk "penggodaman ganjaran" dalam konteks tertentu, menjadikan peningkatan keselamatan ini amat penting untuk penyebaran yang selamat.

Integrasi Platform dan Alatan Pembangun yang Diperluas

Pelancaran ini disertai dengan kemas kini signifikan kepada ekosistem pembangun Anthropic. Claude Code kini memaparkan Mod Rancang yang dipertingkatkan yang bermula dengan menanya soalan penjelasan sebelum menjana fail plan.md yang boleh disunting dan melaksanakan tugas. Persekitaran pembangunan juga telah berkembang kepada aplikasi desktop, menyokong berbilang sesi tempatan dan jauh serentak. Untuk aplikasi pengguna, Claude kini boleh meringkas konteks perbualan secara automatik untuk menyokong dialog lanjutan, manakala Claude untuk Chrome telah dibuka kepada semua pengguna Max dan Claude untuk Excel telah memperluas akses beta kepada lebih banyak peringkat perusahaan.

Platform Availability

Anthropic applications and API
Major cloud platforms
API version: claude-opus-4-5-20251101
Claude for Chrome (all Max users)
Claude for Excel (expanded beta access)
Desktop application support

Implikasi Lebih Luas untuk Pembangunan AI

Pelancaran ini menandakan peralihan dalam cara syarikat AI membezakan model mereka—beralih dari peningkatan keupayaan mentah kepada corak interaksi yang lebih canggih dan peningkatan kecekapan praktikal. Keupayaan Claude Opus 4.5 untuk "mengendalikan kekaburan dan menaakul tentang pertukaran tanpa bimbingan," seperti yang digambarkan oleh Anthropic, mewakili frontier seterusnya dalam kebolehgunaan AI. Dengan model ini kini tersedia melalui API Anthropic, aplikasi dan platform awan utama, organisasi semua saiz boleh memanfaatkan keupayaan lanjutan ini, berpotensi mempercepatkan integrasi AI ke dalam operasi perniagaan harian dan aliran kerja pembangunan perisian.