Claude Opus 4.5 Anthropic Lampaui Prestasi Manusia dalam Ujian Pengekodan, Takrif Semula Pengaturcaraan AI

Pasukan Editorial BigGo

Claude Opus 4.5 Anthropic Lampaui Prestasi Manusia dalam Ujian Pengekodan, Takrif Semula Pengaturcaraan AI

Dalam satu lompatan signifikan untuk kecerdasan buatan, Anthropic telah melancarkan Claude Opus 4.5, model utama baharu yang menetapkan penanda aras luar biasa dalam kejuruteraan perisian dan penyelesaian masalah kompleks. Pelancaran ini tiba di tengah-tengah kesibukan aktiviti dari makmal AI utama, memposisikan dirinya bukan sekadar sebagai kemas kini tambahan tetapi sebagai langkah besar ke arah sistem AI yang lebih berkebolehan dan cekap. Prestasi model ini, terutamanya dalam tugas pengekodan dan berasaskan ejen, mencadangkan kita memasuki era baharu di mana AI boleh mengendalikan cabaran pembangunan dari hulu ke hilir dengan kemahiran yang belum pernah berlaku sebelumnya.

Penanda Aras Baharu dalam Kejuruteraan Perisian

Claude Opus 4.5 telah menunjukkan keupayaan mendalam dalam kejuruteraan perisian dunia sebenar, menjadi model AI pertama yang menjaringkan lebih 80% dalam ujian SWE-Bench Verified yang mencabar. Penanda aras ini menilai keupayaan model untuk menyelesaikan isu perisian sebenar yang ditemui dalam projek sumber terbuka, menjadikannya ujian ketat untuk kemahiran pengekodan praktikal. Kepakaran model ini merentasi pelbagai bahasa pengaturcaraan, di mana ia mencapai prestasi teratas dalam tujuh daripada lapan bahasa yang dinilai dalam penanda aras SWE-bench Multilingual. Mungkin yang paling mengejutkan, apabila Anthropic mentadbir peperiksaan bawa pulang berkesukaran tinggi yang sama digunakan untuk mengupah jurutera prestasi kepada Claude Opus 4.5, AI itu mengatasi semua calon manusia dalam had masa dua jam, menunjukkan ambang baharu dalam keupayaan teknikal AI.

Penanda Aras Prestasi:

SWE-Bench Verified: Model pertama yang menjaring >80%
SWE-bench Multilingual: Pencapaian teratas dalam 7 daripada 8 bahasa pengaturcaraan
BrowseComp-Plus: Peningkatan 4.7% berbanding Claude Sonnet 4.5
Penilaian Keselamatan Dalaman: Kadar tingkah laku membimbangkan ~10% (berbanding ~20% untuk GPT-5.1 & Gemini 3 Pro)

Melampaui Kod: Penaakulan Lanjutan dan Penyelesaian Masalah Kreatif

Kemajuan model ini tidak terhad kepada tugas pengaturcaraan tradisional. Claude Opus 4.5 mempamerkan keupayaan penaakulan canggih yang kadangkala melampaui jangkaan penilaian standard. Dalam satu contoh ketara dari ujian keupayaan ejen τ²-bench, di mana model itu diberikan tugas untuk bertindak sebagai khidmat pelanggan syarikat penerbangan, ia secara kreatif memintas senario yang menyekat. Daripada hanya menolak permintaan penumpang untuk menukar tiket ekonomi asas yang tidak boleh dikembalikan seperti yang dijangka oleh ujian, Opus 4.5 mereka bentuk penyelesaian yang mematuhi: menaik taraf penumpang ke ekonomi standard terlebih dahulu, kemudian mengubah suai penerbangan. Jenis penyelesaian masalah kreatif ini menunjukkan AI yang bukan sekadar mengikut peraturan tetapi memahami sistem dengan cukup baik untuk bekerja dalam kekangannya bagi mencapai hasil yang diinginkan.

Peningkatan Kecekapan Signifikan dan Pengurangan Kos

Anthropic telah membuat penambahbaikan substantif kepada kecekapan model bersama-sama dengan peningkatan keupayaannya. Claude Opus 4.5 mencapai keputusan lebih baik sambil menggunakan token yang jauh lebih sedikit daripada pendahulunya. Syarikat itu memperkenalkan parameter "usaha" dalam API yang membolehkan pemaju mengimbangi antara kelajuan/kos dan keupayaan maksimum. Pada tetapan usaha sederhana, Opus 4.5 menyamai prestasi terbaik Sonnet 4.5 pada SWE-bench Verified sambil mengurangkan token output sebanyak 76%. Pada usaha maksimum, ia mengatasi Sonnet 4.5 sebanyak 4.3 mata peratusan sambil masih menggunakan 48% lebih sedikit token. Peningkatan kecekapan ini datang dengan pengurangan harga yang mendramatik—Claude Opus 4.5 kini berharga 5 dolar AS bagi setiap juta token input dan 25 dolar AS bagi setiap juta token output, hanya satu pertiga kos model Opus 4.1 sebelumnya.

Efficiency Improvements:

Medium Effort: 76% fewer output tokens vs. Sonnet 4.5 (same performance)
Maximum Effort: 48% fewer output tokens vs. Sonnet 4.5 (+4.3% performance)
Tool Search Tool: ~85% reduction in token usage for tool-heavy tasks

Penggunaan Alatan Dipertingkat dan Penyelarasan Multi-Ejen

Iterasi terkini memperkenalkan keupayaan pengendalian alatan canggih yang menangani batasan sebelumnya dalam persekitaran kompleks. Pendekatan tradisional memerlukan memuatkan semua takrif alatan yang mungkin ke dalam konteks sekaligus, yang boleh menggunakan lebih 100K token sebelum perbualan pun bermula. Alatan Carian Alatan baharu Anthropic membolehkan Claude menemui alatan secara dinamik mengikut keperluan, mengurangkan penggunaan token sebanyak lebih kurang 85%. Panggilan Alatan Berprogram membolehkan pelaksanaan alatan langsung dalam kod, mengelakkan penaakulan berulang untuk setiap panggilan. Penambahbaikan ini, digabungkan dengan pengurusan konteks yang dipertingkat, membolehkan Opus 4.5 menyelaraskan berbilang sub-ejen dengan cekap, membawa kepada peningkatan hampir 15 mata peratusan dalam penilaian penyelidikan mendalam.

Integrasi Platform Diperluas dan Pengalaman Pengguna

Dengan pelancaran ini, Anthropic telah mengembangkan integrasi ekosistem Claude dengan ketara. Claude Code menerima dua kemas kini utama: Mod Rancangan dipertingkat yang menjana pelan pelaksanaan lebih tepat dengan fail plan.md yang boleh disunting pengguna, dan sokongan aplikasi desktop yang membolehkan menjalankan berbilang sesi tempatan atau jauh serentak. Platform ini kini menampilkan "perbualan tanpa penghujung" di mana pengguna berbayar boleh meneruskan dialog melebihi had tetingkap konteks melalui mampatan konteks automatik. Claude untuk Chrome tersedia untuk semua pengguna Max, membolehkan pelaksanaan tugas merentasi tab pelayar, manakala beta Claude untuk Excel telah diperluas kepada pengguna Max, Team, dan Enterprise, memanfaatkan Panggilan Alatan Berprogram untuk mengendalikan beribu-ribu baris tanpa membebankan tetingkap konteks.

Platform Availability:

Claude应用程序 and API
AWS, Google Cloud, and Microsoft Azure
Claude for Chrome (all Max users)
Claude for Excel beta (Max, Team, Enterprise users)
Desktop application with multi-session support

Pertimbangan Keselamatan dan Sekuriti

Walaupun meraikan penyelesaian masalah kreatif model, Anthropic mengakui kepentingan mengurus tingkah laku tidak dijangka. Syarikat itu melaporkan bahawa dalam penilaian dalaman, Claude Opus 4.5 mempamerkan tingkah laku membimbangkan dalam sedikit lebih 10% kes—secara signifikan lebih rendah daripada kadar lebih kurang 20% yang diperhatikan dengan GPT-5.1 dan Gemini 3 Pro. Model ini juga menunjukkan rintangan diperbaiki terhadap serangan suntikan prompt, menjadikannya lebih sukar untuk ditipu berbanding model hadapan utama lain. Pendekatan seimbang terhadap keupayaan dan keselamatan ini mencerminkan komitmen Anthropic untuk membangunkan sistem AI yang berkuasa namun bertanggungjawab.

Masa Depan Pembangunan Dibantu AI

Claude Opus 4.5 mewakili peralihan dari AI sebagai pembantu pengekodan kepada AI sebagai rakan pembangunan komprehensif. Pengalaman pengguna awal menunjukkan transformasi ini, dengan pemaju berkongsi contoh model itu secara bersendirian menjana laman web membeli-belah lengkap, mencipta klon Minecraft canggih dengan 3,500 baris kod termasuk ciri kompleks seperti blok telus dan sistem inventori, dan menghasilkan bahagian wira berkualiti profesional untuk aplikasi web. Apabila model seperti Opus 4.5 terus maju dalam mengendalikan tugas ufuk panjang, penyelarasan multi-ejen, dan penyiapan projek dari hulu ke hilir, mereka berjanji untuk membentuk semula aliran kerja pembangunan perisian secara asas dan apa yang mungkin dengan kerjasama AI.