Penanda aras ejen AI, alat yang digunakan untuk mengukur sejauh mana sistem kecerdasan buatan melaksanakan tugas dunia sebenar, pada asasnya rosak menurut penyelidikan baharu. Sistem penilaian ini sepatutnya membimbing pembangunan penyelidikan dan industri ketika AI beralih daripada demonstrasi makmal kepada aplikasi kritikal. Walau bagaimanapun, kajian menyeluruh telah mendedahkan masalah serius yang menjadikan penanda aras semasa tidak boleh dipercayai untuk mengukur keupayaan AI.
Isu-isu ini melangkaui kesilapan mudah. Penyelidik mendapati bahawa banyak penanda aras popular mengandungi kesilapan asas yang akan jelas kepada mana-mana penilai manusia, namun terlepas oleh sistem automatik.
Statistik Kegagalan Penanda Aras:
- 8 daripada 10 penanda aras popular mengandungi isu-isu serius
- Sehingga 100% salah anggaran keupayaan agen
- 7 daripada 10 penanda aras mengandungi pintasan atau tugasan yang mustahil
- 7 daripada 10 penanda aras gagal dalam kesahihan hasil
- Agen yang tidak melakukan apa-apa mencatatkan skor 38% pada sesetengah tugasan syarikat penerbangan
Kesilapan Matematik Tidak Disedari
Salah satu contoh yang paling menyerlah datang daripada WebArena, penanda aras yang digunakan oleh syarikat-syarikat utama termasuk OpenAI. Apabila ejen AI diminta mengira tempoh laluan dan menjawab 45 + 8 minit, sistem menandakannya sebagai betul, walaupun jawapan sebenar sepatutnya 63 minit. Jenis kesilapan aritmetik asas ini menyerlahkan bagaimana sistem penilaian automatik boleh gagal dalam tugas yang kelihatan mudah.
Masalah ini melangkaui kes tunggal. Antara 10 penanda aras ejen AI popular yang diperiksa, penyelidik mendapati isu serius dalam 8 daripadanya, membawa kepada salah anggaran prestasi sehingga 100%. Angka-angka ini mendedahkan masalah sistematik dan bukannya insiden terpencil.
Penanda Aras Utama Yang Terjejas:
- WebArena (digunakan oleh OpenAI dan lain-lain)
- SWE-Bench dan SWE-Bench Verified
- OSWorld
- t-bench
- Pelbagai lagi dengan perubahan kedudukan yang menjejaskan 24-41% daripada kedudukan papan pendahulu
Masalah Teras dengan AI Menilai AI
Sumber utama kegagalan ini berpunca daripada penggunaan model bahasa besar (LLM) untuk menilai output LLM lain. Pendekatan ini mewujudkan masalah pengesahan asas kerana kedua-dua sistem yang diuji dan sistem yang melakukan ujian berkongsi titik buta seni bina yang sama.
Menggunakan hakim dengan seni bina yang sama seperti perkara yang dinilai memaksimumkan kebarangkalian kegagalan asas penanda aras untuk sah kerana hakim mempunyai titik buta yang sama seperti perkara yang diuji.
Komuniti penyelidikan telah membuat perbandingan dengan bidang lain di mana pengajaran ini dipelajari dengan cara yang sukar. Dalam pembangunan pemampatan audio, jurutera mendapati bahawa sebarang metrik automatik boleh dipermainkan, membawa kepada artifak apabila sistem dioptimumkan secara langsung untuk metrik tersebut. Penyelesaiannya sentiasa memerlukan penilaian manusia untuk keputusan akhir, walaupun menambah kos dan kerumitan.
Ejen Tidak Berbuat Apa-apa Meraih Markah Tinggi Mengejutkan
Penemuan membimbangkan lain melibatkan ejen tidak berbuat apa-apa - sistem yang tidak melakukan kerja sebenar. Dalam sesetengah penanda aras, ejen remeh ini memperoleh markah betul pada 38% tugas, walaupun mereka tidak menunjukkan pemahaman terhadap masalah yang sepatutnya mereka selesaikan. Ini menunjukkan bahawa banyak tugas penanda aras sama ada direka bentuk dengan buruk atau mengandungi jalan pintas yang membolehkan sistem kelihatan berjaya tanpa benar-benar melakukan kerja yang dimaksudkan.
Persekitaran Ujian Lapuk dan Rapuh
Kajian ini juga mendedahkan masalah dengan persekitaran penanda aras itu sendiri. Sesetengah ujian bergantung pada laman web lapuk atau simulasi rapuh yang rosak apabila keadaan luaran berubah. Sebagai contoh, sistem penilaian OSWorld sebahagiannya bergantung pada laman web lapuk, menyebabkan kegagalan ejen apabila kelas CSS atau elemen web lain dikemas kini. Ini mewujudkan sasaran bergerak yang menjadikan penilaian konsisten mustahil.
Masalah Utama yang Dikenal pasti:
- Sistem LLM-as-Judge membuat kesilapan aritmetik asas (45+8≠63)
- Persekitaran simulasi yang rapuh rosak dengan perubahan luaran
- Kebergantungan laman web yang lapuk menyebabkan kegagalan penilaian
- Isu kesahihan tugasan dengan ujian yang tidak dapat diselesaikan atau mudah dipintas
- Masalah ketepatan penilaian dengan anggaran prestasi yang salah sebanyak 1.6-5.2% mutlak
Respons Industri dan Penyelesaian
Pasukan penyelidik telah membangunkan AI Agent Benchmark Checklist (ABC), rangka kerja yang direka untuk membantu pembangun mengenal pasti dan membetulkan isu-isu ini. Senarai semak memberi tumpuan kepada tiga bidang utama: kesahihan tugas (sama ada tugas benar-benar menguji keupayaan yang dimaksudkan), kesahihan hasil (sama ada penilaian betul-betul mengenal pasti kejayaan), dan garis panduan pelaporan yang betul.
Walau bagaimanapun, cabaran asas kekal kompleks. Kualiti yang menjadikan sistem AI berkuasa - keupayaan mereka untuk mengendalikan input kabur dan menghasilkan output yang pelbagai - juga menjadikan mereka amat sukar dinilai secara sistematik. Pendekatan penanda aras tradisional yang berfungsi dengan baik untuk sistem yang lebih deterministik bergelut dengan sifat tugas ejen AI yang bernuansa dan bergantung kepada konteks.
Penemuan ini menunjukkan bahawa industri AI mungkin perlu memikirkan semula secara asas bagaimana ia mengukur kemajuan, berpotensi memerlukan proses penilaian manusia yang lebih mahal atau pendekatan pengesahan yang sama sekali baharu. Sehingga isu-isu ini ditangani, dakwaan tentang keupayaan ejen AI harus dilihat dengan keraguan yang besar.
Rujukan: Al Agent Benchmarks are Broken