Ejen AI Menghadapi Halangan: Mengapa Mereka Lebih Kerap Gagal dalam Tugasan yang Lebih Panjang

Pasukan Komuniti BigGo
Ejen AI Menghadapi Halangan: Mengapa Mereka Lebih Kerap Gagal dalam Tugasan yang Lebih Panjang

Satu kajian baharu mendedahkan corak yang membimbangkan dalam prestasi AI: semakin panjang tugasan, semakin besar kemungkinan ejen AI gagal sepenuhnya. Penemuan ini telah mencetuskan perbincangan sengit dalam kalangan pembangun yang mengiktiraf corak ini daripada pengalaman mereka sendiri yang mengecewakan dengan pembantu pengekodan AI.

Penyelidikan menunjukkan bahawa ejen AI mengikuti apa yang dipanggil saintis sebagai kadar bahaya malar - bermakna mereka mempunyai peluang tetap untuk gagal pada setiap langkah tugasan. Ini mewujudkan pereputan eksponen dalam kadar kejayaan apabila tugasan menjadi lebih panjang, sama seperti bagaimana bahan radioaktif mereput dari masa ke masa. Setiap ejen AI boleh dicirikan dengan separuh hayatnya sendiri - panjang tugasan di mana ia berjaya hanya 50% daripada masa.

Slaid pembentangan ini merumuskan penyelidikan mengenai penurunan kadar kejayaan ejen AI , terutamanya berkaitan dengan tempoh tugasan
Slaid pembentangan ini merumuskan penyelidikan mengenai penurunan kadar kejayaan ejen AI , terutamanya berkaitan dengan tempoh tugasan

Masalah Keracunan Konteks

Pembangun dalam komuniti telah mengenal pasti sebab utama di sebalik kegagalan ini: keracunan konteks. Apabila ejen AI bekerja pada tugasan yang lebih panjang, sejarah perbualan mereka dipenuhi dengan percubaan yang gagal, cadangan yang salah, dan jalan buntu. Konteks yang rosak ini menjadikan AI semakin berkemungkinan membuat keputusan yang buruk.

Mereka meracuni konteks mereka sendiri. Mungkin anda boleh memanggilnya pereputan konteks, di mana apabila konteks berkembang dan terutamanya jika ia berkembang dengan banyak gangguan dan jalan buntu, kualiti output menurun dengan cepat.

Ramai pembangun melaporkan bahawa ejen AI mula membuat pilihan yang pelik apabila terperangkap. Daripada membetulkan ralat binaan yang mudah, AI mungkin memutuskan untuk beralih kepada perpustakaan perisian yang berbeza sepenuhnya. Apabila itu gagal, ia mungkin beralih kembali kepada perpustakaan asal, mewujudkan gelung kekeliruan yang tidak berkesudahan.

Diagram ini menganalisis prestasi AI merentas pelbagai tugasan, mencerminkan masalah keracunan konteks yang dihadapi oleh ejen AI dalam tugasan yang lebih panjang
Diagram ini menganalisis prestasi AI merentas pelbagai tugasan, mencerminkan masalah keracunan konteks yang dihadapi oleh ejen AI dalam tugasan yang lebih panjang

Kesan Pereputan Eksponen

Model matematik di sebalik fenomena ini sangat mudah. Jika AI mempunyai kadar kejayaan 50% pada tugasan satu jam, ia menurun kepada hanya 25% untuk tugasan dua jam dan 12.5% untuk tugasan empat jam. Untuk tugasan yang memerlukan kebolehpercayaan 99%, horizon masa mengecil kepada hanya 1/70 daripada penanda aras kadar kejayaan 50%.

Ini menjelaskan mengapa pembantu pengekodan AI berfungsi dengan baik untuk masalah kecil yang terpencil tetapi bergelut dengan projek kompleks berbilang langkah. Setiap langkah tambahan dalam tugasan mendarabkan peluang kegagalan, mewujudkan tebing curam dalam prestasi dan bukannya penurunan beransur-ansur.

Corak Penurunan Kadar Kejayaan:

  • Kadar kejayaan asas 50%
  • Kadar kejayaan 25% pada panjang tugasan berganda
  • Kadar kejayaan 12.5% pada panjang tugasan berempat kali ganda
  • Kebolehpercayaan 99% memerlukan 1/70 daripada panjang tugasan kadar kejayaan 50%

Penyelesaian Sementara Pembangun

Komuniti telah membangunkan beberapa strategi untuk memerangi had ini. Sesetengah pembangun kerap memulakan perbualan baharu, menyalin hanya konteks penting daripada sesi sebelumnya. Yang lain menggunakan alat khusus yang boleh memadamkan atau memampatkan sejarah perbualan untuk membuang kandungan beracun.

Pendekatan yang paling berjaya nampaknya adalah menganggap interaksi AI seperti sesi pengaturcaraan berpasangan - kekal terlibat secara aktif dan campur tangan apabila AI mula menuju ke arah yang tidak produktif. Pembangun melaporkan bahawa membiarkan AI bekerja selama lebih daripada beberapa minit tanpa bimbingan jarang menghasilkan keputusan yang baik.

Contoh Prestasi Claude 3.5 Sonnet:

  • Kadar kejayaan 50%: tugasan 59 minit
  • Kadar kejayaan 80%: tugasan 15 minit
  • Tempoh tugasan untuk kejayaan 80% = 1/4 daripada tempoh tugasan kejayaan 50%
Graf ini membandingkan kadar kejayaan pelbagai ejen AI merentas panjang tugasan yang berbeza, meningkatkan pemahaman tentang strategi pembangun untuk memperbaiki output AI
Graf ini membandingkan kadar kejayaan pelbagai ejen AI merentas panjang tugasan yang berbeza, meningkatkan pemahaman tentang strategi pembangun untuk memperbaiki output AI

Implikasi untuk Pembangunan AI

Penyelidikan ini mencadangkan bahawa ejen AI semasa kekurangan mekanisme pemulihan ralat yang berkesan. Tidak seperti manusia, yang boleh berundur dan menilai semula apabila terperangkap, ejen AI cenderung untuk memburukkan kesilapan mereka. Mereka bergelut untuk mengiktiraf apabila mereka berada dalam keadaan gagal dan perlu mengubah pendekatan.

Penemuan ini juga menyerlahkan cabaran asas dalam pembangunan AI: jurang antara prestasi yang mengagumkan pada tugasan pendek dan penyelesaian yang boleh dipercayai bagi projek dunia sebenar. Walaupun keupayaan AI terus bertambah baik dengan cepat, dengan kadar kejayaan berganda setiap tujuh bulan menurut kajian, sifat eksponen pereputan ini bermakna mencapai kebolehpercayaan tinggi pada tugasan panjang kekal sebagai halangan yang ketara.

Memahami hubungan matematik ini membantu menjelaskan mengapa ejen AI boleh kelihatan sangat berkebolehan dan mengecewakan tidak boleh dipercayai pada masa yang sama. Ia bukan sahaja tentang menjadikan AI lebih bijak - ia tentang mengubah secara asas bagaimana mereka mengendalikan kegagalan dan mengekalkan tumpuan dalam tempoh yang panjang.

Rujukan: Is there a Half-Life for the Success Rates of AI Agents?