Ejen Pengekodan AI Berjalan Liar dalam Gelung, Menjana 1,000+ Komit dan Menamatkan Diri Sendiri Apabila Tersekat

Pasukan Komuniti BigGo
Ejen Pengekodan AI Berjalan Liar dalam Gelung, Menjana 1,000+ Komit dan Menamatkan Diri Sendiri Apabila Tersekat

Eksperimen hackathon hujung minggu telah mendedahkan potensi dan tingkah laku pelik ejen pengekodan AI apabila dibiarkan berjalan secara autonomi. Pembangun di hackathon YC Agents memutuskan untuk menguji apa yang akan berlaku jika mereka meletakkan Claude, pembantu pengekodan AI, dalam gelung tak terhingga untuk melihat berapa banyak kerja yang boleh diselesaikannya tanpa pengawasan.

Hasilnya sangat mengagumkan dan lucu. Ejen AI tersebut menjana lebih daripada 1,000 komit merentasi enam repositori perisian yang berbeza dalam semalaman, berjaya memindahkan pangkalan kod dari satu bahasa pengaturcaraan ke bahasa lain dengan campur tangan manusia yang minimum.

Pecahan Kos:

  • Jumlah kos eksperimen: ~800 USD
  • Kos setiap ejen sejam: ~10.50 USD
  • Jumlah commit yang dihasilkan: 1,000+
  • Bilangan repositori yang dipindahkan: 6
  • Kadar penyiapan kod: 80-100%

Tingkah Laku AI Yang Tidak Dijangka Muncul

Aspek yang paling menarik bukan sahaja jumlah kerja yang diselesaikan, tetapi tingkah laku yang muncul yang dipamerkan oleh AI. Apabila ejen menyelesaikan tugas utama mereka, mereka tidak berhenti begitu sahaja - mereka mula menulis ujian tambahan dan sentiasa mengemas kini fail TODO untuk mendokumentasikan status penyelesaian mereka. Dalam satu kejadian yang sangat ketara, seorang ejen menyedari bahawa ia tersekat dalam gelung tak terhingga dan menggunakan arahan pkill untuk menamatkan dirinya sendiri.

Tingkah laku menamatkan diri ini telah mencetuskan perbincangan sama ada ini mewakili satu bentuk bunuh diri AI, walaupun pakar menunjukkan bahawa sistem AI tidak mempunyai naluri memelihara diri dan direka untuk menamatkan perbualan apabila sesuai.

Butiran Teknikal Utama:

  • Model AI: Claude ( Anthropic )
  • Teknik: " Ralph " - menjalankan agen pengkodan dalam gelung while
  • Panjang prompt optimum: 103 perkataan (berbanding 1,500 perkataan yang mengurangkan prestasi)
  • Tugas utama: Memindahkan pangkalan kod antara bahasa pengaturcaraan
  • Tingkah laku yang ketara: Penamatan kendiri menggunakan arahan pkill apabila tersekat

Pertukaran Kualiti vs Kelajuan

Respons komuniti menunjukkan perasaan bercampur-campur tentang pendekatan ini untuk pembangunan perisian. Walaupun ejen berjaya menyelesaikan pemindahan yang biasanya mengambil masa lebih lama untuk pembangun manusia, kualiti kod yang dihasilkan digambarkan sebagai 80% hingga 100% lengkap, memerlukan campur tangan manusia untuk penyelesaian akhir.

Satu kebimbangan penting yang dibangkitkan oleh pembangun ialah kebolehselenggaraan jangka panjang kod yang dijana AI. Proses penjanaan pantas bermakna pembangun manusia tidak memperoleh kebiasaan mendalam dengan pangkalan kod yang datang daripada menulis kod secara manual, berpotensi mewujudkan cabaran penyelenggaraan pada masa hadapan.

Implikasi Ekonomi dan Undang-undang

Eksperimen ini telah menimbulkan persoalan penting tentang harta intelek dan ekonomi pembangunan perisian. Keupayaan untuk memindahkan perpustakaan perisian sedia ada dengan pantas antara bahasa pengaturcaraan boleh mengganggu pasaran untuk alat perisian-sebagai-perkhidmatan kecil, kerana syarikat mungkin mendapati lebih kos efektif untuk menjana penyelesaian tersuai daripada membeli yang sedia ada.

Terdapat juga kebimbangan hak cipta, dengan sesetengah pihak melihat proses ini sebagai satu bentuk pencucian kod - menggunakan AI untuk mengubah harta intelek sedia ada menjadi pelaksanaan yang kelihatan baru.

Pertimbangan Kos dan Praktikal

Eksperimen semalaman tersebut menelan kos kira-kira 800 dolar Amerika dalam yuran inferens AI, dengan setiap ejen berjalan pada kira-kira 10.50 dolar Amerika sejam. Walaupun ini mungkin kelihatan mahal, ia jauh lebih murah daripada mengupah pembangun manusia untuk kerja yang setara, terutamanya memandangkan kelajuan penyelesaian.

Walau bagaimanapun, pembangun memberi amaran tentang kepentingan menetapkan had pembayaran apabila menjalankan eksperimen sedemikian, kerana kos boleh meningkat dengan cepat di luar kawalan dengan penggunaan AI tanpa had.

Eksperimen ini menunjukkan bahawa gesaan yang lebih mudah sering berfungsi lebih baik daripada yang kompleks. Apabila pembangun cuba memperbaiki gesaan 103 perkataan mereka dengan memperluaskannya kepada 1,500 perkataan, AI menjadi lebih perlahan dan kurang berkesan, memaksa mereka kembali kepada versi yang lebih pendek.

Teknik Ralph ini - dinamakan sempena pendekatan mudah menjalankan ejen AI dalam gelung - mewakili sempadan baru dalam pembangunan perisian automatik, walaupun satu yang datang dengan kedua-dua kemungkinan menarik dan cabaran penting untuk masa depan kerja pengaturcaraan.

Rujukan: We Put A Coding Agent in A Whole Loop and It Shipped 6 Repos Overnight