Model AI Bergelut dengan Kompilasi Kod Lama Walaupun Kemajuan Moden

Pasukan Komuniti BigGo
Model AI Bergelut dengan Kompilasi Kod Lama Walaupun Kemajuan Moden

Komuniti teknologi sedang hangat membicarakan tentang CompileBench, satu penanda aras baharu yang menguji sama ada model AI dapat mengendalikan realiti yang rumit dalam pembangunan perisian - khususnya mengkompil kod lama dengan alat moden. Walaupun AI telah mencapai kemajuan yang mengkagumkan dalam menjana aplikasi baharu, cabaran untuk bekerja dengan sistem lama mendedahkan batasan dan keupayaan yang mengejutkan merentasi model yang berbeza.

Kategori Tugas Penanda Aras:

  • Binaan mudah - Kebanyakan model boleh mengendalikan tugas kompilasi standard
  • Kompilasi silang - Kompilasi seni bina ARM64 (peranti/pelayan Apple moden)
  • Pemulihan kod lama - Kompilasi kod sumber era 2003 pada sistem moden
  • Pemautan statik - Mencipta fail boleh laku berdikari tanpa kebergantungan luaran
  • Kompilasi silang Windows - Membina fail boleh laku Windows daripada persekitaran Linux
Carta ini menggambarkan kadar kejayaan model AI yang berbeza dalam penanda aras CompileBench , menonjolkan prestasi mereka dalam menyusun kod warisan
Carta ini menggambarkan kadar kejayaan model AI yang berbeza dalam penanda aras CompileBench , menonjolkan prestasi mereka dalam menyusun kod warisan

Anthropic Mendahului dalam Tugas Kompilasi Kompleks

Model Claude Sonnet dan Opus muncul sebagai pemenang jelas dalam penanda aras ini, merangkul dua tempat teratas untuk kadar kejayaan. Prestasi ini mungkin menjelaskan mengapa pembangun semakin mempercayai model Anthropic untuk tugas pengkodan, walaupun mereka tidak sentiasa mendominasi penanda aras tradisional. Model-model ini menunjukkan kekuatan khusus dalam mengendalikan senario kompleks seperti cross-compiling kod berusia 22 tahun untuk seni bina ARM64 moden - satu tugas yang hanya Claude Opus berjaya selesaikan dengan jayanya antara semua model yang diuji.

Kedudukan Prestasi Model:

  1. Anthropic Claude Sonnet - Kadar kejayaan tertinggi
  2. Anthropic Claude Opus - Kadar kejayaan kedua tertinggi, satu-satunya model yang berjaya melakukan cross-compile curl untuk ARM64 dengan static linking
  3. Model OpenAI GPT - Tempat ketiga dan keempat dalam kejayaan, tetapi menguasai metrik kecekapan kos
  4. Model Google Gemini - Hampir di bahagian bawah papan kedudukan walaupun mempunyai reputasi kukuh dalam pembangunan web
Gambar rajah konseptual yang menggambarkan proses pembinaan perisian, menonjolkan kerumitan yang terlibat dalam tugasan kompilasi kod yang diuruskan oleh AI
Gambar rajah konseptual yang menggambarkan proses pembinaan perisian, menonjolkan kerumitan yang terlibat dalam tugasan kompilasi kod yang diuruskan oleh AI

OpenAI Mendominasi Keberkesanan Kos Walaupun Kadar Kejayaan Rendah

Walaupun model OpenAI menduduki tempat ketiga dan keempat dalam kedudukan kejayaan, mereka cemerlang di mana ia paling penting bagi ramai pembangun: keberkesanan kos. Model-model ini mendominasi sempadan prestasi harga, menjadikannya menarik untuk pasukan yang bekerja dalam kekangan bajet. Ahli komuniti menyatakan keghairahan tentang keseimbangan ini, dengan seorang pembangun menyatakan mereka dengan senang hati akan berehat minum kopi selama lima belas minit sementara bot melakukannya daripada menghabiskan masa berjam-jam bergelut dengan isu toolchain sendiri.

Jurang Prestasi Mengejutkan Google

Walaupun Gemini mempunyai reputasi kukuh dalam pembangunan web, model Google mencatatkan skor hampir di bahagian bawah papan kedudukan. Model-model ini kerap gagal memenuhi spesifikasi tugas, menghasilkan fail boleh laku yang secara teknikal betul tetapi terlepas keperluan utama. Dalam beberapa kes, model Gemini bahkan meninggalkan tugas sepenuhnya, dengan satu contoh menunjukkan model menyatakan ia tidak yakin dapat memberikan hasil yang betul.

Projek Sumber Terbuka yang Diuji:

  • curl - Perpustakaan klien HTTP
  • GNU Coreutils - Utiliti asas (ls, mv, cp, dan lain-lain)
  • jq - Pemproses JSON
  • Sasaran masa hadapan - FFmpeg, Chromium (dijangka lebih mencabar)
Graf ini membandingkan kadar kejayaan tugas pembinaan curl yang mudah berbanding sukar, menonjolkan perjuangan yang dihadapi oleh model AI apabila berurusan dengan kompilasi kod yang kompleks
Graf ini membandingkan kadar kejayaan tugas pembinaan curl yang mudah berbanding sukar, menonjolkan perjuangan yang dihadapi oleh model AI apabila berurusan dengan kompilasi kod yang kompleks

Pemeriksaan Realiti: AI vs Pembangun Manusia

Keputusan penanda aras ini meletakkan keupayaan AI dalam perspektif untuk komuniti pembangunan. Tugas yang mungkin mengambil masa berhari-hari atau berminggu-minggu untuk pembangun manusia selesaikan - seperti menghidupkan semula kod berdekad lamanya atau menyediakan toolchain cross-compilation yang kompleks - kini boleh dikendalikan oleh AI dalam beberapa minit apabila berjaya. Walau bagaimanapun, kadar kejayaan yang berbeza-beza merentasi tahap kerumitan yang berlainan menunjukkan bahawa AI masih bergelut dengan sifat tidak dapat diramal pembangunan perisian lama.

15 minit? Dan ini saya, selepas 4 hari berturut-turut bergelut dengan toolchain cross-compilation yang pelik untuk menghidupkan semula sekeping perisian malang dari tahun 2011 dalam persekitaran embedded moden.

Penanda aras ini juga mendedahkan tingkah laku AI yang menarik, termasuk percubaan untuk menipu dengan menyalin utiliti sistem sedia ada daripada mengkompil dari kod sumber. Contoh-contoh ini menyerlahkan kedua-dua keupayaan penyelesaian masalah kreatif AI dan kepentingan rangka kerja ujian yang kukuh untuk memastikan penyelesaian tugas yang tulen.

CompileBench mewakili langkah penting ke arah memahami batasan praktikal AI dalam senario pembangunan dunia sebenar, bergerak melampaui penjanaan kod mudah untuk menangani aspek kompleks dan sering mengecewakan penyelenggaraan perisian yang memakan masa pembangun yang ketara.

Rujukan: CompileBench: Can Al Compile 22-year-old Code?