LLM Bergelut dengan Penaakulan Spatial dalam Permainan Teka-teki Walaupun Mempunyai Keupayaan Canggih

Pasukan Komuniti BigGo
LLM Bergelut dengan Penaakulan Spatial dalam Permainan Teka-teki Walaupun Mempunyai Keupayaan Canggih

Para penyelidik telah mengubah permainan teka-teki popular Baba is You menjadi penanda aras AI yang dipanggil Baba is Eval untuk menguji sejauh mana model bahasa besar mengendalikan tugas penaakulan spatial yang kompleks. Keputusan menunjukkan batasan ketara dalam sistem AI semasa, malah model canggih seperti Claude , apabila berhadapan dengan penyelesaian teka-teki berasaskan grid.

Projek ini menunjukkan cabaran asas yang dihadapi AI moden: walaupun sistem ini cemerlang dalam tugas bahasa dan bahkan boleh menjana kod, mereka bergelut dengan luar biasa dalam masalah penaakulan spatial yang manusia dapati intuitif. Batasan ini menjadi sangat jelas dalam permainan teka-teki di mana memahami hubungan 2D dan merancang penyelesaian berbilang langkah adalah penting.

Keputusan Prestasi Claude:

  • Berjaya menyelesaikan Tahap 0 (8 gerakan ke kanan)
  • Gagal pada semua tahap seterusnya
  • Tidak dapat menjejaki peraturan permainan dengan boleh dipercayai
  • Bergelut dengan pengenalpastian laluan yang disekat
  • Lemah dalam perancangan berbilang langkah
  • Kesukaran mengenali syarat menang/kalah

Masalah Perwakilan Grid Teks

Salah satu isu yang paling dibincangkan dalam komuniti tertumpu pada bagaimana LLM memproses maklumat spatial yang dipersembahkan sebagai grid teks. Pendekatan semasa untuk mewakili keadaan permainan sebagai grid ASCII nampaknya mewujudkan halangan ketara untuk pemahaman AI. Model nampaknya mengalami kesukaran khusus mengesan lajur berbanding baris, mungkin kerana latihan mereka menganggap segala-galanya sebagai teks berurutan dan bukannya susunan spatial.

Batasan seni bina ini menunjukkan bahawa model transformer standard, yang memproses maklumat secara linear, mungkin secara asasnya tidak sepadan untuk tugas yang memerlukan pemahaman spatial sebenar. Sesetengah penyelidik mencadangkan penyelesaian seperti pembenaman teks 2D yang menambah maklumat kedudukan untuk kedua-dua koordinat X dan Y, walaupun ini sebahagian besarnya masih eksperimental.

Penyelesaian Cadangan untuk Penaakulan Spatial:

  • Pembenaman teks 2D (menambah pengekodan kedudukan X,Y)
  • Struktur koordinat berasaskan JSON
  • Perwakilan berasaskan graf
  • Penerangan koordinat semantik
  • Tokenisasi khusus untuk data spatial
  • Alat abstraksi pergerakan (contohnya, fungsi move_to())

Perdebatan Penghafalan vs Penaakulan

Kebimbangan ketara yang dibangkitkan oleh komuniti melibatkan sama ada LLM sebenarnya menyelesaikan teka-teki melalui penaakulan atau hanya mengingat kembali penyelesaian daripada data latihan mereka. Memandangkan penyelesaian Baba is You tersedia secara meluas dalam talian, terdapat kebimbangan sah bahawa sebarang kejayaan yang ketara mungkin mencerminkan penghafalan dan bukannya keupayaan penyelesaian masalah yang tulen.

Walau bagaimanapun, walaupun apabila diuji pada tahap dengan penyelesaian yang diketahui, model semasa seperti Claude gagal menyelesaikan teka-teki asas melebihi tahap tutorial yang paling mudah. Ini menunjukkan bahawa walaupun penghafalan tidak berfungsi dengan berkesan, menonjolkan isu yang lebih mendalam dengan bagaimana sistem ini memproses dan menggunakan penaakulan spatial.

Perbandingan dengan Sistem AI Khusus Permainan

Perbincangan mendedahkan kontras menarik antara LLM tujuan umum dan sistem AI khusus. Walaupun rangkaian neural khusus yang dilatih secara khusus pada permainan teka-teki mungkin dapat mengatasi prestasi Claude dengan ketara, matlamatnya bukan hanya untuk menyelesaikan permainan tetapi untuk menguji keupayaan kecerdasan umum.

Rangkaian neural feed-forward mudah dengan latihan yang mencukupi boleh menyelesaikan tahap jauh lebih baik daripada Claude .

Pemerhatian ini menggariskan perkara utama: cabarannya bukan mencipta AI yang boleh mengalahkan permainan teka-teki, tetapi membangunkan sistem yang menunjukkan kecerdasan umum sebenar dengan mengendalikan tugas pelbagai tanpa latihan khusus.

Butiran Pelaksanaan Teknikal:

  • Keadaan permainan diambil melalui cangkuk mod Lua
  • Arahan dilaksanakan dengan kependaman 50-150ms
  • Menggunakan pelayan MCP ( Model Context Protocol )
  • Perwakilan grid teks untuk data spatial
  • Navigasi tahap melalui simulasi penekanan kekunci
  • Saiz binari permainan: 8MB dengan skrip Lua

Implikasi untuk Penanda Aras AI

Projek Baba is Eval menyertai koleksi penanda aras yang semakin berkembang yang direka untuk menguji keupayaan AI melebihi tugas bahasa tradisional. Tidak seperti beberapa penanda aras sedia ada, permainan teka-teki menawarkan kelebihan mempunyai peraturan yang jelas dan kriteria kejayaan yang jelas, menjadikannya alat yang berpotensi berharga untuk mengukur kemajuan AI.

Perbincangan komuniti menunjukkan bahawa cabaran penaakulan spatial ini mungkin mewakili ujian kecerdasan yang lebih asas daripada penanda aras semasa. Keupayaan untuk memahami dan memanipulasi hubungan spatial, merancang penyelesaian berbilang langkah, dan menyesuaikan diri dengan set peraturan yang berubah mencerminkan banyak senario penyelesaian masalah dunia sebenar.

Penyelidikan ini menonjolkan jurang penting antara keupayaan AI semasa dan penaakulan seperti manusia. Walaupun LLM terus bertambah baik dalam tugas berasaskan bahasa, perjuangan mereka dengan penaakulan spatial menunjukkan bahawa mencapai kecerdasan buatan umum sebenar mungkin memerlukan perubahan seni bina asas dan bukannya hanya meningkatkan pendekatan sedia ada.

Rujukan: Baba is Eval