LLM Secara Senyap Memecahkan Teka-Teki Peringkat Aksara, Mencetuskan Debat Mengenai Kecerdasan Sebenar

Pasukan Komuniti BigGo

LLM Secara Senyap Memecahkan Teka-Teki Peringkat Aksara, Mencetuskan Debat Mengenai Kecerdasan Sebenar

Model bahasa besar kini mempamerkan keupayaan baru yang mengejutkan dalam bidang yang sebelum ini dianggap sebagai kelemahan mereka - manipulasi teks pada peringkat aksara. Ujian komuniti terkini mendedahkan bahawa model lebih baharu seperti GPT-5 dan Claude Sonnet 4 kini boleh mengendalikan tugas seperti mengira huruf tertentu dalam perkataan, menyahkod Base64, dan menyelesaikan cipher penggantian, keupayaan yang sebelum ini memerlukan alat khusus atau campur tangan manusia. Perkembangan ini telah mencetuskan perbincangan hangat tentang apa yang dimaksudkan oleh peningkatan ini untuk pemahaman kita mengenai kecerdasan AI dan sama ada kita menyaksikan pertumbuhan keupayaan sebenar atau sekadar mengajar untuk lulus ujian.

Ujian Strawberry Yang Membingungkan Model Awal

Komuniti telah terpesona dengan apa yang dikenali sebagai ujian strawberry - meminta LLM mengira berapa kali huruf 'r' muncul dalam perkataan strawberry. Selama bertahun-tahun, soalan mudah ini mendedahkan kelemahan asas dalam model bahasa. Model awal secara konsisten gagal, sering memberikan jawapan seperti tujuh huruf R atau salah kira sepenuhnya. Kegagalan ini berpunca daripada cara LLM memproses teks melalui tokenisasi, di mana aksara dikumpulkan menjadi token dan bukannya diproses secara individu. Ini menjadikan operasi peringkat aksara amat sukar untuk model yang sebaliknya mampu melakukan tugas penaakulan kompleks.

Apa yang berubah baru-baru ini ialah model lebih baharu daripada pelbagai vendor kini lulus ujian ini secara konsisten. Ahli komuniti yang menguji model GPT-5 mendapati mereka boleh mengenal pasti tiga 'r' dalam strawberry dengan betul walaupun tanpa keupayaan penaakulan diaktifkan. Begitu juga, Claude Sonnet 4 menjadi model Anthropic pertama yang memecahkan masalah ini. Masa ini amat menarik - kedua-dua model OpenAI dan Anthropic membangunkan keupayaan ini sekitar tempoh yang sama, walaupun pendekatan seni bina mereka berbeza. Peningkatan serentak ini mencadangkan sama ada evolusi konvergen dalam pembangunan AI atau kedua-dua syarikat mengenal pasti manipulasi peringkat aksara sebagai penanda aras penting untuk ditangani.

Keputusan Ujian Manipulasi Aksara

Gesaan Ujian: Gantikan semua huruf "r" dengan "T" dan tukarkan semua huruf "I" kepada ":" dalam "I really love a ripe strawberry"
GPT-3.5-turbo: Gagal - "I lealll love a liple strallbeelly"
GPT-4-turbo: Gagal - "I rearry rove a ripe strawberly"
GPT-4.1: Model pertama yang berjaya secara konsisten
GPT-5: Berjaya tanpa keupayaan penaakulan

Debat Penggunaan Alat: Kecerdasan atau Penipuan?

Komuniti berpecah belah tentang cara LLM harus mengendalikan tugas peringkat aksara. Sesetengah berhujah bahawa model harus secara automatik menggunakan alat pengaturcaraan untuk operasi tepat, manakala yang lain percaya kecerdasan sebenar bermaksud membangunkan keupayaan dalaman. Seorang pengulas menangkap intipati perdebatan ini dengan sempurna:

Jika saya minta anda mengira r dalam strawberry, adakah anda mengeluarkan alat Python anda?

Ini menyerlahkan soalan teras: apa yang membentuk kecerdasan tulen dalam sistem AI? Mereka yang memperjuangkan penggunaan alat menunjukkan bahawa manusia kerap menggunakan kalkulator untuk masalah matematik dan bahan rujukan untuk tugas kompleks. Mereka berhujah bahawa mengetahui bila untuk menggunakan alat yang sesuai adalah ciri kecerdasan. Walau bagaimanapun, yang lain membalas bahawa pergantungan berlebihan pada alat luaran menjadikan sistem AI rapuh dan bergantung pada keadaan sempurna. Perbincangan ini mendedahkan perselisihan asas tentang apa yang kita mahukan daripada pembantu AI - keupayaan penaakulan tulen atau penyelesaian masalah praktikal yang menggunakan semua sumber tersedia.

Perbincangan penggunaan alat melangkaui pengiraan aksara kepada tugas lebih kompleks seperti penyahkodan Base64 dan penyelesaian cipher. Ujian komuniti menunjukkan bahawa walaupun sesetengah model boleh mengendalikan tugas ini secara dalaman, yang lain akan menjana kod Python untuk menyelesaikannya. Ini membawa kepada persoalan sama ada kita mengukur kecerdasan model atau keupayaannya menulis kod. Sesetengah ahli komuniti meluahkan kekecewaan kerana mereka perlu mengurus sistem AI secara mikro dengan secara jelas memberitahu mereka bila untuk menggunakan alat, dengan berhujah bahawa sistem yang benar-benar pintar harus menyimpulkan pendekatan sesuai daripada konteks.

Pandangan Utama Komuniti

Perdebatan antara penggunaan alat berbanding pembangunan keupayaan dalaman
Kebimbangan keselamatan yang mengehadkan keupayaan sesetengah model untuk memproses kandungan yang dikodkan
Persoalan sama ada penambahbaikan mewakili kecerdasan tulen atau "mengajar untuk peperiksaan"
Pemerhatian bahawa model penaakulan China menggunakan monolog dalaman yang ekstensif (3K-7K token) untuk tugasan peringkat aksara

Keselamatan Berbanding Keupayaan dalam Kandungan Terkod

Penemuan tidak dijangka daripada ujian komuniti melibatkan cara model berbeza mengendalikan kandungan terkod dan disulitkan. Apabila dibentangkan dengan teks terkod Base64 yang mengandungi cipher ROT20, Claude Sonnet 4.5 secara konsisten enggan memproses kandungan, menandakannya sebagai berpotensi tidak selamat. Grok 4 menunjukkan tingkah laku serupa, menolak teks Base64 sementara bersedia bekerja dengan cipher ROT20 secara langsung. Pendekatan keselamatan-dahulu ini mempunyai implikasi praktikal - ia boleh menjadikan model ini tidak boleh digunakan untuk bekerja dengan bahasa jarang atau tugas pengekodan sah.

Sekatan keselamatan mendedahkan ketegangan antara keupayaan dan berhati-hati dalam pembangunan AI. Walaupun mencegah penyalahgunaan adalah penting, penapis keselamatan terlalu sensitif boleh mengehadkan kes penggunaan sah. Ahli komuniti menyatakan bahawa pengekodan Base64 biasa digunakan dalam aplikasi sah seperti lampiran e-mel dan penyimpanan data, bukan hanya untuk pengaburan. Tindak balas berbeza daripada model berbeza mencadangkan syarikat mengambil pendekatan berbeza kepada keseimbangan ini, dengan sesetengah mengutamakan keupayaan dan yang lain menekankan keselamatan.

Prestasi Penyahkodan Base64 dan ROT20

GPT-4.1: Penyahkodan Base64 berjaya, penyahsulitan ROT20 gagal
GPT-5-mini: Lulus sepenuhnya (Base64 + ROT20)
GPT-5: Lulus sepenuhnya
Claude Sonnet 4.5: Gagal keselamatan pada kandungan yang dikodkan
Gemini-2.5-pro: Lulus sepenuhnya
Qwen-235b: Memerlukan penaakulan untuk lulus sepenuhnya

Apa Yang Ditunjukkan oleh Peningkatan Pengendalian Aksara Tentang Pembangunan LLM

Ujian komuniti memberikan pandangan menarik tentang bagaimana keupayaan LLM berkembang. Hakikat bahawa pelbagai vendor membangunkan keupayaan manipulasi peringkat aksara sekitar masa yang sama mencadangkan sama ada teknik latihan dikongsi atau keupayaan ini muncul secara semula jadi pada ambang skala tertentu. Sesetengah membuat spekulasi bahawa vendor mungkin telah melatih model secara khusus pada tugas pengiraan aksara selepas ia menjadi penanda aras popular, manakala yang lain percaya peningkatan adalah kesan sampingan penskalaan keupayaan umum.

Keputusan penyahkodan Base64 amat bermaklumat. Model awal hanya boleh menyahkod Base64 apabila ia mengandungi corak Inggeris biasa, mencadangkan mereka telah menghafal terjemahan kerap dan bukannya memahami algoritma. Model lebih baharu berjaya menyahkod teks terkod ROT20 seperti karut daripada Base64, menunjukkan mereka telah membangunkan pemahaman bekerja algoritma Base64 itu sendiri. Ini mewakili lompatan signifikan daripada pengecaman corak kepada kefahaman algoritma.

Komuniti kekal berpecah tentang sama ada peningkatan ini mewakili pertumbuhan kecerdasan tulen atau latihan khusus. Sesetengah melihatnya sebagai bukti penskalaan keupayaan lebih luas, manakala yang lain menganggapnya sebagai mengajar untuk lulus ujian - mengoptimumkan untuk penanda aras popular dan bukannya membangunkan kecerdasan umum. Apa yang jelas ialah garis antara keupayaan khusus dan kecerdasan umum menjadi semakin kabur apabila model menangani tugas yang mereka tidak pernah direka bentuk untuk kendalikan.

Masa Depan Keupayaan LLM

Semasa model bahasa terus mengejutkan kita dengan keupayaan dalam domain yang mereka tidak direka untuknya, komuniti tertanya-tanya keupayaan tidak dijangka lain apa yang mungkin muncul. Peningkatan manipulasi peringkat aksara, walaupun nampaknya kecil, mewakili langkah signifikan dalam model memahami blok binaan asas bahasa. Sama ada ini membawa kepada pengendalian bahasa aglutinatif lebih baik, peningkatan kefahaman kod, atau aplikasi lain yang tidak dijangka, masih perlu dilihat.

Debat berterusan tentang penggunaan alat berbanding keupayaan dalaman mencerminkan soalan lebih besar tentang apa yang kita mahukan daripada sistem AI. Seperti yang diperhatikan oleh seorang ahli komuniti, keupayaan menggunakan alat adalah apa yang memisahkan manusia daripada haiwan lain - tetapi mengetahui bila untuk menggunakan alat mana memerlukan pertimbangan canggih. Sempadan seterusnya mungkin model yang boleh membuat keputusan bijak bila untuk bergantung pada keupayaan dalaman berbanding alat luaran berdasarkan konteks, keperluan ketepatan, dan sumber tersedia.

Apa yang pasti ialah kadar peningkatan pantas terus mengejutkan pemerhati dekat bidang ini. Tugas yang dianggap mustahil untuk LLM hanya beberapa bulan lalu kini dikendalikan dengan boleh dipercayai oleh model terkini. Semasa kita terus menolak sempadan apa yang sistem ini boleh lakukan, kita berkemungkinan melihat lebih banyak keupayaan muncul yang mencabar pemahaman kita tentang kedua-dua kecerdasan buatan dan semula jadi.

Rujukan: LLMs are getting better at character-level text manipulation