Sebuah esei terkini yang berhujah bahawa model bahasa besar ( LLMs ) tidak mempunyai model dunia yang tulen telah mencetuskan perbincangan hangat dalam komuniti AI. Perdebatan ini tertumpu kepada sama ada sistem AI semasa benar-benar memahami dunia di sekeliling mereka atau hanya cemerlang dalam pemadanan corak dan penjanaan teks.
Kontroversi bermula apabila seorang pembangun berkongsi pengalaman LLMs yang gagal dalam permainan catur asas, kehilangan jejak kedudukan buah catur pada langkah ke-9 dan membuat langkah yang tidak sah. Ini mencetuskan persoalan yang lebih luas tentang apa yang membentuk model dunia dan sama ada LLMs mempunyai pemahaman tulen terhadap domain yang mereka operasikan.
Cabaran Catur Mendedahkan Batasan Asas
Contoh catur telah menjadi titik tumpuan perdebatan. Pengkritik menunjukkan bahawa LLMs bergelut dengan peraturan catur asas, gagal menjejaki kedudukan buah catur dan menjana langkah yang sah secara konsisten. Walau bagaimanapun, penyelidikan terkini menunjukkan bahawa naratif ini mungkin sudah lapuk. Kajian menunjukkan bahawa model terkini boleh mencapai prestasi catur peringkat profesional, dengan peningkatan ketara berlaku apabila ketepatan langkah sah mencapai 99.8%.
Percanggahan ini menyerlahkan isu utama: model lama dan yang tanpa latihan khusus sering gagal dalam tugasan yang memerlukan penaakulan spatial dan penjejakan keadaan. Namun sistem yang lebih baharu menunjukkan peningkatan yang ketara, menimbulkan persoalan sama ada batasan ini adalah asas atau sekadar artifak pendekatan latihan.
Metrik Prestasi Catur:
- Ambang penarafan peringkat profesional: <1800 ELO
- Titik kejayaan ketepatan gerakan sah: 99.8%
- Peningkatan penarafan ELO yang ketara berlaku selepas mencapai ketepatan gerakan sah yang tinggi
Melangkaui Permainan: Aplikasi Dunia Sebenar Menunjukkan Hasil Bercampur
Perdebatan melangkaui catur kepada aplikasi praktikal. Contohnya termasuk LLMs yang salah menerangkan alpha blending dalam perisian penyuntingan imej, mendakwa bahawa campuran warna tidak melibatkan pengiraan matematik. Kesilapan sedemikian mendedahkan jurang dalam memahami konsep asas tentang bagaimana komputer memproses maklumat visual.
Walau bagaimanapun, ahli komuniti menyatakan bahawa kegagalan ini sering bergantung kepada model mana yang digunakan dan bagaimana soalan dibingkai. Model berkebolehan penaakulan moden seperti GPT-5 Thinking dan Claude with Extended Thinking menunjukkan prestasi yang jauh lebih baik pada tugasan yang serupa, menunjukkan bahawa landskap ini berkembang pesat.
Model LLM yang Dirujuk dalam Perbincangan:
- ChatGPT (pelbagai versi termasuk GPT-5 Thinking)
- Claude (dengan keupayaan Extended Thinking)
- Grok
- Google AI Overviews
- Gemini 2.5 Flash dan varian Pro
Faktor Tokenisasi dan Konteks Sejarah
Aspek menarik dalam perbincangan ini melibatkan tokenisasi - bagaimana model memecahkan teks kepada bahagian yang boleh diproses. Sesetengah kegagalan, seperti mengira huruf dalam perkataan, berpunca daripada batasan teknikal ini dan bukannya kekurangan pemahaman. Ahli komuniti telah menyatakan bahawa apa yang dahulunya merupakan kes kegagalan yang boleh dipercayai, seperti mengira B dalam blueberry, tidak lagi menjebak model semasa.
Ia telah dibincangkan dan dihasilkan semula pada GPT-5 di HN beberapa hari lalu... Penyiar adik beradik mungkin tersilap memikirkan isu strawberry dari 2024 pada model LLM yang lebih lama.
Kitaran peningkatan pesat ini menjadikannya mencabar untuk membuat kesimpulan yang berkekalan tentang batasan asas berbanding halangan teknikal sementara.
Contoh Kegagalan Biasa LLM:
- Chess : Kehilangan jejak kedudukan buah catur pada langkah ke-9
- Alpha blending : Secara salah mendakwa pencampuran warna tidak menggunakan formula matematik
- Pengiraan huruf: Isu bersejarah dengan mengira huruf tertentu dalam perkataan (sebahagian besarnya telah diselesaikan dalam model yang lebih baharu)
- Thread safety : Kekeliruan mengenai operasi senarai Python dan tingkah laku GIL
Masalah Batasan Pembelajaran
Mungkin kekangan paling ketara yang dikenal pasti ialah ketidakupayaan LLMs untuk belajar semasa inferens. Tidak seperti manusia yang boleh membina pemahaman tentang kod asas baharu atau domain melalui interaksi, model semasa tidak dapat mengemas kini pengetahuan mereka dalam masa nyata. Batasan ini mempengaruhi keupayaan mereka untuk membangunkan pemahaman bernuansa tentang situasi novel atau domain khusus.
Perbincangan mendedahkan komuniti yang bergelut dengan keupayaan yang berkembang pesat. Walaupun skeptik menunjukkan batasan asas dalam cara LLMs memproses maklumat, yang lain berhujah bahawa kejayaan terkini dalam penaakulan matematik dan penyelesaian masalah menunjukkan keupayaan pemodelan dunia yang tulen. Kebenaran mungkin terletak di antara kedudukan ini, dengan sistem semasa menunjukkan keupayaan yang luar biasa dalam sesetengah domain sambil mengekalkan titik buta yang ketara dalam yang lain.
Memandangkan keupayaan AI terus maju dengan kelajuan yang sangat pantas, perdebatan mengenai model dunia mencerminkan persoalan yang lebih luas tentang sifat kecerdasan dan pemahaman dalam sistem buatan.
Rujukan: LLMs aren't world models