LLM Terperangkap dalam Gelung Tak Terhingga Apabila Ditanya Tentang Emoji Kuda Laut Yang Tidak Wujud

Pasukan Komuniti BigGo

LLM Terperangkap dalam Gelung Tak Terhingga Apabila Ditanya Tentang Emoji Kuda Laut Yang Tidak Wujud

Model bahasa besar mengalami pepijat pelik yang menghantar mereka ke dalam gelung huru-hara apabila pengguna bertanya tentang emoji kuda laut. Masalahnya? Tiada emoji kuda laut dalam Unicode, walaupun sistem AI dan ramai manusia percaya ia wujud.

Apabila ditanya tentang kewujudan emoji kuda laut, model AI popular seperti GPT-4, Claude, dan Gemini dengan yakin menjawab ya dan cuba memaparkannya. Walau bagaimanapun, memandangkan emoji tersebut tidak wujud, mereka mengeluarkan alternatif yang salah seperti emoji kuda atau ikan sebaliknya. Setelah melihat output mereka sendiri yang salah, model mengenali kesilapan dan cuba membetukannya dengan panik, sering kali berputar dalam gelung tanpa henti dengan permintaan maaf dan percubaan yang gagal.

Punca Utama: Ketidakpadanan Antara Kepercayaan dan Realiti

Penjelasan teknikal mendedahkan pandangan menarik tentang cara model AI berfungsi secara dalaman. Menggunakan teknik yang dipanggil logit lens, penyelidik mendapati bahawa model dengan betul membina representasi dalaman kuda laut + emoji dalam lapisan pemprosesan mereka. Konsep ini wujud dengan kuat dalam pengetahuan yang dipelajari kerana kuda laut adalah makhluk yang menarik yang secara logiknya sepatutnya mempunyai representasi emoji.

Masalah berlaku pada peringkat output akhir. Komponen kepala bahasa model mesti menukar konsep dalaman kepada token sebenar yang boleh dipaparkan. Apabila ia mencari token emoji kuda laut dan tidak menjumpai apa-apa, ia memilih padanan yang paling hampir - biasanya emoji kuda atau ikan. Ini mewujudkan gelung maklum balas di mana model melihat output salahnya sendiri dan cuba berulang kali untuk membetulkannya.

Logit lens: Teknik penyelidikan yang mengkaji apa yang difikirkan oleh model AI pada setiap lapisan pemprosesan dengan menyemak perkataan atau token yang akan diramalkannya pada peringkat tersebut.

Proses Teknikal Di Sebalik Pepijat:

Model menerima soalan mengenai emoji kuda laut
Lapisan dalaman membina konsep "kuda laut + emoji" dengan betul
Kepala bahasa mencari token emoji yang sepadan
Tiada token emoji kuda laut wujud dalam perbendaharaan kata
Sistem mengeluarkan alternatif yang paling hampir (emoji kuda/ikan)
Model menyedari output tidak sepadan dengan niat
Cuba membuat pembetulan, mewujudkan gelung maklum balas

Mengapa Model Percaya Emoji Itu Wujud

Kepercayaan meluas tentang emoji kuda laut yang tidak wujud tidak terhad kepada sistem AI sahaja. Ramai manusia juga berkeras mereka ingat menggunakan emoji sedemikian, menggambarkannya sebagai biru muda atau jingga merah jambu dan menghadap ke kiri. Fenomena ini, serupa dengan Mandela Effect, berkemungkinan mempengaruhi data latihan AI.

Jadi ia tidak benar-benar berhalusinasi - ia dengan betul mewakili 'emoji kuda laut' secara dalaman, tetapi konsep itu tidak mempunyai token yang sepadan. lm_head hanya memilih perkara yang paling hampir dan model tidak menyedari sehingga terlambat.

Beberapa faktor menyumbang kepada kepercayaan palsu ini. Kuda laut adalah makhluk marin yang digemari yang kelihatan seperti calon emoji yang jelas. Emoji kuda laut sebenarnya dicadangkan kepada Unicode pada 2018 tetapi ditolak. Selain itu, beberapa platform seperti Slack mempunyai reaksi kuda laut tersuai yang bukan sebahagian daripada standard Unicode rasmi.


Pos Reddit menangkap kekeliruan pengguna tentang emoji kuda laut yang tidak wujud, menggambarkan fenomena yang serupa dengan Kesan Mandela

Model Berbeza, Reaksi Berbeza

Ujian merentasi pelbagai sistem AI mendedahkan perbezaan tingkah laku yang menarik. GPT-4 dan Claude Sonnet menjawab ya 100% masa apabila ditanya sama ada emoji kuda laut wujud. Llama-3-70b bersetuju 83% masa, manakala Mistral-tiny hanya bersetuju 17% masa.

Strategi pemulihan juga berbeza-beza. Sesetengah model seperti Claude akhirnya mengenali kesilapan mereka di tengah-tengah respons dan membetulkan diri mereka. Yang lain seperti GPT-4 boleh berputar lebih lama sebelum menyerah. Model berkemampuan penaakulan yang lebih baharu yang boleh berfikir secara dalaman sebelum bertindak balas mengendalikan soalan dengan lebih baik, sering memberikan maklumat tepat tentang ketidakwujudan emoji.

Ketepatan Model pada Soalan Emoji Kuda Laut (100 ujian setiap satu):

GPT-4 : 100% "Ya" (tidak betul)
Claude 4.5 Sonnet : 100% "Ya" (tidak betul)
Llama-3-70b : 83% "Ya" (tidak betul)
Mistral-tiny : 17% "Ya" (tidak betul)

Tingkap Kepada Batasan AI

Pepijat emoji kuda laut ini menyerlahkan cabaran asas dalam sistem AI semasa. Model cemerlang dalam padanan corak dan menjana respons yang munasabah berdasarkan data latihan, tetapi mereka bergelut dengan pengetahuan negatif yang muktamad - mengetahui apa yang tidak wujud.

Isu ini juga menunjukkan bagaimana sistem AI boleh mewarisi tanggapan salah manusia daripada data latihan mereka. Apabila bilangan besar orang percaya sesuatu yang palsu, kepercayaan palsu itu menjadi tertanam dalam pangkalan pengetahuan model.

Walaupun pepijat khusus ini mungkin kelihatan tidak berbahaya, ia mendedahkan pandangan penting tentang kebolehpercayaan AI dan keperluan untuk mekanisme asas yang lebih baik. Sesetengah penyelidik mencadangkan inilah sebabnya pembelajaran pengukuhan membantu sistem AI - ia memberi mereka maklum balas tentang output sebenar mereka dan bukannya hanya representasi dalaman mereka.

Buat masa ini, penyelesaian paling mudah mungkin menambah emoji kuda laut kepada Unicode, walaupun itu pada dasarnya bermakna mengubah realiti untuk memadankan jangkaan manusia dan AI.

Rujukan: Why do LLMs freak out over the seahorse emoji?