Ujian terkini terhadap tiga LLM komersial utama mendedahkan kelemahan mengejutkan dalam melaksanakan tugasan yang sepatutnya mudah. Apabila diminta untuk mengenal pasti domain peringkat tertinggi (TLD) yang berkongsi nama dengan elemen HTML5 yang sah, ChatGPT , Google Gemini , dan Claude semuanya menghasilkan keputusan yang tidak lengkap atau salah, menonjolkan jurang asas antara janji pemasaran AI dan prestasi dunia sebenar.
Tugasan Mudah Yang Mengelirukan AI
Cabaran ini kelihatan mudah: bandingkan dua senarai dan cari padanan antara nama TLD dan elemen HTML5. Jenis tugasan ini memerlukan akses kepada data terkini, rujuk silang maklumat, dan menyediakan keputusan lengkap. Walau bagaimanapun, ketiga-tiga sistem AI bergelut dengan ketara.
ChatGPT menyediakan enam padanan tetapi secara salah memasukkan .code sebagai TLD sedangkan hanya .codes yang wujud. Google Gemini salah faham sepenuhnya tugasan tersebut, menyenaraikan elemen HTML tanpa sebarang perbandingan TLD. Claude berprestasi terbaik dengan tujuh padanan betul tetapi masih terlepas beberapa gabungan sah dan cuba menjelaskan berlebihan dengan padanan tambahan yang meragukan.
Perbandingan Prestasi LLM pada Tugasan Padanan Elemen TLD-HTML5:
| Sistem AI | Padanan Betul Ditemui | Ralat Utama | Penilaian Prestasi |
|---|---|---|---|
| ChatGPT | 6 padanan | Termasuk TLD ".code" yang tidak wujud | Lemah |
| Google Gemini | 0 padanan | Salah faham tugasan sepenuhnya | Gagal |
| Claude | 7 padanan | Terlepas beberapa padanan yang sah | Terbaik daripada tiga |
| ChatGPT (Advanced) | 8+ padanan | Terlepas elemen ".search" | Baik dengan gesaan yang betul |
Komuniti Mendedahkan Masalah Sebenar
Respons komuniti teknologi menonjolkan pandangan penting tentang cara sistem ini sebenarnya berfungsi. Tidak seperti mempunyai akses kepada senarai komprehensif dan terkini, LLM menjana respons berdasarkan corak yang dipelajari semasa latihan. Mereka tidak mengekalkan pangkalan data terkini TLD atau elemen HTML yang boleh ditanya dengan pasti.
Beberapa ahli komuniti menunjukkan bahawa keputusan yang lebih baik boleh dicapai dengan meminta AI menulis kod yang memuat turun dan membandingkan senarai sebenar, daripada bergantung pada pengetahuan dalaman sistem. Pendekatan ini menganggap LLM sebagai pembantu pengaturcaraan dan bukannya orakel maklumat.
LLM ditambah alatan/kod adalah menakjubkan. LLM sahaja adalah profesor dengan masalah heroin berselang-seli.
Perdebatan Prompting
Perbincangan penting muncul mengenai sama ada keputusan buruk berpunca daripada teknik prompting yang tidak mencukupi. Ada yang berhujah bahawa menggunakan model yang lebih canggih dengan keupayaan carian dan penaakulan akan menyelesaikan masalah. Yang lain membalas bahawa jika tetapan lalai menghasilkan keputusan yang tidak boleh dipercayai, teknologi tersebut tidak bersedia untuk kegunaan arus perdana.
Ujian dengan prompting yang lebih canggih memang menghasilkan keputusan yang lebih baik dalam beberapa kes, tetapi ini menimbulkan persoalan tentang kebolehgunaan. Kebanyakan pengguna hanya membuka alatan ini dan bertanya soalan tanpa melaraskan tetapan atau mencipta prompt yang rumit. Jangkaan bahawa pengguna mesti menjadi pakar kejuruteraan prompt untuk mendapat jawapan yang boleh dipercayai bercanggah dengan mesej pemasaran pembantu AI yang ajaib.
Implikasi Lebih Luas untuk Kebolehpercayaan AI
Contoh ini menggambarkan corak yang lebih luas di mana LLM cemerlang dalam tugasan yang memerlukan respons yang kedengaran munasabah tetapi bergelut dengan ketepatan dan kelengkapan. Sistem ini direka untuk menjana teks yang kedengaran berwibawa, walaupun maklumat asas tidak lengkap atau salah.
Perbincangan komuniti mendedahkan bahawa ramai profesional berjaya menggunakan alatan ini dengan memahami batasan mereka dan mereka bentuk alir kerja sewajarnya. Daripada mengharapkan jawapan langsung kepada soalan fakta, pengguna berpengalaman memanfaatkan LLM untuk penjanaan kod, transformasi teks, dan tugasan kreatif di mana ketepatan sempurna tidak kritikal.
Batasan Teknikal Utama yang Dikenal Pasti:
- Tiada Akses Data Masa Nyata: LLM tidak mengekalkan pangkalan data semasa bagi TLD atau elemen HTML
- Penjanaan Berasaskan Corak: Respons berdasarkan corak data latihan, bukan carian fakta
- Isu Kelengkapan: Bergelut dengan penjanaan senarai lengkap dan tugasan perbandingan
- Masalah Tokenisasi: Kesukaran dengan analisis peringkat aksara (contohnya, mengira huruf dalam perkataan)
- Keracunan Konteks: Ralat awal dalam perbualan mempengaruhi respons seterusnya
- Batasan Model Lalai: Model asas sering tidak mencukupi untuk tugasan ketepatan
Kesimpulan
Walaupun LLM telah terbukti berharga untuk banyak aplikasi, ujian ini menunjukkan kepentingan memahami batasan asas mereka. Jurang antara janji pemasaran dan keupayaan sebenar kekal ketara, terutamanya untuk tugasan yang memerlukan maklumat terkini, lengkap, dan tepat. Pengguna yang mencapai keputusan terbaik menganggap sistem ini sebagai penjana teks yang canggih dan bukannya sumber pengetahuan yang boleh dipercayai, mereka bentuk alir kerja mereka untuk mengambil kira kelemahan teknologi yang wujud.
Rujukan: LLMs are still surprisingly bad at some simple tasks
