Pada Mei 2023, saintis komputer terkenal Donald Knuth telah menguji ChatGPT dengan 20 soalan mencabar, mendedahkan kelemahan ketara dalam keupayaan penaakulan sistem AI tersebut. Kini, hampir dua tahun kemudian, komuniti teknologi sedang meninjau semula soalan-soalan yang sama dengan GPT-5 , mendedahkan peningkatan dramatik dalam keupayaan AI .
Garis Masa Asal Cabaran Knuth
- Mei 2023: Donald Knuth menerbitkan 20 soalan mencabar untuk ChatGPT
- 626 komen dan 927 mata pada perbincangan asal
- GPT-3.5 digunakan terutamanya dalam ujian asal
- 2025: Komuniti meninjau semula soalan-soalan dengan GPT-5
GPT-5 Memberikan Penaakulan Matematik Yang Lebih Tepat
Model baharu ini menunjukkan kemajuan besar dalam masalah matematik yang sebelum ini menyukarkan versi-versi terdahulu. Satu peningkatan yang amat ketara melibatkan definisi matematik yang kompleks dan kes-kes terpinggir. Apabila ditanya tentang pekali binomial dengan integer negatif, GPT-5 memberikan penjelasan bernuansa tentang bagaimana Wolfram mentakrifkan objek matematik ini, mengakui konvensyen yang berbeza dan pertukaran mereka. Ini mewakili lonjakan ketara daripada jawapan yang keliru atau tidak betul yang mencirikan model-model terdahulu.
Walau bagaimanapun, beberapa batasan asas masih berterusan. Model ini masih bergelut dengan tugasan pengiraan huruf asas, gagal membina ayat menggunakan hanya perkataan lima huruf. Kelemahan ini berpunca daripada cara sistem AI ini memproses bahasa melalui kepingan perkataan dan bukannya huruf individu, menjadikan tugasan peringkat aksara mengejutkan sukar.
Batasan Berterusan
- Pengiraan huruf dan tugasan peringkat aksara
- Pembinaan ayat dengan keperluan panjang perkataan yang khusus
- Isu tokenisasi dengan BPE ( Byte Pair Encoding )
- Ralat halus yang mungkin lebih sukar untuk dikesan
Prestasi Pengaturcaraan Menunjukkan Peningkatan Luar Biasa
Mungkin keuntungan yang paling mengagumkan muncul dalam tugasan pengaturcaraan. GPT-5 menunjukkan pemahaman yang jauh lebih kuat tentang pembangunan perisian, menghasilkan kod yang bukan sahaja betul tetapi juga berstruktur baik dan praktikal. Pengguna melaporkan bahawa model ini boleh menghasilkan program canggih dengan ciri berguna yang tidak diminta secara eksplisit, menunjukkan pemahaman yang lebih baik tentang apa yang menjadikan kod benar-benar membantu.
Buku nota yang dihasilkannya adalah 100% betul, sangat berguna, dan dibina secara umum supaya saya boleh dengan mudah mengubah pemetaan untuk meneroka jenis fungsi yang berbeza.
Peningkatan pengaturcaraan ini melangkaui ketepatan sintaks mudah untuk memasukkan keputusan seni bina yang lebih baik dan struktur kod yang lebih boleh diselenggara.
Bidang Penambahbaikan Utama dalam GPT-5
- Penaakulan matematik dengan kes-kes tepi yang kompleks
- Penjanaan kod dan seni bina perisian
- Pengurangan kekerapan jawapan yang jelas salah
- Pengendalian yang lebih baik untuk tugas-tugas pengaturcaraan Wolfram/Mathematica
Kebimbangan Kepercayaan dan Kebolehpercayaan Kekal
Walaupun kemajuan ini, komuniti terus bergelut dengan soalan asas tentang kebolehpercayaan AI . Sesetengah pengguna menyatakan bahawa walaupun GPT-5 memberikan jawapan yang jelas salah lebih sedikit, peningkatan ini mungkin sebenarnya menjadikan sistem lebih berbahaya dengan menjadikan ralat kurang dapat dikesan. Kebimbangan tertumpu pada ketidaktepatan halus yang boleh terlepas daripada semakan manusia, terutamanya dalam domain di mana pengguna tidak mempunyai kepakaran mendalam.
Perbincangan mendedahkan cabaran berterusan dalam pembangunan AI : mengimbangi peningkatan keupayaan dengan kebolehpercayaan. Apabila sistem ini menjadi lebih canggih, mereka mungkin menjadi lebih baik dalam menghasilkan maklumat yang meyakinkan tetapi tidak betul, menjadikan pengesahan manusia lebih penting dan lebih sukar.
Melihat Ke Hadapan
Kemajuan daripada GPT-3.5 kepada GPT-5 mewakili kemajuan ketara dalam keupayaan AI , terutamanya dalam penaakulan matematik dan penjanaan kod. Walau bagaimanapun, cabaran berterusan dengan tugasan asas seperti pengiraan huruf berfungsi sebagai peringatan bahawa sistem ini masih mempunyai batasan asas. Apabila teknologi terus berkembang, keseimbangan antara keupayaan dan kebolehpercayaan kekal sebagai pertimbangan kritikal untuk kedua-dua pembangun dan pengguna.
Rujukan: DAIKIN.AI Q&A