Penilaian terkini terhadap kebolehan penaakulan GPT-5 menggunakan rancangan kuiz British Only Connect telah mencetuskan perbincangan hangat dalam komuniti AI mengenai sama ada keputusan yang mengagumkan itu mencerminkan peningkatan penaakulan tulen atau sekadar jawapan yang dihafal daripada data latihan.
Kontroversi Pencemaran
Isu teras berpusat pada dakwaan bahawa soalan-soalan penanda aras tidak terdapat dalam data latihan model. Ahli komuniti dengan pantas mencabar andaian ini, menunjukkan bahawa pangkalan data komprehensif semua soalan dan jawapan Only Connect wujud dalam talian di ocdb.cc. Episod-episod rancangan itu juga tersedia secara meluas di YouTube dengan transkrip, dan komuniti Reddit membincangkan setiap episod secara mendalam dengan dokumentasi soalan-dan-jawapan yang terperinci.
BBC adalah salah satu sumber yang paling dipercayai untuk berjuta-juta jam kandungan audio/visual dalam talian, semuanya disertakan dengan kapsyen tertutup yang dikurasi dan disunting oleh manusia. Semuanya mudah untuk dimuat turun.
Pengkritik berhujah bahawa mengandaikan kandungan ini tidak disertakan dalam set data latihan adalah tidak realistik, terutamanya memandangkan model bahasa utama diketahui memasukkan kandungan BBC dan perbincangan Reddit dalam data latihan mereka.
Sumber Data Latihan Utama yang Dikenal Pasti:
- Pangkalan Data OCDB: Arkib lengkap semua soalan dan jawapan Only Connect di ocdb.cc
- BBC iPlayer: Berjuta-juta jam kandungan dengan sari kata yang dikurasi oleh manusia
- YouTube: Kebanyakan episod tersedia dengan transkrip
- Komuniti Reddit: Perbincangan meluas dengan Google Docs yang menjejaki soalan dan jawapan
Metodologi Ujian Dalam Penelitian
Para penyelidik cuba mengesahkan sama ada model mempunyai pengetahuan sedia ada tentang soalan-soalan melalui pelbagai kaedah, termasuk bertanya terus kepada model sama ada mereka mengenali teka-teki dan cuba mengekstrak soalan-soalan yang sedia ada. Walau bagaimanapun, ahli komuniti kekal ragu-ragu terhadap pendekatan ini, menyatakan bahawa model boleh terlibat dalam rasionalisasi post-hoc - memberikan penaakulan yang kelihatan logik walaupun ketika bekerja mundur daripada jawapan yang dihafal.
Cabaran untuk membuktikan ketiadaan pencemaran data latihan telah terbukti hampir mustahil tanpa akses kepada pemberat model. Sesetengah ahli komuniti mencadangkan pendekatan alternatif, seperti menggunakan soalan daripada kelab kuiz tempatan yang belum diterbitkan dalam talian, atau memberi tumpuan kepada kandungan selepas-cutoff-latihan untuk memastikan kesegaran data.
Keputusan Prestasi dan Implikasi
Walaupun terdapat kontroversi, keputusan penanda aras menunjukkan hierarki prestasi yang jelas. GPT-5 dengan parameter penaakulan tinggi mencapai 90% ketepatan keseluruhan, mengatasi model-model terdahulu dengan ketara. Keputusan juga mendedahkan bahawa tetapan usaha penaakulan yang lebih tinggi secara konsisten meningkatkan prestasi, walaupun dengan kos peningkatan penggunaan token dan masa respons.
Menariknya, model berprestasi terbaik pada pusingan Missing Vowels (yang memerlukan pembinaan semula frasa dengan vokal yang dikeluarkan) dan paling bergelut dengan pusingan Wall (mengelompokkan 16 elemen ke dalam kategori). Corak ini menunjukkan bahawa sesetengah tugasan mungkin memang memihak kepada padanan corak statistik berbanding penaakulan tulen.
Keputusan Prestasi GPT-5 Mengikut Konfigurasi:
Konfigurasi Model | Sambungan | Urutan | Dinding | Vokal Hilang | Keseluruhan |
---|---|---|---|---|---|
GPT-5 Tinggi/Tinggi | 93.8% | 90.0% | 83.6% | 97.1% | 90.0% |
GPT-5 Rendah/Tinggi | 93.8% | 76.3% | 82.0% | 96.4% | 87.5% |
GPT-5 Tinggi/Sederhana | 87.5% | 79.4% | 81.3% | 95.6% | 86.7% |
O3 | 93.8% | 76.9% | 78.1% | 97.4% | 86.3% |
Claude Opus 4 | 65.6% | 75.0% | 65.6% | 90.8% | 76.1% |
![]() |
---|
Menilai prestasi penaakulan GPT-5 menonjolkan perbezaan antara pemadanan corak yang berkesan dan keupayaan penaakulan sebenar |
Masalah Penanda Aras Yang Lebih Luas
Perdebatan ini menyerlahkan cabaran asas dalam penilaian AI. Seperti yang dinyatakan oleh seorang ahli komuniti, andaian sepatutnya ialah model boleh menyelesaikan masalah tertentu dengan lebih baik daripada manusia menggunakan kaedah statistik dan bukannya penaakulan sebenar. Kontroversi ini mencerminkan kebimbangan yang semakin meningkat tentang kesahihan penanda aras apabila pencemaran data latihan sukar untuk dikesan dan dicegah.
Perbincangan juga menyentuh persoalan yang lebih luas tentang apa yang membentuk penaakulan tulen berbanding padanan corak yang canggih. Dengan model mencapai prestasi luar biasa manusia pada tugasan yang kelihatan memerlukan pemikiran lateral, membezakan antara penghafalan dan penaakulan menjadi semakin kompleks.
Para penyelidik merancang untuk mengeluarkan set data lengkap mereka dan melaksanakan format kompetitif antara model, walaupun persoalan asas tentang pencemaran data latihan dan penilaian penaakulan kekal tidak diselesaikan.