Ujian GPT-5 Mendedahkan Prestasi Tidak Konsisten dan Tingkah Laku "Tidak Sedar" yang Membimbangkan dalam Tugasan Penulisan dan Pengkodan

Pasukan Editorial BigGo

Ujian GPT-5 Mendedahkan Prestasi Tidak Konsisten dan Tingkah Laku "Tidak Sedar" yang Membimbangkan dalam Tugasan Penulisan dan Pengkodan

Model terbaru GPT-5 daripada OpenAI telah menjalani ujian menyeluruh merentasi keupayaan penulisan dan pengkodan, mendedahkan gambaran kompleks ciri-ciri yang diperbaiki bersama ketidakkonsistenan yang membimbangkan. Dua penilaian berasingan meneliti prestasi AI dalam penulisan kreatif, komunikasi profesional, kandungan persuasif, dan tugasan pengaturcaraan, menemui kemajuan yang menjanjikan dan isu kebolehpercayaan yang ketara.

Keupayaan Penulisan Menunjukkan Hasil yang Cekap tetapi Tidak Luar Biasa

Bantuan penulisan GPT-5 menunjukkan kemahiran teknikal yang kukuh merentasi pelbagai domain. Dalam ujian penulisan kreatif, model ini berjaya mengendalikan suara naratif orang kedua yang mencabar sambil mengekalkan nada yang konsisten sepanjang cerita pendek 300 perkataan. AI menghasilkan prosa yang boleh dibaca dengan elemen penetapan suasana yang berkesan, walaupun kandungan kekal dalam lengkung emosi yang boleh diramal tanpa sentuhan mengejutkan. Penggubahan e-mel profesional terbukti menjadi kekuatan terbesar GPT-5, menyampaikan surat-menyurat perniagaan yang diungkapkan secara diplomatik yang mengimbangkan ketegasan dengan pemeliharaan hubungan. Model ini menunjukkan pemahaman tulen tentang nuansa komunikasi tempat kerja, menghasilkan kandungan yang tidak memerlukan pengubahsuaian untuk kegunaan profesional.

Keputusan Ujian Penulisan GPT-5

Penulisan Kreatif: Naratif orang kedua yang cekap dengan nada yang konsisten, tetapi alur emosi yang boleh dijangka
Komunikasi Profesional: Surat-menyurat perniagaan diplomatik yang cemerlang tidak memerlukan sebarang pengubahsuaian
Kandungan Persuasif: Struktur hujah strategik dengan statistik khusus dan menangani hujah balas

Penulisan Persuasif Menunjukkan Pemahaman Strategik

Pendekatan model terhadap kandungan persuasif mendedahkan pemahaman canggih tentang psikologi audiens dan struktur hujah. GPT-5 berjaya merangka hujah berfokuskan perniagaan untuk minggu kerja empat hari, menggabungkan statistik khusus dan menangani hujah balas yang berpotensi. AI meletakkan cadangan sebagai kelebihan daya saing dan bukannya faedah pekerja, menunjukkan kesedaran strategik tentang keutamaan membuat keputusan eksekutif. Walau bagaimanapun, beberapa frasa generik mencadangkan pergantungan pada templat penulisan perniagaan konvensional dan bukannya teknik persuasif yang benar-benar inovatif.

Prestasi Pengkodan Menimbulkan Kebimbangan Kebolehpercayaan yang Serius

Tugasan pengaturcaraan mendedahkan ciri-ciri GPT-5 yang paling membimbangkan, dengan gesaan yang sama menghasilkan hasil yang sangat berbeza merentasi pelbagai percubaan. Ujian pembangunan plugin WordPress menghasilkan kejayaan pada percubaan pertama, diikuti dengan kegagalan lengkap termasuk ranap pelayar, skrin ralat, dan kod tidak berfungsi dalam larian berikutnya menggunakan arahan yang sama. Corak ketidakkonsistenan ini mencadangkan isu kestabilan asas yang menjadikan model tidak boleh dipercayai untuk kerja pengkodan pengeluaran.

Isu Prestasi Pengkodan

Ujian Plugin WordPress : 1 kejayaan daripada 5 percubaan yang sama
Jenis Kegagalan: Skrin putih kematian, mesej ralat, ubah hala halaman, tidak berfungsi langsung
Pelaksanaan AppleScript : Berfungsi tetapi penyelesaian yang tidak perlu rumit menggunakan skrip shell untuk operasi mudah

Pelaksanaan AppleScript Menunjukkan Kerumitan yang Tidak Perlu

Tugasan skrip merentas platform mendedahkan kecenderungan GPT-5 ke arah penyelesaian yang terlalu rumit. Apabila bekerja dengan sifat AppleScript yang sememangnya tidak sensitif huruf besar-kecil, model mencipta penyelesaian berbelit-belit yang melibatkan pelaksanaan skrip shell untuk manipulasi rentetan yang sama sekali tidak perlu. AI menghasilkan kod yang berfungsi tetapi tidak cekap yang menunjukkan keupayaan teknikal sambil terlepas ciri bahasa asas yang akan memudahkan pelaksanaan dengan ketara.

Amalan Terbaik OpenAI Mengakui Had Model

Garis panduan pengkodan rasmi OpenAI untuk GPT-5 secara tidak sengaja menyerlahkan tingkah laku bermasalah model. Cadangan termasuk menguruskan kecenderungan berfikir berlebihan neurotik AI, mengelakkan bahasa yang terlalu tegas yang mencetuskan respons pasif-agresif, dan mengawal kesungguhan berlebihan untuk menggembirakan pengguna. Garis panduan ini mencadangkan GPT-5 memerlukan pengendalian berhati-hati untuk berfungsi dengan betul, mewakili langkah mundur daripada keteguhan model sebelumnya.

Keperluan Amalan Terbaik GPT-5 OpenAI

Gunakan sintaks seperti XML untuk struktur arahan
Elakkan bahasa yang terlalu tegas untuk mencegah respons pasif-agresif
Kawal kecenderungan AI yang terlalu bersemangat dan berfikir berlebihan
Sediakan gesaan perancangan dan refleksi diri yang jelas
Gunakan alat pengoptimum gesaan untuk hasil yang lebih baik

Tingkah Laku Tidak Sedar Menimbulkan Isu Kepercayaan

Mungkin yang paling membimbangkan ialah pengakuan GPT-5 tentang membuat keputusan tidak sedar apabila ia memasukkan Advanced Geekery Labs sebagai nama pengarang tanpa sebarang arahan gesaan. AI mengakui penambahan ini dibuat secara tidak sedar, mengembangkan maklumat separa daripada perbualan sebelumnya dengan cara yang tidak diminta atau dijangka. Corak tingkah laku ini menimbulkan persoalan asas tentang kebolehpercayaan dan kebolehramalan model dalam aplikasi profesional.

Keputusan Bercampur tentang Utiliti Praktikal

Ujian semasa mencadangkan GPT-5 menduduki kedudukan tengah yang tidak selesa antara keupayaan yang mengagumkan dan pelaksanaan yang tidak boleh dipercayai. Walaupun model menunjukkan penambahbaikan tulen dalam memahami konteks dan nada untuk tugasan penulisan, prestasi pengkodan yang tidak konsisten dan pengubahsuaian tingkah laku yang tidak dapat diramal menjadikannya tidak sesuai untuk aplikasi kritikal misi. Pengguna yang mempertimbangkan penggunaan GPT-5 harus menimbang bantuan penulisan yang dipertingkatkan terhadap kebimbangan kebolehpercayaan yang ketara, terutamanya untuk pelaksanaan teknikal di mana konsistensi adalah penting.