Ejen ChatGPT OpenAI Menunjukkan Potensi tetapi Bergelut dengan Ketepatan dan Kebolehpercayaan dalam Ujian Menyeluruh

Pasukan Editorial BigGo

Ejen ChatGPT OpenAI Menunjukkan Potensi tetapi Bergelut dengan Ketepatan dan Kebolehpercayaan dalam Ujian Menyeluruh

Ejen ChatGPT yang baru dikeluarkan oleh OpenAI mewakili langkah maju yang bercita-cita tinggi dalam automasi AI, menggabungkan keupayaan pelayaran web dengan pelaksanaan tugas. Walau bagaimanapun, ujian dunia sebenar yang meluas mendedahkan alat yang masih mencari kedudukannya, memberikan hasil yang tidak konsisten yang berkisar daripada mengagumkan hingga bermasalah.

Struktur Harga Mewujudkan Halangan Tinggi untuk Masuk

Ejen ChatGPT pada masa ini eksklusif kepada pelanggan peringkat Pro pada harga dolar Amerika 200 sebulan, menawarkan 400 interaksi ejen bulanan. Apabila ciri ini dilancarkan kepada pelanggan Plus pada harga dolar Amerika 20 bulanan, mereka akan menerima hanya 40 interaksi. Model penetapan harga ini mencerminkan intensiti pengiraan perkhidmatan, tetapi ujian menunjukkan pengguna akan memerlukan beberapa pertanyaan bagi setiap projek, dengan berkesan mengurangkan bilangan praktik tugas yang boleh diselesaikan.

Perbandingan Harga:

Peringkat Pro: USD 200/bulan, 400 interaksi ejen
Peringkat Plus: USD 20/bulan, 40 interaksi ejen (akan datang tidak lama lagi)
Penggunaan praktikal: Jangkakan 20-25 projek kerana diperlukan pertanyaan susulan

Keputusan Prestasi Menunjukkan Ketidakkonsistenan yang Ketara

Ujian menyeluruh merentasi lapan senario berbeza mendedahkan corak hasil bercampur yang membimbangkan. Ejen tersebut menunjukkan pemahaman yang kukuh terhadap kebanyakan masalah tetapi kerap gagal melaksanakan tugas dengan berkesan. Pelayaran web terbukti amat mencabar, dengan ejen bergelut untuk menatal melalui halaman dan disekat oleh sekatan AI di banyak laman web. Tamat masa sesi juga mengganggu tugas pemprosesan yang lebih lama, walaupun pada peringkat Pro premium.

Ringkasan Keputusan Ujian:

Jumlah ujian yang dijalankan: 8 senario komprehensif
Julat masa pemprosesan: 2-32 minit bagi setiap tugasan
Kadar kejayaan: 1 keputusan hampir sempurna, 7 dengan isu ketara
Masalah biasa: Pautan rosak, maklumat halusinasi, kualiti grafik yang lemah

Kebimbangan Ketepatan Menimbulkan Persoalan Penggunaan Profesional

Kecenderungan ejen untuk berhalusinasi maklumat menimbulkan kebimbangan serius untuk aplikasi profesional. Semasa carian produk Amazon , alat tersebut memberikan pautan produk yang tidak wujud dan cadangan yang direka-reka. Apabila ditugaskan untuk mencipta pembentangan, ia menghasilkan slaid dengan teks bertindih, legenda yang hilang, dan kualiti grafik yang lemah. Yang paling membimbangkan, apabila satu pembentangan yang dijana AI disemak fakta oleh sesi Ejen ChatGPT yang lain, hanya lima daripada tujuh belas titik data boleh disahkan sepenuhnya, manakala sesi GPT-4o standard sebelum ini telah mengesahkan semua penegasan.

Keputusan Pengesahan Ketepatan: Apabila pembentangan yang dijana AI disemak fakta:

Disahkan sepenuhnya: 5/17 titik data
Kebanyakannya disahkan: 6/17 titik data
Sebahagiannya disahkan: 4/17 titik data
Tidak disahkan: 2/17 titik data

Had Teknikal Menghalang Projek Kompleks

Ejen tersebut bergelut dengan projek analisis data berskala besar yang biasanya memerlukan bantuan AI. Isu keserasian pelayar menghalang penggunaan dalam aplikasi macOS , dan menjalankan beberapa sesi ejen serentak menyebabkan sistem terhenti. Had ini dengan ketara mengurangkan utiliti alat untuk jenis penyelidikan menyeluruh dan tugas analisis yang akan menjadikan kos langganan tinggi berbaloi.

Had Teknikal:

Tidak dapat mengendalikan projek analisis data berskala besar
Menghadapi masalah dengan skrol halaman web
Disekat oleh sekatan AI/robots.txt di banyak laman web
Tamat masa sesi mengganggu tugasan pemprosesan yang panjang
Tidak serasi dengan aplikasi macOS
Tidak dapat menjalankan berbilang sesi secara serentak

Kejayaan Cemerlang Menunjukkan Potensi Masa Depan

Walaupun terdapat banyak kekurangan, satu kes ujian memberikan hasil yang luar biasa. Apabila diminta untuk menganalisis kod bangunan untuk keperluan pemasangan pagar, ejen tersebut menghasilkan analisis yang tepat dan terperinci dengan rajah yang berfungsi dalam masa empat minit sahaja. Tugas ini, yang sebelum ini memerlukan komunikasi meluas dengan pejabat perancangan bandar, telah diselesaikan dengan pembentangan dan organisasi gred profesional. Kejayaan ini menyerlahkan potensi teknologi apabila ia berfungsi seperti yang dimaksudkan.

Pengalaman Pengguna Terasa Mengganggu dan Tidak Semula Jadi

Tingkah laku ejen mewujudkan pengalaman pelayaran yang menakutkan, dengan kursor hantu bergerak merentasi skrin dan naratif orang pertama tentang tindakannya. Beberapa ejen serentak menjadi terlalu membebankan untuk dipantau, dan tiruan hambar mereka terhadap corak pelayaran web manusia terasa lebih seperti meniru daripada pemahaman tulen. Kesan lembah aneh ini mungkin menghalang penerimaan pengguna walaupun keupayaan teknikal bertambah baik.

Implikasi Pasaran untuk Pengiklanan Digital

Penerimaan meluas ejen AI boleh mengganggu model pengiklanan digital secara asasnya. Pelayar automatik ini sebahagian besarnya mengabaikan iklan paparan semasa menyelesaikan tugas, berpotensi mengurangkan pendedahan manusia kepada iklan. Jika ketepatan bertambah baik dan pengguna tidak lagi perlu memantau aktiviti ejen, pasaran iklan digital yang sudah bergelut boleh menghadapi cabaran selanjutnya kerana lebih sedikit mata manusia melihat kandungan promosi.

Keadaan semasa Ejen ChatGPT mencadangkan teknologi dengan potensi ketara yang masih terhalang oleh isu kebolehpercayaan dan kos tinggi. Walaupun kilatan kecemerlangan sekali-sekala menunjukkan apa yang mungkin, prestasi yang tidak konsisten dan kesilapan yang kerap menjadikannya sukar untuk disyorkan untuk kegunaan profesional pada peringkat ini.