Pelancaran GPT-5 Gagal Memenuhi Jangkaan Ketika Dakwaan "Superinteligensi" OpenAI Berhadapan dengan Ujian Realiti

Pasukan Editorial BigGo

Pelancaran GPT-5 Gagal Memenuhi Jangkaan Ketika Dakwaan "Superinteligensi" OpenAI Berhadapan dengan Ujian Realiti

Model GPT-5 yang sangat dinanti-nantikan dari OpenAI telah tiba dengan sambutan kekecewaan, menandakan perubahan ketara daripada ramalan berani Ketua Pegawai Eksekutif Sam Altman mengenai superinteligensi yang akan datang. Pelancaran ini mewakili apa yang dianggap ramai sebagai ujian realiti yang membuka mata bagi dakwaan paling bercita-cita tinggi industri AI.

Prestasi Teknikal Menunjukkan Keputusan Bercampur-campur

Model baharu ini menunjukkan peningkatan berperingkat dalam sesetengah bidang sambil ketinggalan dalam bidang lain. GPT-5 berprestasi lebih baik daripada pendahulunya GPT-4o dalam tugasan seperti penciptaan permainan catur dan penulisan skrip video, dan ia boleh memperuntukkan model yang paling sesuai untuk tugasan tertentu secara bijak. Walau bagaimanapun, ia bergelut dengan tugasan penjanaan imej seperti gambar kecil YouTube dan jemputan parti hari jadi, di mana GPT-4o mengekalkan keunggulan.

Yang lebih membimbangkan ialah isu teknikal yang melanda pelancaran ini. Pengguna telah melaporkan respons yang perlahan, halusinasi, dan kesilapan yang mengejutkan. Mekanisme pertukaran model antara GPT-5 dan GPT-4o telah rosak, mewujudkan kekecewaan di kalangan pelanggan berbayar yang mengharapkan pengalaman premium.

Keputusan Penanda Aras Mendedahkan Kemajuan Terhad

Prestasi pada penanda aras AI yang dihormati menceritakan kisah yang membuka mata mengenai keupayaan GPT-5. Pada Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI-2), GPT-5 memperoleh hanya 9.9%, ketinggalan jauh di belakang Grok-4 milik Elon Musk pada 15.9%. Walaupun pada ujian ARC-AGI-1 yang lebih lama, GPT-5 mencapai ketepatan 67.5%, gagal mencapai model o3 OpenAI sendiri, yang memperoleh 76% pada Disember 2024.

Prestasi pengekodan memberikan satu lagi kekecewaan. Walaupun GPT-5 menunjukkan peningkatan dalam analisis repositori kod, ujian mendedahkan ia sebenarnya mewakili langkah mundur dalam keupayaan pengekodan keseluruhan, gagal menyampaikan kemajuan yang mengubah permainan yang dinanti-nantikan ramai.

Perbandingan Penanda Aras Kompetitif:

Grok-4 ( xAI ): 15.9% pada ARC-AGI-2
GPT-5 ( OpenAI ): 9.9% pada ARC-AGI-2
Model OpenAI o3: 76% pada ARC-AGI-1 (Disember 2024)
GPT-5: 67.5% pada ARC-AGI-1

Dilema Undang-undang Penskalaan

Prestasi GPT-5 yang mengecewakan telah mencetuskan semula perdebatan mengenai andaian asas yang memacu pembangunan AI. Undang-undang penskalaan, yang mencadangkan bahawa hanya meningkatkan saiz model dan keamatan latihan akan terus meningkatkan prestasi, nampaknya kehilangan kuasa ramalannya. Prinsip ini, yang digariskan dalam penyelidikan OpenAI 2020 dan nampaknya disahkan oleh kejayaan GPT-3, mungkin tidak lagi benar.

Pemerhati industri menyatakan bahawa walaupun GPT-3 adalah sepuluh kali lebih besar daripada GPT-2 dengan lonjakan prestasi yang sepadan, model terkini menunjukkan pulangan yang semakin berkurangan walaupun pelaburan sumber yang besar. Metafora pembangunan AI telah beralih daripada membina kereta yang lebih baik melalui pra-latihan kepada menjadi mekanik yang tertumpu pada peningkatan pasca-latihan.

Penolakan Akademik Terhadap Gembar-gembur AI

Penyelidik semakin mencabar dakwaan industri mengenai keupayaan penaakulan AI. Kajian terkini Apple menyimpulkan bahawa model penaakulan besar gagal untuk menaakulkan secara konsisten dalam apa-apa erti yang bermakna, menjadi tidak menentu apabila berhadapan dengan masalah yang kompleks. Penyelidikan mendapati bahawa model-model ini mengalami keruntuhan ketepatan sepenuhnya melebihi kerumitan tertentu.

Penyelidik Arizona State University juga telah menafikan persepsi penaakulan yang disengajakan dalam model AI. Mereka menggambarkan output rantaian pemikiran yang bertele-tele sebagai fatamorgana rapuh yang hilang apabila ditolak melebihi taburan latihan, mencadangkan bahawa keupayaan penaakulan yang kelihatan adalah lebih dangkal daripada yang kelihatan.

Implikasi Ekonomi Kemajuan yang Terbantut

Implikasinya melangkaui kekecewaan teknikal. Jika undang-undang penskalaan memang telah gagal, ekonomi AI mungkin jauh lebih kecil daripada yang diunjurkan. Penganalisis kini menganggarkan pasaran AI generatif boleh mencapai 50-100 bilion dolar Amerika Syarikat berbanding penilaian trilion dolar yang telah memacu kegilaan pelaburan baru-baru ini.

Penilaian semula ini datang pada masa kritikal apabila syarikat teknologi utama telah melabur 560 bilion dolar Amerika Syarikat dalam AI dalam tempoh 18 bulan yang lalu sambil menjana hanya 35 bilion dolar Amerika Syarikat hasil berkaitan. Dengan kira-kira 35% nilai pasaran saham Amerika Syarikat terikat kepada tujuh gergasi teknologi utama yang melabur besar dalam AI, kepentingan untuk kemajuan berterusan kekal besar.

Pelaburan Industri AI berbanding Hasil (18 bulan lalu):

Jumlah Pelaburan AI: USD 560 bilion
Hasil AI yang Dijana: USD 35 bilion
Nisbah Pelaburan-kepada-Hasil: 16:1

Memandang ke Hadapan

Pelancaran GPT-5 berfungsi sebagai momen penting bagi hubungan industri AI dengan realiti. Walaupun model ini mewakili kemajuan teknikal tulen, ia jauh daripada kejayaan revolusioner yang dijanjikan oleh retorik superinteligensi Altman. Ketika industri bergelut dengan batasan pendekatan semasa, tumpuan mungkin beralih ke arah jangkaan yang lebih realistik dan aplikasi praktikal berbanding dakwaan transformatif mengenai kecerdasan buatan am.