Pembangun Menguji Kemahiran Komedi Model AI Terkini dengan Keputusan Bercampur-campur

Pasukan Komuniti BigGo
Pembangun Menguji Kemahiran Komedi Model AI Terkini dengan Keputusan Bercampur-campur

Komuniti teknologi telah aktif menguji sama ada model bahasa AI terkini dapat menceritakan jenaka yang benar-benar lucu, mencetuskan perbincangan yang lebih luas mengenai batasan asas sistem AI semasa. Walaupun sesetengah pengguna melaporkan peningkatan sederhana dalam model yang lebih baharu seperti GPT-5 dan Gemini 2.5, keputusan masih sebahagian besarnya mengecewakan bagi mereka yang mencari humor setaraf manusia.

Ujian Dunia Sebenar Menunjukkan Kemajuan Beransur-ansur

Ahli komuniti telah menjalankan eksperimen mereka sendiri dengan pelbagai model AI. Seorang pengguna menguji ChatGPT-5 pada jenaka festival komedi Edinburgh Fringe terkini, memberikannya markah hanya 2 daripada 10 untuk respons yang benar-benar lucu. Walau bagaimanapun, yang lain menyatakan bahawa model yang lebih baharu seperti Gemini 2.5 kadang-kadang menghasilkan kandungan yang benar-benar menghiburkan dan boleh bermain bersama dengan senario jenaka dengan lebih semula jadi berbanding versi yang lebih lama.

Ujian tersebut mendedahkan corak yang menarik. Apabila pengguna memberikan gesaan yang lebih terperinci yang menerangkan teori di sebalik jenaka yang baik - bahawa ia sepatutnya mengejutkan namun tidak dapat dielakkan apabila difikirkan semula - sesetengah model menghasilkan keputusan yang ketara lebih baik. Gesaan mudah seperti ceritakan jenaka kepada saya secara konsisten menghasilkan hasil yang lemah merentasi semua model yang diuji.

Keputusan Ujian Prestasi Komedi Model AI:

  • ChatGPT-5 pada jenaka Edinburgh Fringe: kadar kejayaan 2/10
  • GPT-4.5: Penambahbaikan yang ketara dalam keupayaan humor
  • Gemini 2.5: Kadang-kadang menghasilkan ketawa tulen, penglibatan senario yang lebih baik
  • Pelarasan suhu: Penambahbaikan yang tidak konsisten dalam kualiti jenaka

Cabaran Seni Bina Di Sebalik Humor AI

Isu teras nampaknya berpunca daripada cara sistem AI ini dilatih. Model bahasa belajar dengan meramalkan perkataan seterusnya yang paling berkemungkinan dalam urutan, pada dasarnya melatih mereka untuk meminimumkan kejutan. Ini mewujudkan ketegangan asas dengan humor, yang bergantung pada putaran yang tidak dijangka yang entah bagaimana terasa tidak dapat dielakkan setelah didedahkan.

Humor gred profesional adalah, seperti banyak latihan kreatif, lebih kepada menjana banyak idea dan menapisnya untuk yang terbaik daripada menjana hanya idea yang baik sahaja.

Pendekatan latihan ini bermakna sistem AI secara semula jadi cenderung ke arah respons yang paling biasa dan paling kurang mengejutkan apabila diminta untuk jenaka. Mereka cenderung menghasilkan apa yang mungkin didapati oleh majoriti orang sebagai sedikit menghiburkan daripada mencipta humor yang benar-benar bijak atau asli.

Batasan Teknikal Utama yang Dikenal Pasti:

  • Latihan ramalan token seterusnya meminimumkan kejutan
  • Penalaan halus keselamatan mengehadkan pengambilan risiko kreatif
  • Kecenderungan ke arah humor berasaskan konsensus berbanding keaslian
  • Kesukaran mengimbangi kejutan dengan koheren logik

Ciri Keselamatan Mungkin Menghalang Prestasi Komedi

Komplikasi tambahan datang daripada langkah keselamatan yang dibina ke dalam sistem AI komersial. Model-model ini disetel halus untuk mengutamakan ketepatan fakta dan mengelakkan kandungan yang berpotensi menyinggung perasaan - kualiti yang boleh bertentangan dengan penceritaan jenaka yang berkesan. Banyak jenaka yang berjaya bergantung pada bermain dengan jangkaan, menggunakan permainan kata, atau menyentuh topik yang mungkin dielakkan oleh sistem yang berfokuskan keselamatan.

Sesetengah pengguna menyatakan bahawa meminta model AI untuk meningkatkan suhu (membenarkan pilihan perkataan yang lebih tidak dijangka) atau menggunakan teknik gesaan yang lebih eksperimental boleh menghasilkan keputusan komedi yang lebih baik, walaupun ini kekal tidak konsisten.

Memandang ke Hadapan: Pendekatan Hibrid Mungkin Memegang Harapan

Perbincangan telah membawa kepada spekulasi mengenai seni bina AI masa depan yang mungkin lebih baik mengendalikan tugas kreatif yang memerlukan kejutan terkawal. Daripada hanya meningkatkan skala model bahasa semasa, penyelidik mungkin perlu membangunkan sistem hibrid yang sengaja boleh mencari jenis kejutan yang betul sambil mengekalkan koheren.

Buat masa ini, konsensus di kalangan penguji mencadangkan bahawa walaupun keupayaan humor AI perlahan-lahan bertambah baik dengan setiap generasi model, ia masih jauh daripada menyamai pelawak manusia. Model-model menunjukkan lebih banyak harapan sebagai alat sumbang saran untuk pelawak manusia daripada sebagai sumber hiburan yang berdiri sendiri.

Rujukan: LLMs generate slop because they avoid surprises by design