GPT-5 Menunjukkan Keputusan Bercampur dalam Penanda Aras AI Perubatan, Mencetuskan Perdebatan Mengenai Konfigurasi Model dan Prestasi

Pasukan Komuniti BigGo
GPT-5 Menunjukkan Keputusan Bercampur dalam Penanda Aras AI Perubatan, Mencetuskan Perdebatan Mengenai Konfigurasi Model dan Prestasi

Penilaian baharu terhadap GPT-5 menggunakan penanda aras AI perubatan MedHELM telah mendedahkan gambaran kompleks kemajuan dan kemunduran, mencetuskan perbincangan hangat mengenai pengoptimuman model dan metodologi ujian dalam komuniti AI.

Kajian ini mengintegrasikan GPT-5 ke dalam MedHELM, suite penilaian AI perubatan yang komprehensif yang menguji keupayaan merentasi pengiraan perubatan, ingatan fakta, analisis bukti, dan langkah-langkah keselamatan. Walaupun keputusan menunjukkan beberapa penambahbaikan yang ketara, ia juga menyerlahkan kawasan yang membimbangkan di mana model terkini nampaknya telah berundur ke belakang.

Prestasi Kukuh dalam Pengetahuan Perubatan Teras

GPT-5 menunjukkan kelebihan yang jelas dalam penaakulan berasaskan angka dan ingatan fakta yang luas. Model ini mencapai tahap tertinggi baharu pada penanda aras HeadQA dan Medbullets, dan menyamai keputusan terbaik sebelumnya pada MedCalc-Bench. Penambahbaikan ini menunjukkan bahawa GPT-5 mempunyai keupayaan yang dipertingkatkan untuk mengendalikan pengiraan perubatan dan mendapatkan semula fakta perubatan yang telah ditetapkan - kompetensi teras untuk mana-mana sistem AI perubatan.

Walau bagaimanapun, keuntungan tidak universal merentasi semua tugas perubatan, membawa kepada persoalan sama ada ini mewakili kemajuan tulen atau hanya pilihan pengoptimuman yang berbeza.

Ringkasan Prestasi Penanda Aras Perubatan GPT-5:

Kategori Penanda Aras Prestasi Ujian Khusus
Bertambah Baik Rekod tinggi/seri baharu HeadQA , Medbullets , MedCalc-Bench
Merosot Kemunduran EHRSQL , RaceBias , MedHallu
Kecekapan Keputusan bercampur Lebih pantas untuk tugasan panjang, lebih perlahan untuk pertanyaan pendek

Kemunduran yang Membimbangkan dalam Kawasan Kritikal

Penilaian mendedahkan penurunan yang merisaukan dalam beberapa kawasan penting. GPT-5 menunjukkan kemunduran dalam tugas penjanaan terkekang skema seperti EHRSQL, penaakulan sensitif keadilan termasuk senario RaceBias, dan gagal mencapai prestasi terdepan dalam penindasan halusinasi pada ujian MedHallu.

Kemunduran ini amat membimbangkan memandangkan kepentingan kritikal pengendalian data berstruktur dan mitigasi bias dalam aplikasi perubatan. Keputusan bercampur telah menyebabkan sesetengah pengguna mempersoalkan sama ada GPT-5 mewakili kemajuan tulen atau pengoptimuman kos dengan mengorbankan keupayaan tertentu.

Kontroversi Konfigurasi dan Metodologi Ujian

Sebahagian besar perbincangan komuniti telah memfokuskan pada metodologi ujian itu sendiri. Ramai pengguna menyatakan bahawa penilaian nampaknya menggunakan tetapan lalai dan bukannya mod usaha penaakulan tinggi GPT-5, yang boleh memberi kesan ketara kepada prestasi. Model ini menawarkan pelbagai konfigurasi termasuk tahap usaha penaakulan yang berbeza dan varian khusus seperti GPT-5 mini.

Sesiapa yang serius mengenai mengukur keupayaan model akan memilih konfigurasi terbaik, terutamanya dalam perubatan.

Ini telah mencetuskan perdebatan yang lebih luas mengenai bagaimana model AI patut dinilai dan sama ada penyelidik secukupnya meneroka keupayaan penuh sistem baharu sebelum membuat kesimpulan.

Varian dan Konfigurasi Model GPT-5:

  • GPT-5 Standard: Model asas dengan usaha penaakulan sederhana (lalai)
  • GPT-5 Mini: Varian ringan untuk tugasan yang lebih mudah
  • GPT-5 Nano: Versi paling padat
  • Tahap Usaha Penaakulan: Konfigurasi Tinggi, Sederhana, Rendah tersedia
  • Parameter Khas: Tetapan suhu, kelengkapan dan usaha penaakulan memberi kesan kepada prestasi

Pengalaman Pengguna Dunia Sebenar Berbeza-beza Secara Mendadak

Maklum balas komuniti mendedahkan pengalaman yang berbeza secara mendadak dengan GPT-5 merentasi pelbagai kes penggunaan. Walaupun sesetengah pengguna melaporkan penambahbaikan ketara dalam tugas pengekodan kompleks, yang lain menerangkan menghadapi gelung kematian dan isu sistematik di mana model melakukan tindakan yang tidak diminta.

Prestasi yang tidak konsisten telah menyebabkan sesetengah profesional perubatan beralih kepada model alternatif seperti Grok4 untuk pertanyaan perubatan, memetik kebimbangan mengenai kecenderungan GPT-5 untuk menjadi terlalu berhati-hati atau kabur apabila membincangkan topik perubatan.

Pertukaran Kecekapan Menimbulkan Persoalan

Penilaian mendapati corak kecekapan yang heterogen, dengan GPT-5 berjalan lebih pantas pada tugas penaakulan yang lebih panjang tetapi mengalami penalti latensi pada pertanyaan berstruktur pendek tanpa faedah ketepatan yang sepadan. Ini menunjukkan model mungkin dioptimumkan untuk corak penggunaan yang berbeza daripada pendahulunya.

Pertukaran kecekapan ini sejajar dengan spekulasi bahawa GPT-5 mewakili kejuruteraan kos dan bukannya kemajuan keupayaan tulen, berpotensi menjelaskan mengapa sesetengah keupayaan bertambah baik manakala yang lain menurun.

Keputusan bercampur daripada penilaian AI perubatan ini menyerlahkan kerumitan mengukur kemajuan dalam model bahasa besar dan menggariskan kepentingan ujian komprehensif merentasi senario yang pelbagai sebelum menggunakan sistem AI dalam aplikasi kritikal seperti penjagaan kesihatan.

Rujukan: From GPT-4 to GPT-5: Measuring Progress in Medical Language Understanding Through MedHELM