Penilaian terkini terhadap model kecerdasan buatan pada Olimpiad Matematik Antarabangsa 2025 telah mendedahkan jurang yang ketara antara keupayaan AI semasa dengan penaakulan matematik manusia. Walaupun menggunakan teknik pengkomputeran canggih dan sumber kewangan yang besar, model AI berprestasi terbaik hanya mencapai ketepatan 31%, jauh daripada ambang pingat gangsa.
Keputusan Prestasi Menunjukkan Had yang Jelas
Gemini 2.5 Pro muncul sebagai pencapaian tertinggi antara lima model yang diuji, memperoleh 13 daripada 42 mata. Ini mewakili kira-kira satu pertiga daripada masalah yang diselesaikan dengan betul, tetapi jatuh jauh di bawah 19 mata yang diperlukan untuk pingat gangsa. Penilaian ini menelan kos kira-kira 400 dolar Amerika untuk hanya 24 jawapan daripada Gemini , menonjolkan sifat mahal inferens AI semasa pada skala besar.
Model-model utama lain berprestasi lebih teruk lagi. Grok-4 dan DeepSeek-R1 ketinggalan jauh ke belakang, dengan banyak respons terdiri daripada jawapan akhir kosong tanpa justifikasi matematik. Komuniti telah mencatatkan corak ini merentasi pelbagai penanda aras, mencadangkan isu asas dengan pendekatan model-model ini terhadap penaakulan matematik.
Perbandingan Prestasi Model
- Gemini 2.5 Pro: 13/42 mata (31% ketepatan) - Prestasi terbaik
- Grok-4: Prestasi jauh lebih rendah, sering memberikan jawapan tanpa justifikasi
- DeepSeek-R1: Prestasi kurang memuaskan berbanding penanda aras lain
- o3 dan o4-mini: Prestasi tidak dinyatakan secara khusus tetapi di bawah ambang pingat gangsa
- Keperluan pingat gangsa: 19/42 mata (45% ketepatan)
Kuasa Pengkomputeran Tidak Merapatkan Jurang
Penyelidik menggunakan strategi pemilihan terbaik-daripada-32, menghasilkan 32 respons berbeza untuk setiap masalah dan menggunakan model AI itu sendiri untuk menilai jawapan mana yang terkuat. Pendekatan gaya kejohanan ini meningkatkan keputusan dengan ketara berbanding percubaan tunggal, namun masih tidak dapat mencapai prestasi tahap pingat.
Keperluan pengkomputeran adalah besar. Setiap jawapan akhir menelan kos sekurang-kurangnya 3 dolar Amerika untuk dihasilkan secara purata, dengan respons Grok-4 menelan kos lebih 20 dolar Amerika setiap satu. Ini menimbulkan persoalan tentang kebolehskalaan praktikal penaakulan matematik AI semasa, terutamanya apabila keputusan masih jauh daripada prestasi pakar manusia.
Kos Pengkomputeran
- Purata kos setiap jawapan akhir: $3+ USD
- Kos Grok-4 setiap jawapan: $20+ USD
- Jumlah kos untuk penilaian Gemini 2.5 Pro : $400 USD untuk 24 jawapan
- Kaedah: Pemilihan terbaik daripada 32 dengan penghakiman gaya turnamen
- Had token: Maksimum 64,000 token setiap model
Isu Kualiti Berterusan dalam Penaakulan Matematik AI
Penilaian mendedahkan beberapa corak yang membimbangkan dalam tingkah laku AI. Gemini 2.5 Pro terus memetik teorem matematik yang tidak wujud apabila bergelut dengan pembuktian, walaupun tingkah laku ini kelihatan kurang kerap berbanding penilaian sebelumnya. Fabrikasi autoriti matematik sedemikian menjejaskan kepercayaan terhadap kandungan matematik yang dihasilkan AI.
Menariknya, model-model sering menerima kredit separa kerana mengenal pasti strategi yang betul tetapi gagal melaksanakan pembuktian yang sewajarnya. Hakim manusia mencatatkan bahawa respons AI kerap mengandungi jurang logik yang agak mudah untuk dielakkan oleh ahli matematik manusia. Ini mencadangkan model memahami konsep matematik pada tahap permukaan tetapi bergelut dengan penaakulan logik yang ketat.
Komuniti Membahaskan Piawaian Penilaian AI
Keputusan telah mencetuskan perbincangan tentang penanda aras yang sesuai untuk keupayaan AI. Sesetengah ahli komuniti berhujah bahawa membandingkan AI dengan manusia berprestasi tertinggi dalam domain khusus terlepas maksud aplikasi AI praktikal. Kebanyakan masalah harian tidak memerlukan kreativiti matematik tahap olimpiad.
Walau bagaimanapun, yang lain berpendapat bahawa penaakulan matematik mewakili ujian penting kecerdasan tulen berbanding pemadanan corak. Fakta bahawa model-model ini boleh mengakses berjuta-juta masalah serupa melalui data latihan mereka namun masih gagal dalam cabaran matematik novel mencadangkan had asas dalam seni bina AI semasa.
Orang biasa teruk dalam hampir semua perkara. Jika saya mahu sesuatu dilakukan, saya akan mencari seseorang dengan set kemahiran yang sepadan dengan masalah tersebut.
Metodologi Penilaian
- Model yang diuji: 5 LLM terkini ( o3 , o4-mini , Gemini-2.5-Pro , Grok-4 , DeepSeek-R1 )
- Penjurian: 4 pakar manusia dengan kepakaran matematik peringkat IMO
- Pemarkahan: Maksimum 7 mata setiap masalah, 42 mata keseluruhan
- Proses pemilihan: 32 respons dijana, penyingkiran gaya turnamen menggunakan penilaian kendiri model
- Masa penilaian: Serta-merta selepas keluaran masalah IMO 2025 untuk mengelakkan pencemaran
![]() |
---|
Imej podium dengan pemenang manusia dan robot yang keliru melambangkan perdebatan berterusan mengenai keupayaan penaakulan matematik AI berbanding prestasi manusia |
Dakwaan Bercanggah Menambah Ketidakpastian
Menambah kerumitan kepada penilaian, OpenAI mengumumkan bahawa model eksperimen yang belum dikeluarkan mencapai prestasi pingat emas pada masalah yang sama. Walau bagaimanapun, dakwaan ini tidak mempunyai pengesahan bebas dan melibatkan sumber pengkomputeran tanpa had, menjadikan perbandingan langsung sukar.
Komuniti kekal skeptikal terhadap dakwaan yang tidak disahkan, terutamanya memandangkan insentif kewangan yang besar dalam industri AI. Tanpa metodologi telus dan keputusan yang boleh dihasilkan semula, pengumuman sedemikian menyumbang sedikit kepada pemahaman keupayaan AI sebenar.
Penilaian IMO 2025 menunjukkan bahawa walaupun kemajuan mengagumkan dalam penjanaan bahasa, model AI semasa masih bergelut dengan jenis penaakulan kreatif dan logik yang diperlukan penyelesaian masalah matematik. Walaupun mereka menunjukkan harapan dalam mengenal pasti strategi yang relevan, pelaksanaan pembuktian matematik yang ketat kekal sebagai cabaran ketara untuk sistem kecerdasan buatan.
Rujukan: Not Even Bronze: Evaluating LLMs on 2025 International Math Olympiad