Percubaan bercita-cita tinggi seorang ahli matematik untuk mencipta ujian yang ketat bagi keupayaan matematik kecerdasan buatan telah menghadapi halangan yang ketara, menonjolkan perdebatan berterusan tentang keupayaan penyelesaian masalah sebenar AI berbanding pemadanan corak.
Inisiatif ini, yang dilancarkan oleh seorang penyelidik yang ingin bergerak melampaui gembar-gembur AI , bertujuan untuk mengumpulkan pangkalan data rahsia masalah teori nombor yang mencabar yang benar-benar akan menguji sama ada sistem AI boleh berfikir secara matematik pada tahap penyelidikan. Matlamatnya adalah untuk membezakan antara penaakulan matematik tulen dan pengecaman corak canggih yang mencirikan prestasi AI semasa.
Keperluan Sasaran: Minimum 20 masalah teori nombor peringkat penyelidikan, dengan jawapan berupa integer, memerlukan pengetahuan peringkat PhD yang tidak diajar kepada pelajar sarjana muda.
Cabaran Teras: Pemadanan Corak vs Pemahaman Sebenar
Isu asas yang mendorong eksperimen ini berpunca daripada keraguan tentang kehebatan matematik AI . Walaupun sistem AI boleh mengendalikan matematik peringkat sarjana muda dengan berkesan, pengkritik berhujah bahawa kejayaan ini datang daripada pemadanan corak pintar dan bukannya pemahaman matematik tulen. Prestasi AI semasa dalam tugasan matematik sering bergantung pada mengenali jenis masalah yang biasa dan menggunakan corak penyelesaian yang dihafal.
Had ini menjadi amat jelas apabila sistem AI menghadapi kertas matematik lanjutan. Perbincangan komuniti mendedahkan bahawa AI gagal sepenuhnya apabila diminta memberikan anotasi terperinci atau contoh berangka untuk penyelidikan matematik yang kompleks, terutamanya apabila tiada penjelasan serupa wujud dalam talian untuk sistem rujuk.
Perjuangan Penciptaan Pangkalan Data dan Respons Industri
Rancangan asal memerlukan pengumpulan sekurang-kurangnya 20 masalah teori nombor peringkat penyelidikan, dengan setiap syarikat AI utama dibenarkan satu percubaan untuk menyelesaikannya. Walau bagaimanapun, menurut maklum balas komuniti, projek itu gagal mengumpul masalah yang mencukupi dan akhirnya ditinggalkan selepas kira-kira enam bulan.
Cabaran itu menonjolkan masalah ujian kritikal: sebaik sahaja soalan matematik menjadi umum melalui penilaian AI , ia menjadi tercemar dan tidak boleh digunakan untuk penilaian masa depan. Ini mewujudkan had asas untuk usaha penilaian matematik AI yang berterusan.
Garis Masa Projek: Panggilan awal untuk masalah pada akhir Januari 2025, dengan permohonan ditutup pada 28 Februari 2025. Projek telah ditinggalkan selepas kira-kira 6 bulan disebabkan oleh penyerahan masalah yang tidak mencukupi.
Implikasi Lebih Luas untuk Keupayaan Matematik AI
Eksperimen yang gagal itu mencerminkan persoalan yang lebih besar tentang peranan AI dalam penyelidikan matematik. Walaupun teknologi menunjukkan potensi untuk mempercepatkan aspek tertentu kerja matematik, ia tidak dapat menggantikan wawasan dan kreativiti matematik manusia.
Membaca kertas, memberikan contoh berangka tentang apa yang dinyatakan kertas dan memberikan beberapa ringkasan bahasa Inggeris biasa kepada bahagian yang paling padat sepatutnya menjadi apa yang sistem pemprosesan bahasa lakukan dengan terbaik. Kami tidak memintanya untuk menghasilkan idea asal di sini.
Komuniti matematik kekal berpecah tentang potensi impak AI . Ada yang melihat nilai dalam AI sebagai alat pecutan penyelidikan, manakala yang lain mempersoalkan sama ada pendekatan semasa boleh mencapai penaakulan matematik sebenar dan bukannya peniruan canggih.
Cabaran yang ditinggalkan itu berfungsi sebagai peringatan bahawa walaupun kemajuan mengagumkan dalam keupayaan AI , jurang ketara kekal antara prestasi semasa dan jenis pemikiran matematik mendalam yang mendorong kejayaan penyelidikan. Semasa AI terus berkembang, komuniti matematik terus mencari cara yang lebih baik untuk menilai keupayaan penaakulan tulen berbanding kehebatan pengecaman corak.
Rujukan: Xena