Komuniti AI sedang bergelut dengan percanggahan yang membingungkan. Walaupun model terkini daripada OpenAI dan Google telah mencapai prestasi pingat emas pada International Mathematical Olympiad 2025, sistem yang sama ini bergelut dengan tugasan asas yang mengejutkan yang kebanyakan manusia boleh kendalikan dengan mudah.
Paradoks Prestasi AI yang Hebat
Ketidakselarasan ini telah mencetuskan perdebatan sengit dalam kalangan pembangun dan penyelidik. Model bahasa termaju kini boleh menyelesaikan masalah matematik kompleks yang mencabar pelajar paling bijak di dunia, namun mereka secara konsisten gagal dalam aritmetik asas dengan nombor besar dan bahkan kalah dalam tic-tac-toe - permainan yang telah diselesaikan secara matematik selama beberapa dekad.
Perbincangan komuniti mendedahkan kedalaman masalah ini. GPT-5 dan model serupa tidak boleh menambah dua nombor bulat besar dengan boleh dipercayai tanpa kalkulator, sering membuat kesilapan semasa menyalin hasil yang telah mereka kira dengan betul. Lebih mengejutkan lagi, sistem ini akan dengan yakin membuat gerakan yang lemah dalam tic-tac-toe selepas menghabiskan masa yang signifikan memikirkan permainan tersebut.
Nota: International Mathematical Olympiad adalah pertandingan tahunan yang menampilkan masalah matematik sekolah menengah yang paling mencabar di dunia.
Perbandingan Prestasi AI mengikut Jenis Tugasan:
Kategori Tugasan | Tahap Prestasi | Contoh | Batasan Utama |
---|---|---|---|
"Sasaran Mudah" | Tahap pingat emas | Masalah matematik IMO , cabaran pengkodan | Kecerdasan model |
"Sasaran Sukar" | Lemah hingga sederhana | Pembentangan lembaga, operasi perniagaan | Jurang konteks dan spesifikasi |
Aritmetik Asas | Tidak konsisten | Penambahan nombor besar, tic-tac-toe | Ralat tokenisasi dan penaakulan |
Mengapa Konteks Lebih Penting daripada Kecerdasan Mentah
Perbezaan utama terletak pada cara masalah distrukturkan. Masalah olimpiad matematik datang dengan spesifikasi formal yang lengkap yang mengandungi semua maklumat yang diperlukan untuk penyelesaian. Tiada kekaburan tentang apa yang merupakan jawapan yang betul. Sebaliknya, tugasan dunia sebenar wujud dalam persekitaran yang berselerak dan dinamik di mana konteks penting tersebar merentasi e-mel, mesyuarat, dan pengetahuan orang ramai.
Ini menjelaskan mengapa model mungkin cemerlang dalam membuktikan teorem kompleks tetapi bergelut untuk menulis pembentangan lembaga yang berkesan. Masalah matematik mempunyai jurang spesifikasi yang jelas iaitu sifar, manakala tugasan perniagaan memerlukan pemahaman strategi syarikat, dinamik lembaga, keputusan terkini, dan kekangan yang tidak diucapkan.
Keperluan untuk Penyelesaian Tugas AI yang Berkesan:
• Spesifikasi Masalah: Definisi yang tepat bagi keperluan tugas dengan kekaburan yang minimum
• Konteks: Pengetahuan tempatan termasuk sejarah syarikat, keputusan, dan kekangan
• Penyelesai: Model AI dengan alat dan keupayaan yang sesuai
• Jurang Spesifikasi: Ketidakpastian yang tinggal selepas definisi masalah - jurang yang lebih kecil membawa kepada prestasi AI yang lebih baik
Kesesakan Manusia dalam Automasi AI
Walaupun terdapat impian syarikat berjalan dengan 90% ejen AI , had semasa menunjukkan kita masih jauh dari realiti tersebut. Kesesakan bukanlah kecerdasan model tetapi usaha manusia yang besar yang diperlukan untuk menentukan tugasan dengan jelas dan menyediakan konteks yang relevan. Setiap alir kerja memerlukan spesifikasi yang direka dengan teliti dan saluran konteks - mimpi ngeri penyelenggaraan untuk organisasi dengan beribu-ribu proses yang saling bergantung.
Manusia akan bergelut, tetapi mereka akan mengenali perkara yang mereka perlu ketahui, dan mencari orang yang mungkin mempunyai maklumat yang relevan.
Ini menyerlahkan kelebihan penting yang dikekalkan manusia: keupayaan untuk mengenali jurang pengetahuan dan secara aktif mencari maklumat yang hilang, sesuatu yang sistem AI semasa tidak boleh lakukan dengan boleh dipercayai.
Jalan Ke Hadapan untuk Automasi AI
Komuniti melihat penyelesaian berpotensi muncul. Sistem pengurusan konteks yang lebih baik, ingatan episodik yang diperbaiki untuk ejen AI , dan tetingkap konteks yang lebih panjang boleh membantu merapatkan jurang. Sesetengah pembangun melaporkan kejayaan menggunakan alir kerja berbilang langkah yang memeriksa pangkalan pengetahuan sebelum dan selepas setiap permintaan AI .
Walau bagaimanapun, cabaran asas kekal. Sehingga sistem AI boleh mengenal pasti dengan boleh dipercayai apa yang mereka tidak tahu dan secara aktif mengumpul konteks yang hilang, pengawasan manusia akan kekal penting untuk kebanyakan aplikasi praktikal. Masa depan automasi AI mungkin bergantung kurang pada menjadikan model lebih pintar dan lebih pada membina sistem yang lebih baik untuk menangkap, mengatur, dan menyampaikan konteks yang diperlukan oleh model ini untuk berjaya.
Nota: Sistem ingatan episodik membolehkan AI menyimpan dan mengingat kembali pengalaman atau interaksi tertentu, serupa dengan cara manusia mengingat peristiwa lampau.
Rujukan: Model intelligence is no longer the constraint for automation