Kod Claude Menunjukkan Potensi dalam Pembuktian Teorem Formal, Tetapi Komuniti Memberi Amaran Mengenai "Masalah 90%"

Pasukan Komuniti BigGo
Kod Claude Menunjukkan Potensi dalam Pembuktian Teorem Formal, Tetapi Komuniti Memberi Amaran Mengenai "Masalah 90%"

Pembuktian teorem interaktif telah lama dianggap sebagai salah satu bidang yang paling mencabar dalam sains komputer. Alat seperti Lean memerlukan pengguna menulis bukti matematik dalam bahasa formal yang boleh disahkan oleh komputer dengan kepastian mutlak. Tidak seperti pengaturcaraan biasa di mana pepijat mungkin terlepas, pembuktian teorem sama ada menerima bukti anda sebagai matematik yang kukuh atau menolaknya sepenuhnya. Sifat semua-atau-tiada ini telah menjadikan bidang ini hanya boleh diakses oleh pakar dengan latihan matematik yang mendalam.

Eksperimen terkini dengan Claude Code , ejen pengekodan AI Anthropic , menunjukkan halangan ini mungkin semakin berkurangan. AI ini telah menunjukkan keupayaan yang mengejutkan dalam menulis bukti Lean , menyelesaikan tugas-tugas pemformalan matematik yang kompleks yang biasanya memerlukan pengetahuan khusus. Kelebihan utama nampaknya adalah sistem maklum balas ketat Lean - apabila AI membuat kesilapan, ia menerima maklumat terperinci dan boleh dilaksanakan tentang apa yang salah, membolehkannya mengulang dan memperbaiki pendekatannya.

Alat Pembuktian Teorem Interaktif: Lean ditonjolkan sebagai alat utama, dengan hampir setengah juta baris kod matematik yang diformalkan

Corak Biasa Batasan Kemajuan AI

Walau bagaimanapun, komuniti telah membangkitkan kebimbangan yang ketara mengenai corak yang mereka lihat berulang kali dengan alat AI. Ramai pembangun melaporkan bahawa AI boleh mengendalikan 80% awal projek dengan cemerlang, tetapi bergelut hebat dengan 20% terakhir. Fenomena ini, kadangkala dipanggil masalah 90%, menjadi lebih ketara apabila projek berkembang dalam kerumitan dan memerlukan penyelesaian yang semakin khusus.

Sesiapa yang telah menggunakan alat AI telah melihat kes di mana 80% pertama projek bersatu seperti kilat, tetapi 20% terakhir hampir mustahil untuk AI capai, walaupun ia tidak kelihatan lebih kompleks daripada kod yang lain.

Kebimbangan ini amat relevan untuk pembuktian teorem, di mana kerja yang tidak lengkap tidak mempunyai nilai. Tidak seperti pembangunan perisian di mana penyelesaian separa masih boleh berguna, bukti matematik mesti lengkap untuk bermakna. Ini mewujudkan persekitaran berisiko tinggi di mana kecenderungan AI untuk bergelut dengan butiran akhir boleh terbukti bermasalah terutamanya.

Corak Pembangunan AI: Komuniti melaporkan "peraturan 80/20" yang konsisten di mana AI menyelesaikan 80% projek dengan mudah tetapi bergelut dengan 20% yang terakhir

Cabaran Spesifikasi Kekal

Selain masalah penyiapan terletak isu yang lebih mendalam yang AI belum selesaikan: cabaran mencipta spesifikasi yang betul. Seperti yang dinyatakan oleh seorang ahli komuniti, menulis program bukanlah bahagian yang sukar - mengetahui dengan tepat apa yang sepatutnya dilakukan oleh program adalah di mana kesukaran sebenar terletak. Masalah ini menjadi lebih kritikal dalam pengesahan formal, di mana anda mesti menangkap dengan tepat bukan sahaja apa yang kod anda lakukan, tetapi apa yang sepatutnya dilakukan secara matematik.

Risikonya ialah pengguna mungkin berakhir dengan bukti yang disahkan secara formal yang sebenarnya tidak mewakili masalah yang mereka ingin selesaikan. Walaupun Claude Code boleh menulis sintaks Lean yang sempurna, seseorang masih memerlukan kepakaran untuk memastikan kenyataan matematik yang dibuktikan adalah yang betul. Ini menunjukkan bahawa walaupun AI mungkin menurunkan beberapa halangan untuk masuk, pengetahuan domain yang mendalam kekal penting.

Arah yang Menjanjikan Walaupun Ada Batasan

Walaupun kebimbangan ini, gabungan AI dan pengesahan formal mewakili perkembangan yang menarik. Pembuktian teorem menyediakan tepat apa yang AI perlukan untuk bertambah baik: maklum balas segera dan terperinci tentang kesilapan. Apabila Claude Code membuat kesilapan dalam Lean , ia mendapat maklumat tepat tentang apa yang salah dan boleh mengulang ke arah penyelesaian. Ini mewujudkan gelung pembelajaran semula jadi yang tidak wujud dalam banyak domain lain.

Komuniti nampaknya berhati-hati optimistik tentang arah ini, terutamanya untuk pengguna yang sudah memahami konsep matematik yang mereka ingin formalkan. Untuk pakar ini, bantuan AI boleh mengurangkan dengan ketara aspek membosankan penulisan bukti sambil masih memerlukan pengawasan manusia untuk kerja konseptual. Teknologi ini mungkin tidak menghapuskan keperluan untuk kepakaran matematik, tetapi ia boleh menjadikan kepakaran itu lebih produktif.

Kuncinya ialah menguruskan jangkaan dan memahami batasan alat. Seperti aplikasi AI lain, pengguna yang paling berjaya mungkin adalah mereka yang menggunakannya untuk menambah kemahiran sedia ada mereka daripada menggantikan keperluan mereka untuk memahami domain asas.

Rujukan: Claude Can (Sometimes) Prove It