Perbincangan panel terkini di San Francisco telah mencetuskan perdebatan sengit dalam komuniti teknologi mengenai mengapa pelaksanaan ejen AI gagal pada kadar yang begitu membimbangkan. Acara tersebut, yang menampilkan jurutera dari syarikat AI utama, mendedahkan bahawa 95% pelaksanaan ejen AI gagal dalam persekitaran pengeluaran - tetapi bukan atas sebab yang dijangka kebanyakan orang.
Statistik Kegagalan Ejen AI:
- 95% daripada penggunaan ejen AI gagal dalam pengeluaran
- Kegagalan dikaitkan dengan isu perancah, bukan kecerdasan model
- Kawasan kegagalan utama: kejuruteraan konteks, keselamatan, pengurusan memori
Masalah Sebenar Bukan Kecerdasan AI
Perbincangan tersebut telah mendedahkan kebenaran yang mengejutkan dan bergema di seluruh komuniti pembangun. Kegagalan ejen AI dalam pengeluaran bukan kerana model asas kekurangan kecerdasan. Sebaliknya, punca masalahnya terletak pada infrastruktur kejuruteraan yang kompleks yang mengelilingi model-model ini - apa yang pakar panggil sebagai perancah.
Perancah ini termasuk kejuruteraan konteks, protokol keselamatan, pengurusan memori, dan sistem penghalaan berbilang model. Komponen-komponen ini bekerja bersama untuk menjadikan ejen AI boleh dipercayai dan dipercayai dalam aplikasi dunia sebenar. Apabila mana-mana bahagian sistem ini gagal, keseluruhan pelaksanaan AI menjadi tidak boleh dipercayai.
Cabaran Teknikal Utama:
- Pemilihan dan pengesahan konteks
- Penyelarasan dan penghalaan pelbagai model
- Pelaksanaan lapisan semantik
- Reka bentuk dan pengurusan memori
- Keperluan kebolehpercayaan deterministik
Text-to-SQL: Hello World AI yang Mengelirukan
Satu bidang yang menjana perbincangan ketara dalam komuniti ialah aplikasi text-to-SQL. Sistem ini kelihatan mudah di permukaan - ia menterjemahkan soalan bahasa semula jadi kepada pertanyaan pangkalan data. Walau bagaimanapun, pembangun mendapati bahawa kesederhanaan yang ketara ini menyembunyikan kerumitan yang besar.
Cabaran ini berpunca daripada sifat bahasa manusia yang samar-samar apabila digunakan untuk operasi pangkalan data yang tepat. Apabila pengguna bertanya tentang hasil atau pengguna aktif, AI mesti memahami bukan sahaja perkataan, tetapi konteks perniagaan khusus dan struktur pangkalan data. Ini memerlukan kerja kejuruteraan yang meluas untuk memetakan konsep bahasa semula jadi kepada skema pangkalan data yang tepat dan definisi perniagaan.
Bahasa semula jadi adalah samar-samar. Semantik pangkalan data, semantik domain, dan soalan pengguna serta definisi syarikat tentang 'hasil' atau 'pengguna aktif' tidak semua dipetakan tanpa kejuruteraan yang jelas.
Paradoks Sistem Pakar
Ahli komuniti telah mengenal pasti corak yang membimbangkan dalam pendekatan pembangunan AI semasa. Untuk menjadikan ejen AI cukup boleh dipercayai untuk kegunaan pengeluaran, pembangun membina sistem berasaskan peraturan yang canggih, penghurai yang ketat, dan pengesah output. Komponen-komponen ini mengendalikan logik perniagaan dan melindungi daripada ralat AI.
Walau bagaimanapun, pendekatan ini mewujudkan situasi yang ironis. Jika pembangun mesti membina semua logik perniagaan sendiri untuk menjadikan AI boleh dipercayai, mereka pada dasarnya telah mencipta semula sistem pakar dari dekad yang lalu. Ada yang berpendapat ini menjadikan komponen AI tidak perlu - jika anda telah membina 100% logik perniagaan, mengapa tidak langkau lapisan tengah AI yang tidak dapat diramal sepenuhnya?
Antara Muka Chat: Tidak Selalunya Jawapan
Perbincangan panel juga mencabar andaian bahawa antara muka chat adalah ideal untuk aplikasi AI. Konsensus menunjukkan bahawa antara muka berasaskan perbualan berfungsi terbaik apabila ia menghilangkan keluk pembelajaran untuk pengguna, tetapi banyak aliran kerja yang kompleks tidak memetakan dengan baik kepada interaksi chatbot yang mudah.
Komuniti sedang bergerak ke arah pendekatan hibrid yang menggabungkan chat untuk input awal dengan kawalan GUI tradisional untuk penambahbaikan dan pengulangan. Ini memberikan pengguna kemudahan input bahasa semula jadi sambil mengekalkan ketepatan dan kawalan yang diperlukan untuk tugas yang kompleks.
Amalan Terbaik Antara Muka Chat:
- Gunakan chat untuk pertanyaan generik dan terbuka
- Laksanakan corak hibrid (chat + kawalan GUI)
- Elakkan chat untuk aliran kerja kompleks yang memerlukan kawalan pengguna
- Fokus pada menghapuskan keluk pembelajaran berbanding menggantikan semua antara muka
Memandang ke Hadapan: Medan Pertempuran Seterusnya
Apabila industri AI semakin matang, gelombang seterusnya syarikat yang berjaya bukanlah mereka yang mempunyai model bahasa yang paling canggih. Sebaliknya, mereka akan menjadi yang menguasai kualiti konteks, reka bentuk memori, dan kebolehpercayaan deterministik. Fokus sedang beralih daripada keupayaan AI mentah kepada kecemerlangan kejuruteraan dalam sistem yang menyokong dan mengekang tingkah laku AI.
Ini mewakili peralihan asas dalam cara industri memikirkan pembangunan AI. Kejayaan akan datang bukan daripada gesaan yang lebih baik atau model yang lebih berkuasa, tetapi daripada menyelesaikan cabaran kejuruteraan yang tidak glamor yang menjadikan sistem AI boleh dipercayai dan boleh dipercayai dalam persekitaran pengeluaran.
Rujukan: What Makes 5% of AI Agents Actually Work in Production