Komuniti kecerdasan buatan sedang terlibat dalam perdebatan sengit mengenai masa depan Retrieval Augmented Generation ( RAG ), dengan sesetengah pembangun mendakwa bahawa AI agents dan context windows yang berkembang menjadikan pipeline RAG tradisional sudah lapuk. Perbincangan tertumpu kepada sama ada alat mudah seperti grep yang digabungkan dengan model bahasa besar boleh menggantikan sistem embedding dan pangkalan data vektor yang kompleks.
Komponen Saluran Paip RAG Tradisional:
- Pengambilan dan pembersihan data
- Pemecahan (membahagikan data kepada bahagian yang lebih kecil)
- Pembenaman (menukar kepada perwakilan vektor)
- Penyimpanan pangkalan data vektor
- Perolehan dan pencarian
- Penyusunan semula untuk relevan
- Pembinaan gesaan
Masalah Penskalaan Membahagikan Pendapat
Titik perbalahan utama berkisar pada batasan penskalaan. Pengkritik berhujah bahawa walaupun pendekatan berasaskan grep berfungsi dengan baik untuk pangkalan kod kecil dengan beribu-ribu fail, ia akan gagal apabila berhadapan dengan koleksi dokumen berskala perusahaan yang mengandungi berjuta-juta fail. Isu asasnya ialah grep melakukan padanan kata kunci yang tepat, yang gagal apabila pengguna mencari konsep menggunakan terminologi yang berbeza daripada apa yang terdapat dalam dokumen.
Sebagai contoh, mencari pemacu pertumbuhan hasil tidak akan menemui dokumen yang membincangkan faktor-faktor yang menyumbang kepada peningkatan jualan - masalah ketidakpadanan kosa kata yang direka bentuk untuk diselesaikan oleh semantic embeddings. Had ini menjadi sangat bermasalah dalam persekitaran perusahaan di mana dokumen menggunakan bahasa yang pelbagai dan pertanyaan konseptual adalah perkara biasa.
Cabaran Prestasi Dunia Sebenar
Pengamal industri melaporkan hasil yang bercampur-campur apabila melaksanakan pendekatan yang lebih baharu ini. Sesetengah pembangun memuji kesederhanaan carian grep berulang, di mana AI agents menemui istilah carian baharu daripada hasil awal dan mengulangi proses tersebut. Walau bagaimanapun, yang lain menunjukkan bahawa pendekatan ini menjadi mahal dari segi pengiraan dan perlahan apabila berhadapan dengan koleksi dokumen yang besar dan berbilang pengguna serentak.
Faktor kos adalah ketara. Memproses berbilion token melalui model bahasa besar boleh mengakibatkan kos inferens mencapai beribu-ribu dolar Amerika Syarikat untuk satu pertanyaan, menjadikannya tidak dapat dilaksanakan dari segi ekonomi untuk banyak kes penggunaan. Selain itu, masa yang diperlukan untuk carian agentic - yang boleh melibatkan 20-30 panggilan fungsi berbeza bagi setiap siasatan - menjadikannya lebih perlahan daripada pendekatan RAG tradisional, walaupun hasilnya berpotensi lebih tepat.
Perbandingan Prestasi:
- Pendekatan berasaskan Grep: Pantas untuk set data kecil (beribu-ribu fail), menghadapi kesukaran dengan pemahaman semantik
- Traditional RAG: Padanan semantik yang baik, penyelenggaraan saluran paip yang kompleks
- Agentic search: Keputusan yang unggul tetapi 20-30x lebih banyak panggilan fungsi, kos yang lebih tinggi
- Sistem hibrid: Keseimbangan antara pemahaman semantik dan kecekapan pemprosesan
Jalan Tengah Hibrid
Ramai pembangun mendapat kejayaan dengan pendekatan hibrid yang menggabungkan yang terbaik dari kedua-dua dunia. Sistem ini menggunakan carian semantik untuk penemuan dokumen awal sambil memanfaatkan context windows yang lebih besar untuk memproses fail lengkap dan bukannya bahagian kecil. Pendekatan ini mengekalkan keupayaan pemahaman semantik embeddings sambil mengambil kesempatan daripada kapasiti model bahasa yang bertambah baik.
Carian agentic dengan segenggam alat asas (diambil daripada BM25 , carian semantik, tag, SQL , knowledge graph, dan segenggam fungsi pengambilan tersuai) mengatasi RAG dalam pengalaman saya.
Industri pembinaan menyediakan contoh yang menarik bagi cabaran ini. Syarikat yang memproses dokumen tender sering berhadapan dengan fail individu yang mengandungi berbilion token - jauh melebihi keupayaan context window semasa dan mengakibatkan kos pemprosesan yang mahal.
Keupayaan Carian Agentik:
- Panggilan API dan traversal web
- Pengiraan matematik
- Penciptaan alur kerja dan perancangan
- Pelaksanaan tugas dengan pelbagai LLM
- Penaakulan masa nyata ke atas maklumat yang diperoleh
- Penambahbaikan carian berulang
Masa Depan Pengambilan Maklumat
Perdebatan ini mencerminkan trend yang lebih luas dalam pembangunan AI di mana keupayaan baharu menjadikan penyelesaian sementara sebelumnya sudah lapuk. Apabila context windows berkembang dan kos model berkurangan, pendekatan yang lebih mudah menjadi lebih berdaya maju. Walau bagaimanapun, peralihan tidak seragam merentas semua kes penggunaan.
Carian kod telah muncul sebagai kisah kejayaan awal untuk pendekatan berasaskan agent, sebahagian besarnya kerana pangkalan kod mempunyai terminologi dan struktur yang lebih konsisten. Carian dokumen dalam persekitaran perusahaan dengan bahasa yang pelbagai dan pertanyaan kompleks kekal lebih mencabar untuk kaedah berasaskan kata kunci yang mudah.
Perbincangan juga menyerlahkan kebimbangan mengenai kebolehpercayaan dan keselamatan sistem agentic, yang memperkenalkan kerumitan tambahan dan titik kegagalan yang berpotensi berbanding dengan pipeline pengambilan tradisional. Sesetengah pembangun bimbang tentang meninggalkan amalan kejuruteraan yang terbukti memihak kepada pendekatan yang didorong AI yang kurang boleh diramal.
Walaupun RAG mungkin tidak mati, ia jelas berkembang. Sistem yang paling berjaya berkemungkinan adalah yang menggabungkan teknik pengambilan maklumat tradisional dengan keupayaan AI yang lebih baharu secara bijak, dan bukannya menggantikan sepenuhnya satu dengan yang lain. Perdebatan berterusan ketika pembangun berusaha mencari keseimbangan yang tepat antara kesederhanaan, prestasi, dan kebolehpercayaan untuk kes penggunaan khusus mereka.
Rujukan: The RAG Obituary: Killed by Agents, Buried by Context Windows