Rahasia Kotor RAG: Mengapa Carian Vektor Anda Tidak Mencukupi

Pasukan Komuniti BigGo

Rahasia Kotor RAG: Mengapa Carian Vektor Anda Tidak Mencukupi

Selepas memproses lebih 5 juta dokumen merentasi aplikasi undang-undang dan penyelidikan, para pembangun mendapati bahawa sistem RAG yang sedia untuk pengeluaran memerlukan lebih daripada sekadar carian kesamaan vektor. Konsensus komuniti yang timbul daripada perbincangan terkini mendedahkan bahawa pelaksanaan yang berjaya bergantung kepada set teknik canggih yang jauh mengatasi pendekatan asas.

Revolusi Penyusunan Semula

Apa yang bermula sebagai carian vektor mudah telah berkembang menjadi sistem pengambilan pelbagai peringkat yang kompleks, dengan penyusunan semula muncul sebagai peningkatan paling berkesan. Pembangun melaporkan bahawa menambah model penyusun semula khusus—yang menyusun semula keputusan carian berdasarkan perkaitan dengan pertanyaan khusus—boleh mengimbangi banyak kelemahan lain dalam persediaan RAG. Konfigurasi tipikal melibatkan memasukkan 50 calon pecahan ke dalam penyusun semula dan menerima kembali 15 yang paling relevan.

5 baris kod bernilai tertinggi yang akan anda tambah. Kedudukan pecahan banyak berubah. Lebih daripada yang anda jangkakan.

Pendekatan ini terbukti jauh lebih berkesan daripada hanya bergantung pada kesamaan kosinus antara penanaman, kerana penyusun semula memahami perkaitan konteks dan bukan hanya persamaan semantik.

Apa Yang Memberi Impak (Kedudukan ROI)

Penjanaan Query - LLM mencipta pelbagai pertanyaan semantik + kata kunci untuk pemprosesan selari
Reranking - Input 50 bahagian → output 15 memberikan hasil yang optimum
Strategi Chunking - Logik tersuai memastikan unit logik tanpa pemisahan pertengahan ayat
Suntikan Metadata - Menambah tajuk, pengarang, dll. ke dalam konteks LLM meningkatkan kualiti jawapan
Query Routing - Mengesan soalan bukan RAG untuk pengendalian alternatif

Melampaui Pemisahan Asas

Walaupun penyusunan semula memberikan kemenangan pantas, strategi pemisahan kekal sebagai elemen paling memakan masa tetapi penting. Sistem pengeluaran memerlukan logik pemisahan tersuai yang memahami struktur dokumen, memastikan pecahan mewakili unit logik dan bukannya pemisahan teks sewenang-wenangnya. Komuniti menekankan bahawa pecahan tidak sepatutnya terputus di tengah-tengah ayat atau perkataan, dan setiap satu harus berfungsi sebagai unit maklumat yang lengkap.

Banyak pasukan beralih melebihi pemisah teks mudah, dengan sesetengah menggunakan LLM untuk menjana ringkasan dan ekstrak pintar. Pendekatan pengambilan kontekstual Anthropic, yang termasuk ringkasan dokumen penuh bersama pecahan, telah mendapat sambutan untuk mengekalkan konteks yang lebih luas sambil masih membolehkan pengambilan tepat.

Penjanaan dan Pengembangan Pertanyaan

Pembangun mendapati bahawa pertanyaan pengguna sering gagal menangkap konteks penuh yang diperlukan untuk pengambilan berkesan. Penyelesaiannya: menggunakan LLM untuk menjana pelbagai variasi semantik dan kata kunci bagi pertanyaan asal, kemudian memprosesnya secara selari. Teknik ini, dikenali sebagai pengembangan pertanyaan, secara signifikan meningkatkan liputan pengambilan tanpa bergantung pada skor carian hibrid yang dikira.

Satu pelaksanaan menjana tiga varian pertanyaan berbeza dalam satu panggilan LLM, memastikan kepelbagaian dan bukannya persamaan. Keputusan daripada carian selari kemudian digabungkan menggunakan gabungan pangkat salingan, mencipta set calon dokumen yang kukuh yang menangani pertanyaan dari pelbagai sudut.

Set Pengambilan Penuh

Komuniti sebahagian besarnya telah beralih daripada minda penyelesaian sebagai storan vektor yang menguasai pelaksanaan RAG awal. Sistem pengeluaran kini biasanya menggabungkan:

Carian hibrid menggabungkan vektor padat dan BM25 jarang untuk istilah teknikal
Suntikan metadata untuk memberikan petunjuk kontekstual kepada LLM
Penghalaan pertanyaan untuk mengendalikan soalan bukan RAG melalui kaedah alternatif
Pelbagai model penanaman dan strategi pengambilan

Seperti yang diperkatakan oleh seorang pembangun Microsoft, Sangat sedikit pembangun sedar yang anda perlukan lebih daripada sekadar carian vektor, jadi saya masih menghabiskan banyak ceramah saya menekankan set pengambilan PENUH untuk RAG. Azure AI Search dan penyelesaian perusahaan lain kini membakar keupayaan ini terus ke dalam platform mereka.

Komponen Production RAG Stack

Komponen	Pilihan Awal	Pilihan Akhir	Pandangan Utama
Pangkalan Data Vektor	Azure → Pinecone	Turbopuffer	Murah, carian kata kunci asli
Reranker	Tiada → Cohere 3.5	Zerank	Kurang dikenali tetapi berkesan
Embedding	text-embedding-large-3	Sama	Tidak menguji alternatif
Chunking	Unstructured.io	Custom	Kritikal untuk prestasi
Pemprosesan Query	Query tunggal	Penjanaan multi-query	Pemprosesan selari dengan reranking

Soalan Terbuka dan Arah Masa Depan

Walaupun dengan kemajuan ini, beberapa cabaran masih belum diselesaikan. Kos pengiraan model penyusun semula besar membimbangkan kebolehskalaan, mendorong penerokaan model khusus lebih kecil seperti Qwen3-reranker. Terdapat juga perdebatan berterusan tentang sama ada menggunakan penyusun semula khusus berbanding LLM tujuan umum untuk pemarkahan perkaitan, dengan pertukaran antara kos, kelajuan, dan ketepatan.

Komuniti juga bereksperimen dengan pendekatan lebih canggih seperti menghantar pertanyaan ke model penanaman berbeza berdasarkan jenis kandungan, dan menggunakan pelbagai penyusun semula secara berurutan atau selari. Sesetengah pembangun mendorong melebihi RAG tradisional sepenuhnya ke arah carian agen yang menggunakan alat seperti grep dan carian sumber masa nyata bersama pengambilan tradisional.

Evolusi berterusan apabila pasukan mengimbangi tuntutan bersaing ketepatan, kependaman, dan kos dalam persekitaran pengeluaran di mana pengguna mengharapkan kefahaman hampir manusia daripada sistem pengambilan dokumen mereka.

Rujukan: Production RAG: what I learned from processing 5M+ documents