Selepas memproses lebih 5 juta dokumen merentasi aplikasi undang-undang dan penyelidikan, para pembangun mendapati bahawa sistem RAG yang sedia untuk pengeluaran memerlukan lebih daripada sekadar carian kesamaan vektor. Konsensus komuniti yang timbul daripada perbincangan terkini mendedahkan bahawa pelaksanaan yang berjaya bergantung kepada set teknik canggih yang jauh mengatasi pendekatan asas.
Revolusi Penyusunan Semula
Apa yang bermula sebagai carian vektor mudah telah berkembang menjadi sistem pengambilan pelbagai peringkat yang kompleks, dengan penyusunan semula muncul sebagai peningkatan paling berkesan. Pembangun melaporkan bahawa menambah model penyusun semula khusus—yang menyusun semula keputusan carian berdasarkan perkaitan dengan pertanyaan khusus—boleh mengimbangi banyak kelemahan lain dalam persediaan RAG. Konfigurasi tipikal melibatkan memasukkan 50 calon pecahan ke dalam penyusun semula dan menerima kembali 15 yang paling relevan.
5 baris kod bernilai tertinggi yang akan anda tambah. Kedudukan pecahan banyak berubah. Lebih daripada yang anda jangkakan.
Pendekatan ini terbukti jauh lebih berkesan daripada hanya bergantung pada kesamaan kosinus antara penanaman, kerana penyusun semula memahami perkaitan konteks dan bukan hanya persamaan semantik.
Apa Yang Memberi Impak (Kedudukan ROI)
- Penjanaan Query - LLM mencipta pelbagai pertanyaan semantik + kata kunci untuk pemprosesan selari
- Reranking - Input 50 bahagian → output 15 memberikan hasil yang optimum
- Strategi Chunking - Logik tersuai memastikan unit logik tanpa pemisahan pertengahan ayat
- Suntikan Metadata - Menambah tajuk, pengarang, dll. ke dalam konteks LLM meningkatkan kualiti jawapan
- Query Routing - Mengesan soalan bukan RAG untuk pengendalian alternatif
Melampaui Pemisahan Asas
Walaupun penyusunan semula memberikan kemenangan pantas, strategi pemisahan kekal sebagai elemen paling memakan masa tetapi penting. Sistem pengeluaran memerlukan logik pemisahan tersuai yang memahami struktur dokumen, memastikan pecahan mewakili unit logik dan bukannya pemisahan teks sewenang-wenangnya. Komuniti menekankan bahawa pecahan tidak sepatutnya terputus di tengah-tengah ayat atau perkataan, dan setiap satu harus berfungsi sebagai unit maklumat yang lengkap.
Banyak pasukan beralih melebihi pemisah teks mudah, dengan sesetengah menggunakan LLM untuk menjana ringkasan dan ekstrak pintar. Pendekatan pengambilan kontekstual Anthropic, yang termasuk ringkasan dokumen penuh bersama pecahan, telah mendapat sambutan untuk mengekalkan konteks yang lebih luas sambil masih membolehkan pengambilan tepat.
Penjanaan dan Pengembangan Pertanyaan
Pembangun mendapati bahawa pertanyaan pengguna sering gagal menangkap konteks penuh yang diperlukan untuk pengambilan berkesan. Penyelesaiannya: menggunakan LLM untuk menjana pelbagai variasi semantik dan kata kunci bagi pertanyaan asal, kemudian memprosesnya secara selari. Teknik ini, dikenali sebagai pengembangan pertanyaan, secara signifikan meningkatkan liputan pengambilan tanpa bergantung pada skor carian hibrid yang dikira.
Satu pelaksanaan menjana tiga varian pertanyaan berbeza dalam satu panggilan LLM, memastikan kepelbagaian dan bukannya persamaan. Keputusan daripada carian selari kemudian digabungkan menggunakan gabungan pangkat salingan, mencipta set calon dokumen yang kukuh yang menangani pertanyaan dari pelbagai sudut.
Set Pengambilan Penuh
Komuniti sebahagian besarnya telah beralih daripada minda penyelesaian sebagai storan vektor yang menguasai pelaksanaan RAG awal. Sistem pengeluaran kini biasanya menggabungkan:
- Carian hibrid menggabungkan vektor padat dan BM25 jarang untuk istilah teknikal
- Suntikan metadata untuk memberikan petunjuk kontekstual kepada LLM
- Penghalaan pertanyaan untuk mengendalikan soalan bukan RAG melalui kaedah alternatif
- Pelbagai model penanaman dan strategi pengambilan
Seperti yang diperkatakan oleh seorang pembangun Microsoft, Sangat sedikit pembangun sedar yang anda perlukan lebih daripada sekadar carian vektor, jadi saya masih menghabiskan banyak ceramah saya menekankan set pengambilan PENUH untuk RAG. Azure AI Search dan penyelesaian perusahaan lain kini membakar keupayaan ini terus ke dalam platform mereka.
Komponen Production RAG Stack
Komponen | Pilihan Awal | Pilihan Akhir | Pandangan Utama |
---|---|---|---|
Pangkalan Data Vektor | Azure → Pinecone | Turbopuffer | Murah, carian kata kunci asli |
Reranker | Tiada → Cohere 3.5 | Zerank | Kurang dikenali tetapi berkesan |
Embedding | text-embedding-large-3 | Sama | Tidak menguji alternatif |
Chunking | Unstructured.io | Custom | Kritikal untuk prestasi |
Pemprosesan Query | Query tunggal | Penjanaan multi-query | Pemprosesan selari dengan reranking |
Soalan Terbuka dan Arah Masa Depan
Walaupun dengan kemajuan ini, beberapa cabaran masih belum diselesaikan. Kos pengiraan model penyusun semula besar membimbangkan kebolehskalaan, mendorong penerokaan model khusus lebih kecil seperti Qwen3-reranker. Terdapat juga perdebatan berterusan tentang sama ada menggunakan penyusun semula khusus berbanding LLM tujuan umum untuk pemarkahan perkaitan, dengan pertukaran antara kos, kelajuan, dan ketepatan.
Komuniti juga bereksperimen dengan pendekatan lebih canggih seperti menghantar pertanyaan ke model penanaman berbeza berdasarkan jenis kandungan, dan menggunakan pelbagai penyusun semula secara berurutan atau selari. Sesetengah pembangun mendorong melebihi RAG tradisional sepenuhnya ke arah carian agen yang menggunakan alat seperti grep dan carian sumber masa nyata bersama pengambilan tradisional.
Evolusi berterusan apabila pasukan mengimbangi tuntutan bersaing ketepatan, kependaman, dan kos dalam persekitaran pengeluaran di mana pengguna mengharapkan kefahaman hampir manusia daripada sistem pengambilan dokumen mereka.
Rujukan: Production RAG: what I learned from processing 5M+ documents