Cadangan terkini untuk menggantikan pemilihan alat berasaskan LLM dengan rangkaian neural boleh dibezakan telah mencetuskan perdebatan sengit di kalangan pembangun mengenai masa depan seni bina agen AI. Pendekatan ini, yang menggunakan model PyTorch kecil untuk menghalakan antara alat berbanding bergantung pada model bahasa besar, menjanjikan penjimatan kos yang ketara tetapi menghadapi persoalan tentang keberkesanan dunia sebenar.
Perbincangan tertumpu pada ketegangan asas dalam sistem AI moden: sama ada menggunakan LLM yang mahal tetapi berkebolehan untuk setiap keputusan, atau mewakilkan tugas yang lebih mudah kepada model khusus yang lebih murah. Aliran kerja agen semasa biasanya menggunakan LLM untuk memutuskan alat mana yang perlu dipanggil, melaksanakan alat tersebut, dan kemudian mentafsir keputusan - corak yang boleh menjadi mahal dengan cepat pada skala besar.
Contoh Perbandingan Kos
- Penghalaan LLM tradisional: 3 panggilan LLM bagi setiap pertanyaan (perancangan + pelaksanaan alat + tafsiran hasil)
- Harga GPT-4 : $15 USD bagi setiap 1 juta token input, $75 USD bagi setiap 1 juta token output
- Penghalaan boleh dibezakan: Kos latihan sekali sahaja berbanding kos LLM bagi setiap pertanyaan
Kerumitan Pemilihan Alat vs Penggunaan Alat
Maklum balas komuniti mendedahkan perbezaan kritikal yang mencabar premis teras. Walaupun kaedah yang dicadangkan memfokuskan pada mengoptimumkan pemilihan alat, ramai pembangun berhujah bahawa memilih alat mana yang hendak digunakan selalunya adalah bahagian yang mudah. Kerumitan sebenar terletak pada menentukan argumen yang betul untuk dihantar kepada setiap alat dan mengendalikan interaksi bernuansa antara berbilang panggilan alat.
Mengetahui alat mana yang hendak dipanggil adalah mudah, menghantar argumen yang betul adalah bahagian yang sukar dan mudah berlaku kesilapan.
Wawasan ini menunjukkan bahawa walaupun penghalaan boleh dibezakan menyelesaikan masalah pemilihan, ia mungkin hanya menangani sebahagian kecil daripada cabaran keseluruhan. Untuk aliran kerja kompleks yang melibatkan berbilang panggilan alat yang saling bergantung, keupayaan penaakulan LLM kekal penting untuk memahami konteks dan merangka parameter yang sesuai.
Kebimbangan Ketidakpadanan Taburan
Kebimbangan teknikal yang ketara muncul berkaitan taburan data latihan. LLM moden dilatih khusus untuk mengendalikan aliran kerja panggilan alat, menjadikannya sesuai secara semula jadi untuk tugas-tugas ini. Sebaliknya, rangkaian neural tersuai yang dilatih pada data sintetik mungkin bergelut dengan kes tepi atau senario novel yang berada di luar taburan latihannya.
Walau bagaimanapun, sesetengah pembangun melihat penyelesaian alternatif, seperti mencipta sejarah perbualan sintetik yang menjadikan keputusan penghalaan tempatan kelihatan seolah-olah datang daripada LLM itu sendiri. Pendekatan ini boleh mengekalkan keserasian dengan rangka kerja sedia ada sambil tetap menangkap faedah kecekapan.
Pertukaran Skala dan Ketepatan
Perdebatan juga menyerlahkan persoalan asas tentang penskalaan model. Seperti yang dinyatakan oleh seorang pembangun, meningkatkan ketepatan rangkaian penghalaan kecil mungkin memerlukan pembesarannya, yang berpotensi menafikan kelebihan kos. Pada suatu tahap, model penghalaan mungkin perlu menjadi begitu canggih sehingga menggunakan model bahasa kecil menjadi lebih praktikal.
Ini menimbulkan persoalan yang lebih luas tentang di mana hendak menarik garis antara model khusus dan LLM tujuan umum. Walaupun pendekatan ini menunjukkan potensi untuk aliran kerja yang mudah dan jelas, keberkesanannya untuk tugas agen yang kompleks dan berbilang langkah masih belum terbukti.
Perbandingan Seni Bina Teknikal
Pendekatan | Pelaksanaan | Determinisme | Pertumbuhan Konteks | Latihan Diperlukan |
---|---|---|---|---|
Penghalaan LLM | Panggilan API luaran | Stokastik | Eksponen | Tidak |
Penghalaan Boleh Dibezakan | Pelaksanaan tempatan | Deterministik | Malar | Ya |
Jurang Pelaksanaan Dunia Sebenar
Mungkin yang paling memberitahu, beberapa ahli komuniti mendesak contoh konkrit pendekatan yang berfungsi dalam persekitaran pengeluaran. Kekurangan perbandingan prestasi terperinci atau kajian kes dunia sebenar menunjukkan teknik ini masih sebahagian besarnya teoretikal.
Perbincangan mencerminkan trend yang lebih luas dalam pembangunan AI: pencarian berterusan untuk corak seni bina yang mengimbangkan keupayaan, kos, dan kerumitan. Walaupun penghalaan alat boleh dibezakan menawarkan alternatif yang menarik kepada aliran kerja berat LLM, kebolehlaksanaan praktikalnya akhirnya bergantung pada menunjukkan kelebihan yang jelas dalam aplikasi sebenar berbanding penanda aras sintetik.
Perdebatan menggariskan betapa pantas bidang ini berkembang, dengan pembangun sentiasa mencari cara yang lebih cekap untuk membina sistem AI yang berkebolehan tanpa memecahkan bank pada kos inferens.
Rujukan: Optimizing Tool Selection for LLM Workflows: Differentiable Programming with PyTorch and DSPy