Syarikat Keselamatan AI Tingkatkan Pengesanan Kelemahan 60% Menggunakan "Model Alloys" Yang Bertukar Antara LLM Berbeza

Pasukan Komuniti BigGo
Syarikat Keselamatan AI Tingkatkan Pengesanan Kelemahan 60% Menggunakan "Model Alloys" Yang Bertukar Antara LLM Berbeza

XBOW, sebuah syarikat ujian penembusan autonomi, telah membangunkan pendekatan novel yang dipanggil model alloys yang meningkatkan secara dramatik kadar kejayaan pengesanan kelemahan ejen AI mereka daripada 25% kepada lebih 50%. Teknik ini melibatkan pertukaran antara model bahasa besar yang berbeza semasa satu rangkaian perbualan, membolehkan setiap model menyumbang kekuatan uniknya kepada cabaran keselamatan siber yang kompleks.

Peningkatan Prestasi mengikut Gabungan Model:

  • Claude Sonnet + Google Gemini : Peningkatan prestasi tertinggi (pekali korelasi terendah: 0.43)
  • Gabungan penyedia yang sama (contohnya, Sonnet 3.7 + Sonnet 4.0 ): Peningkatan minimum
  • Perkembangan kadar kejayaan: 25% → 40% → 50%+ pada tugasan pengesanan kelemahan
Graf yang menggambarkan peningkatan kadar kejayaan pengesanan kelemahan di XBOW menggunakan aloi model
Graf yang menggambarkan peningkatan kadar kejayaan pengesanan kelemahan di XBOW menggunakan aloi model

Inovasi Teras Di Sebalik Model Alloys

Pendekatan alloy berfungsi dengan mengekalkan satu perbualan sembang sambil bertukar secara rawak antara model AI yang berbeza seperti Claude Sonnet daripada Anthropic dan Gemini daripada Google. Setiap model percaya bahawa ia telah mengarang semua respons sebelumnya dalam perbualan, mewujudkan gabungan yang lancar antara kebolehan AI yang berbeza. Teknik ini terbukti sangat berkesan untuk tugasan yang memerlukan pelbagai wawasan terobosan dan bukannya kemajuan berperingkat yang stabil.

Komuniti telah menunjukkan minat yang kuat terhadap pendekatan ini, dengan ramai pembangun sudah bereksperimen dengan teknik serupa dalam aliran kerja mereka sendiri. Seorang pengguna menyatakan mereka kerap bertukar antara model semasa sesi sumbang saran, manakala yang lain menyebut menggunakan kaedah ini dalam persekitaran pengekodan seperti Cursor untuk mendapat perspektif berbeza mengenai masalah yang kompleks.

Model alloys: Satu teknik di mana model AI yang berbeza bergilir-gilir memberi respons dalam rangkaian perbualan yang sama, setiap satu tidak sedar akan sumbangan yang lain.

Pertimbangan Pelaksanaan:

  • Menggandakan kos cache prompt (penyimpanan berasingan bagi setiap model)
  • Terbaik dengan model daripada pembekal yang berbeza
  • Strategi penukaran rawak berbanding berselang-seli kedua-duanya berkesan
  • Thread perbualan tunggal dikekalkan merentasi penukaran model
Perbandingan  Gemini 25 pro  dan  Sonnet 40  dalam pelbagai cabaran untuk menunjukkan prestasi model
Perbandingan Gemini 25 pro dan Sonnet 40 dalam pelbagai cabaran untuk menunjukkan prestasi model

Peningkatan Prestasi Merentasi Kombinasi Model Berbeza

Ujian XBOW mendedahkan bahawa kepelbagaian model adalah kunci kepada kejayaan. Kombinasi paling berkesan menggandingkan model daripada penyedia berbeza, seperti Claude Sonnet dengan Google Gemini, yang menunjukkan korelasi terendah dalam pendekatan penyelesaian masalah. Menariknya, menggabungkan model daripada penyedia yang sama menghasilkan peningkatan yang jauh lebih kecil, menunjukkan bahawa perbezaan latihan antara syarikat mewujudkan kekuatan yang lebih saling melengkapi.

Teknik ini secara konsisten mengatasi prestasi kedua-dua model individu dan pendekatan ujian selari yang mudah. Malah menjalankan pelbagai ejen terpencil dengan model berbeza tidak dapat menandingi prestasi satu ejen aloi, menonjolkan nilai konteks berkongsi dan penyelesaian masalah secara kolaboratif.

Bila Model Alloys Berfungsi Terbaik

Perbincangan komuniti mendedahkan bahawa pendekatan ini cemerlang dalam senario tertentu. Ia paling berkesan untuk tugasan berulang yang memerlukan berpuluh panggilan model, di mana pelbagai wawasan kreatif mesti bergabung untuk menyelesaikan masalah kompleks. Ujian keselamatan siber, reka bentuk seni bina, dan sesi nyahpepijat kompleks mewakili kes penggunaan yang ideal.

Walau bagaimanapun, teknik ini mempunyai batasan. Tugasan yang memerlukan kemajuan stabil dan bukannya momen terobosan mungkin tidak mendapat manfaat yang signifikan. Tambahan pula, pendekatan ini menggandakan kos cache prompt kerana setiap penyedia model memerlukan storan konteks berasingan, menjadikannya kurang ekonomi untuk aplikasi berat prompt.

Kes Penggunaan Optimum untuk Aloi Model:

  • Tugas yang memerlukan 10+ panggilan model berulang
  • Masalah yang memerlukan beberapa terobosan kreatif
  • Cabaran berasaskan pencarian dengan banyak jalan buntu
  • Senario di mana model berbeza cemerlang dalam sub-tugas yang berbeza
Graf menunjukkan bagaimana nisbah aloi yang berbeza-beza memberi kesan kepada kadar kejayaan dalam ujian model AI
Graf menunjukkan bagaimana nisbah aloi yang berbeza-beza memberi kesan kepada kadar kejayaan dalam ujian model AI

Implikasi Lebih Luas Untuk Pembangunan AI

Perkembangan ini mencerminkan trend yang semakin berkembang ke arah pendekatan AI hibrid yang menggabungkan kekuatan model berbeza dan bukannya bergantung pada satu model terbaik. Kejayaan model alloys menunjukkan bahawa kepelbagaian dalam sistem AI, sama seperti dalam pasukan manusia, boleh menghasilkan keputusan yang lebih unggul daripada kecemerlangan individu sahaja.

Membuktikan kepelbagaian pemikiran adalah perkara yang baik. Satu pemerhatian kontroversi di USA 2025 ;) Secara serius, walau bagaimanapun, apabila saya memulakan projek, saya biasanya meminta Gemini 2.5 untuk mereka bentuk seni bina dan melaksanakan laluan pertama, kemudian Claude untuk melakukan iterasi.

Kesederhanaan teknik ini menjadikannya mudah diakses oleh pembangun yang bekerja dengan API AI sedia ada, hanya memerlukan pengurusan perbualan asas dan bukannya sistem orkestrasi yang kompleks. Memandangkan model AI terus mengkhusus dalam bidang berbeza, model alloys mungkin menjadi teknik standard untuk memaksimumkan prestasi merentasi domain masalah yang pelbagai.

Rujukan: Alloy