Dalam dunia kecerdasan buatan yang berkembang pesat, satu kerangka keselamatan baharu telah mencetuskan perdebatan sengit dalam kalangan pemaju dan pakar keselamatan. Perbincangan ini memfokuskan sama ada cadangan Rule of Two dapat melindungi sistem AI dengan secukupnya daripada serangan suntikan prompt, atau ia terlalu memudahkan cabaran keselamatan kompleks yang dihadapi oleh aplikasi AI moden.
Kerangka Keselamatan Teras Yang Diperdebatkan
Agents Rule of Two mencadangkan bahawa sistem AI hanya harus menggabungkan dua daripada tiga keupayaan berpotensi berbahaya: memproses input yang tidak boleh dipercayai, mengakses sistem atau data sensitif, dan mengubah keadaan atau berkomunikasi secara luaran. Kerangka ini, dibangunkan oleh penyelidik Meta AI, bertujuan untuk mengelakkan akibat paling teruk daripada serangan suntikan prompt. Walau bagaimanapun, komuniti keselamatan telah membangkitkan kebimbangan ketara tentang sama ada pendekatan ini memberikan perlindungan yang mencukupi. Ramai pakar berhujah bahawa sistem yang mengikut peraturan ini masih boleh menyebabkan kemudaratan besar, terutamanya apabila menggabungkan input yang tidak boleh dipercayai dengan keupayaan untuk mengubah keadaan sistem.
Walaupun tanpa akses kepada sistem persendirian atau data sensitif, gabungan itu masih boleh menghasilkan keputusan yang memudaratkan.
Rangka Kerja Agents Rule of Two:
- Property A: Memproses input yang tidak boleh dipercayai
- Property B: Mengakses sistem sensitif atau data peribadi
- Property C: Mengubah keadaan atau berkomunikasi secara luaran
- Prinsip Teras: Elakkan menggabungkan ketiga-tiga property dalam satu sesi bagi mencegah akibat serius daripada prompt injection
Batasan Teknikal dan Kebimbangan Praktikal
Profesional keselamatan telah mengenal pasti beberapa kelemahan kritikal dalam model yang dipermudahkan ini. Diagram asal kerangka itu melabelkan gabungan tertentu sebagai selamat, yang didapati mengelirukan oleh ramai pengulas. Satu kebimbangan utama ialah model itu sendiri mewakili komponen yang tidak dipercayai, memandangkan data latihan mungkin mengandungi kelemahan atau pintu belakang tersembunyi. Isu utama lain melibatkan integriti data - potensi sistem AI untuk mengubah suai data persendirian semasa pemprosesan, bukan hanya mengeksfiltrasikannya. Komuniti itu juga menekankan bahawa serangan suntikan prompt boleh memanipulasi pengendali manusia walaupun tanpa akses alat langsung, mewujudkan risiko yang tidak ditangani dengan secukupnya oleh Rule of Two.
Kebimbangan Utama Komuniti:
- Pemberat model itu sendiri mewakili input yang tidak dipercayai disebabkan isu data latihan yang berpotensi
- Risiko integriti data (pengubahsuaian semasa inferens) tidak ditangani sepenuhnya
- Manipulasi operator manusia masih mungkin berlaku walaupun tanpa akses alat
- Penyederhanaan berlebihan boleh membawa kepada sikap sambil lewa keselamatan yang berbahaya
Pendekatan Keselamatan Alternatif Muncul
Beberapa pengulas mencadangkan bahawa konsep keselamatan tradisional seperti penjejakan kontaminasi (taint tracking) mungkin menawarkan perlindungan yang lebih kukuh. Pendekatan ini melibatkan menandakan data yang tidak dipercayai dan menjejakinya melalui operasi sistem, menghalang data tercemar daripada menjejaskan fungsi kritikal. Perbincangan itu juga menyentuh sistem CaMeL oleh Google DeepMind, yang menggunakan penjanaan kod boleh laksana untuk memisahkan pemprosesan data yang dipercayai dan tidak dipercayai. Ramai pakar menekankan bahawa prinsip keselamatan siber sedia ada tidak harus dibuang demi kerangka khusus AI, dengan berhujah bahawa amalan keselamatan asas masih relevan tanpa mengira teknologi yang terlibat.
![]() |
|---|
| Meneroka pendekatan keselamatan alternatif dalam AI: Kepentingan kaedah tradisional seperti penjejakan taint dalam melindungi daripada kelemahan |
Faktor Manusia dalam Keselamatan AI
Tema berulang dalam perbincangan melibatkan peranan manusia dalam sistem keselamatan AI. Sesetengah pengulas menyatakan bahawa memerlukan kelulusan manusia untuk operasi tertentu pada asasnya mencipta sistem manusia-dalam-gelung, yang mungkin menjejaskan manfaat produktiviti automasi. Yang lain pula menegaskan bahawa pengendali manusia sering menjadi hanya pengesah, berpotensi meluluskan keputusan AI tanpa pengawasan yang bermakna. Ini menimbulkan persoalan sama ada perniagaan akan mengutamakan keselamatan berbanding kemudahan apabila menggunakan sistem AI dalam senario dunia sebenar.
Kadar Kejayaan Serangan Adaptif daripada Penyelidikan:
- Pasukan merah manusia: Kadar kejayaan 100% terhadap 12 pertahanan
- Kaedah automatik: Kejayaan melebihi 90% untuk kebanyakan pertahanan
- Pembelajaran pengukuhan: Amat berkesan terhadap model kotak hitam
- Kaedah berasaskan carian: Menggunakan LLM sebagai penilai untuk menilai dan mengubah suai calon serangan
Implikasi Lebih Luas untuk Pembangunan AI
Perdebatan ini melangkaui butiran teknikal kepada persoalan asas tentang bagaimana kita membina dan menggunakan sistem AI. Sesetengah pengulas membandingkan Rule of Two dengan teorem CAP dalam sistem teragih - satu kerangka teori berguna yang tidak selalu sepadan dengan pelaksanaan praktikal. Yang lain menyuarakan kebimbangan bahawa model keselamatan yang terlalu dipermudahkan boleh membawa kepada sikap sambil lewa yang berbahaya, terutamanya apabila pemimpin perniagaan mungkin mentafsir label selamat terlalu literal. Perbincangan ini mencadangkan bahawa komuniti keselamatan AI masih bergelut dengan cara untuk mengimbangi model teori dengan keperluan keselamatan praktikal.
Perbualan yang berterusan mendedahkan komuniti yang sangat terlibat dengan cabaran keselamatan sistem AI. Walaupun kerangka seperti Rule of Two menyediakan titik permulaan yang berguna untuk perbincangan, profesional keselamatan sedar bahawa perlindungan dunia sebenar memerlukan pendekatan yang lebih bernuansa. Apabila sistem AI menjadi semakin bersepadu ke dalam fungsi perniagaan kritikal, keperluan untuk strategi keselamatan yang kukuh dan komprehensif tidak pernah lebih ketara. Penglibatan kritikal komuniti dengan penyelesaian yang dicadangkan menunjukkan sikap skeptikal yang sihat yang mungkin akan mendorong amalan keselamatan yang lebih baik dalam jangka panjang.
Rujukan: New prompt injection papers: Agents Rule of Two and The Attacker Moves Second

