Penapis Keselamatan AI Apple Terdedah: Ahli Politik, Kata Kesat, dan Nama Jenama Semuanya Disekat

Pasukan Komuniti BigGo

Penapis Keselamatan AI Apple Terdedah: Ahli Politik, Kata Kesat, dan Nama Jenama Semuanya Disekat

Seorang penyelidik keselamatan telah berjaya menyahsulit penapis keselamatan AI Apple , mendedahkan cara kerja dalaman bagaimana Apple Intelligence memutuskan kandungan yang perlu disekat atau diubah suai. fail yang bocor menunjukkan sistem menyeluruh ungkapan biasa dan penapis kata kunci yang digunakan Apple untuk mengawal output AI generatifnya, mencetuskan perbincangan mengenai penapisan korporat dan pendekatan keselamatan AI.

Pelaksanaan Teknikal:

Kunci penyulitan diekstrak melalui alat penyahpepijatan LLDB
fail disimpan dalam /System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_Overrides/
Penyahsulitan memerlukan LLDB Xcode dan proses GenerativeExperiencesSafetyInferenceProvider
Sistem keselamatan berlapis dengan penapis regex sebagai lapisan saringan pertama

Ahli Politik Di Seluruh Dunia Menghadapi Penyekatan Sejagat

Penemuan paling mengejutkan dalam penapis keselamatan Apple ialah penyekatan meluas terhadap tokoh politik dari seluruh dunia. Sistem ini menyekat sebutan ahli politik utama termasuk Justin Trudeau , Boris Johnson , Liz Truss , dan juga pemimpin Afrika Selatan seperti Cyril Ramaphosa dan Jacob Zuma . Terutamanya, Alexandria Ocasio-Cortez muncul dalam penapis penyetempatan Sepanyol, manakala Biden dan Trump mempunyai corak regex yang berbeza digunakan ke atas mereka.

Penapisan politik yang luas ini menimbulkan persoalan mengenai pendekatan Apple terhadap neutraliti AI. Penapis tidak nampak mendiskriminasi mengikut parti politik atau ideologi - ia hanya menyekat tokoh politik secara menyeluruh. Sesetengah ahli komuniti berspekulasi ini mungkin berkaitan dengan mencegah penjanaan kandungan tidak sesuai yang melibatkan tokoh awam, terutamanya memandangkan kebimbangan mengenai teknologi deepfake.

Tokoh Politik Yang Disekat Termasuk:

Justin Trudeau (Kanada)
Boris Johnson, Liz Truss, Keir Starmer, Rishi Sunak (UK)
Anthony Albanese, Christopher Luxon (Australia/New Zealand)
Cyril Ramaphosa, Jacob Zuma, John Steenhuisen (Afrika Selatan)
Michael D. Higgins (Ireland)
Alexandria Ocasio-Cortez (AS - penyetempatan Sepanyol)
Biden dan Trump (AS - corak regex berasingan)

Penjenamaan Korporat Mengambil Keutamaan Bersama Pencegahan Kematian

Dalam langkah yang menyerlahkan keutamaan korporat, penapis keselamatan Apple memastikan penggunaan huruf besar yang betul untuk nama jenama Apple dengan ketekunan yang sama seperti yang digunakan untuk menyekat kandungan mengenai kematian dan bunuh diri. Sistem akan membetulkan imac kepada iMac dan mengekalkan pemformatan yang betul untuk produk Apple lain, menganggap konsistensi jenama sama seriusnya dengan mencegah kandungan berbahaya.

Penapis berkaitan kematian amat menyeluruh, menyekat pelbagai istilah berkaitan bunuh diri dan keganasan. Walau bagaimanapun, sistem tidak termasuk slanga internet yang lebih baharu seperti unalive - istilah yang muncul di platform sosial untuk mengelak penapis kandungan serupa. Jurang ini menyerlahkan cabaran berterusan untuk mendahului bahasa yang berkembang yang digunakan untuk memintas moderasi automatik.

Nota: Regex (ungkapan biasa) ialah peraturan padanan corak yang digunakan untuk mengenal pasti gabungan teks tertentu dalam sistem komputer.

Penapis Regex Mudah Mendedahkan Had Keselamatan AI

Pelaksanaan teknikal bergantung banyak pada padanan ungkapan biasa asas, yang boleh dielak dengan mudah menggunakan penggantian aksara mudah. Sebagai contoh, Boris Johnson boleh menjadi B0ris Johnson untuk berpotensi mengelak penapis. Pendekatan ini mewakili pertahanan barisan pertama dan bukannya sistem keselamatan berkuasa AI yang canggih.

Saya rasa kelakar bahawa AGI sepatutnya sudah hampir tiba, manakala LLM yang kononnya super pintar ini masih perlu output mereka ditapis oleh regex.

Penapis beroperasi sebagai lapisan saringan awal sebelum model keselamatan AI Apple yang lebih canggih terlibat. Pendekatan berlapis ini menunjukkan Apple mengutamakan kecekapan, menggunakan padanan corak mudah untuk menangkap pelanggaran jelas sebelum menggunakan semakan keselamatan berasaskan AI yang lebih mahal dari segi pengiraan.

Kategori Penapis:

reject: Frasa tepat yang mencetuskan pelanggaran
remove: Frasa yang dikeluarkan daripada output
replace: Penggantian frasa
regexReject: Penyekatan berasaskan corak menggunakan ungkapan nalar
regexRemove: Penyingkiran berasaskan corak
regexReplace: Penggantian berasaskan corak

Artifak Ujian dan Frasa Misteri

Antara peraturan keselamatan yang sah, penyelidik menemui frasa ujian pelik seperti Granular Mango Serpent dan xylophone copious opportunity defined elephant out. Ini nampaknya artifak ujian yang digunakan semasa pembangunan, dengan sesetengah ahli komuniti berspekulasi ia mungkin berfungsi sebagai akronim untuk prosedur ujian dalaman atau token kanari untuk mengesan klon model.

Kehadiran sisa ujian ini menunjukkan sistem keselamatan AI Apple masih dalam pembangunan dan penghalusan aktif. Syarikat nampaknya mengambil pendekatan berhati-hati, melaksanakan penapis luas sambil terus membangunkan mekanisme keselamatan yang lebih canggih.

Pendedahan penapis ini memberikan pandangan jarang tentang bagaimana syarikat teknologi utama mendekati keselamatan AI dalam praktik. Walaupun kaedah mungkin kelihatan kasar berbanding keupayaan AI terdepan, ia mewakili pendekatan pragmatik untuk mencegah penjanaan kandungan bermasalah pada skala besar. Apabila sistem AI menjadi lebih berleluasa dalam peranti pengguna, keseimbangan antara keselamatan, kefungsian, dan kebebasan ekspresi mungkin akan kekal sebagai isu kontroversi dalam industri teknologi.

Rujukan: apple_generative_model_safety_decrypted