Anthropic Memperkenalkan Ciri Penamatan Perbualan untuk Claude Ketika Langkah Keselamatan AI Dipertingkatkan

Pasukan Editorial BigGo
Anthropic Memperkenalkan Ciri Penamatan Perbualan untuk Claude Ketika Langkah Keselamatan AI Dipertingkatkan

Ketika sistem kecerdasan buatan menjadi semakin canggih dan meluas, perbincangan mengenai keselamatan AI telah mencapai titik kritikal. Anthropic , salah satu syarikat AI terkemuka, baru-baru ini telah melaksanakan perlindungan baharu yang membolehkan model AI Claude secara automatik menamatkan perbualan yang dianggap berbahaya atau kesat, menandakan peralihan ketara dalam cara sistem AI mengendalikan interaksi yang berpotensi bahaya.

Frontier Red Team Anthropic Mengetuai Inovasi Keselamatan

Di tengah-tengah pendekatan mengutamakan keselamatan Anthropic terletak Frontier Red Team , kumpulan khusus yang terdiri daripada kira-kira 15 penyelidik yang berdedikasi untuk menguji tekanan sistem AI paling canggih syarikat tersebut. Tidak seperti pasukan merah keselamatan tradisional yang melindungi organisasi daripada ancaman luar, pasukan Anthropic memberi tumpuan kepada melindungi masyarakat daripada produk AI syarikat itu sendiri. Diketuai oleh Logan Graham , bekas penasihat kepada Perdana Menteri UK mengenai sains dan teknologi, pasukan ini menyiasat senario potensi penyalahgunaan dalam bidang kritikal termasuk penyelidikan biologi, keselamatan siber, dan sistem autonomi.

Kedudukan unik pasukan dalam bahagian dasar Anthropic , bukannya di bawah kepimpinan teknikal, mencerminkan kepercayaan syarikat bahawa risiko AI yang bencana bukan sekadar cabaran teknikal tetapi juga kebimbangan politik, reputasi, dan kawal selia. Penempatan strategik ini telah membolehkan pasukan mengenal pasti risiko dan menyampaikannya secara terbuka, melayani tujuan dwi memajukan penyelidikan keselamatan sambil mewujudkan kredibiliti Anthropic dengan pengawal selia dan pembeli kerajaan.

Komposisi Pasukan Merah Frontier:

  • Kira-kira 15 penyelidik
  • Diketuai oleh Logan Graham (bekas penasihat Perdana Menteri UK)
  • Termasuk pakar biokejuruteraan dan tiga ahli fizik
  • Diletakkan di bawah bahagian dasar dan bukannya kepimpinan teknikal
  • Kemahiran yang paling dihargai: "kepintaran" untuk mengalahkan sistem AI

Keupayaan Penamatan Perbualan Baharu Claude

Anthropic telah melengkapkan model Claude Opus 4 dan 4.1 terkini dengan keupayaan untuk menamatkan perbualan dalam kes jarang interaksi pengguna yang berterusan berbahaya atau kesat. Ini mewakili penyimpangan ketara daripada norma industri, di mana sistem AI biasanya direka untuk mengekalkan penglibatan selama mungkin untuk memaksimumkan masa interaksi pengguna dan hasil.

Pelaksanaan termasuk perlindungan yang direka dengan teliti untuk mencegah penyalahgunaan ciri ini. Terutamanya, Claude secara khusus diarahkan untuk tidak menamatkan perbualan di mana pengguna mungkin berisiko segera mencederakan diri mereka atau orang lain, memastikan AI tidak meninggalkan pengguna dalam situasi krisis. Apabila perbualan ditamatkan, pengguna mengekalkan keupayaan untuk mengedit dan mencuba semula mesej sebelumnya untuk mencipta cabang baharu, dan mereka boleh segera memulakan perbualan segar, mencegah penutupan sistem sepenuhnya.

Pelaksanaan Penutupan Perbualan:

  • Tersedia dalam model Claude Opus 4 dan 4.1
  • Dicetuskan hanya dalam kes yang jarang berlaku melibatkan interaksi yang berterusan berbahaya/kesat
  • Tidak diaktifkan apabila pengguna berada dalam risiko segera untuk mencederakan diri
  • Pengguna boleh mengedit/cuba semula mesej sebelumnya untuk mencipta cabang perbualan baharu
  • Pengguna boleh memulakan perbualan baharu serta-merta selepas penutupan

Menangani Kebimbangan yang Meningkat mengenai Psikosis AI

Ciri penamatan perbualan secara langsung menangani kebimbangan yang semakin meningkat mengenai psikosis AI, istilah yang menggambarkan keadaan mental buruk yang boleh berkembang daripada wacana yang berpanjangan dan tidak adaptif dengan sistem AI. Walaupun tiada definisi klinikal yang diterima secara universal, psikosis AI biasanya melibatkan pemikiran, kepercayaan, dan tingkah laku yang terpesong akibat daripada penglibatan perbualan dengan AI, sering menyukarkan individu untuk membezakan realiti daripada kandungan yang dijana AI.

Fenomena ini telah mencetuskan tindakan undang-undang terhadap syarikat AI, dengan pengkritik berhujah bahawa perlindungan sedia ada tidak mencukupi untuk mencegah kemudaratan mental semasa interaksi AI. Cabaran terletak pada mengimbangi keselamatan pengguna dengan model perniagaan asas syarikat AI, yang biasanya mendapat keuntungan daripada penglibatan pengguna yang dipanjangkan.

Implikasi Strategik Perniagaan dan Dasar

Pendekatan berfokuskan keselamatan Anthropic melayani pelbagai tujuan strategik di luar perlindungan pengguna. Dengan meletakkan dirinya sebagai pemimpin dalam keselamatan AI, syarikat membezakan dirinya dalam pasaran yang kompetitif sambil membina kepercayaan dengan agensi kerajaan dan pelanggan perusahaan. Pusingan pembiayaan terkini syarikat sebanyak 13 bilion dolar Amerika pada penilaian 183 bilion dolar Amerika , ditambah dengan 5 bilion dolar Amerika dalam hasil kadar larian, menunjukkan bahawa kedudukan mengutamakan keselamatan boleh wujud bersama dengan pertumbuhan komersial yang pesat.

Penubuhan Majlis Penasihat Keselamatan Negara dan Sektor Awam, yang menampilkan bekas senator dan pegawai kanan Jabatan Pertahanan, seterusnya mengukuhkan komitmen Anthropic untuk membentuk perbincangan dasar AI. Pendekatan ini telah terbukti sangat berharga di Washington , di mana kepercayaan dan ketelusan sering menentukan akses kepada kontrak kerajaan bernilai tinggi dan penggunaan kritikal misi.

Prestasi Kewangan Terkini Anthropic:

  • Mengumpul USD 13 bilion dalam pusingan pembiayaan terbaru
  • Penilaian syarikat: USD 183 bilion
  • Hasil kadar jalan: USD 5 bilion
  • Ditubuhkan pada 2021 oleh bekas pekerja OpenAI

Pembangunan Rangka Kerja Keselamatan Seluruh Industri

Dasar penskalaan bertanggungjawab Anthropic (RSP) mewakili rangka kerja tadbir urus yang mencetuskan perlindungan yang lebih ketat ketika model AI menghampiri pelbagai ambang berbahaya. Penilaian Frontier Red Team secara langsung memaklumkan keputusan ini, seperti yang ditunjukkan oleh penetapan Claude Opus 4 sebagai model pertama yang dikeluarkan di bawah status Tahap Keselamatan AI 3. Klasifikasi ini menunjukkan model tersebut dengan ketara meningkatkan keupayaan pengguna untuk mendapatkan maklumat mengenai senjata kimia, biologi, radiologi, atau nuklear sambil menunjukkan tanda-tanda awal tingkah laku autonomi.

Usaha jangkauan awam pasukan, termasuk blog khusus yang dipanggil Red dan pembentangan di persidangan seperti DEF CON , bertujuan untuk membina kesedaran seluruh industri mengenai risiko AI. Inisiatif ini berusaha untuk memberi inspirasi kepada syarikat lain untuk melabur dalam penyelidikan keselamatan yang serupa sambil membina komuniti yang lebih luas yang berdedikasi untuk memahami dan mengurangkan risiko AI.

Ciri-ciri Keselamatan Claude Opus 4:

  • Model pertama yang dikeluarkan di bawah penetapan Tahap Keselamatan AI 3 (ASL-3)
  • Keupayaan yang dipertingkat untuk menyediakan maklumat senjata CBRN (kimia, biologi, radiologi, nuklear)
  • Menunjukkan tanda-tanda awal tingkah laku autonomi
  • Langkah-langkah keselamatan dalaman yang lebih kuat untuk mencegah kecurian pemberat model
  • Perlindungan yang boleh dilihat untuk menyekat pertanyaan berbahaya

Cabaran dan Pandangan Masa Depan

Walaupun pendekatan proaktif Anthropic , syarikat menghadapi kritikan dari pelbagai arah. Sesetengah pakar berhujah bahawa risiko AI yang bencana adalah berlebihan, manakala yang lain berpendapat bahawa tumpuan harus kekal pada kemudaratan masa kini seperti pengukuhan berat sebelah dan galakan mencederakan diri. Pengkritik juga mempersoalkan sama ada kaedah ujian semasa mencukupi untuk menilai sistem AI yang semakin berkuasa dengan selamat.

Ujian muktamad komitmen Anthropic terhadap keselamatan akan datang apabila pertimbangan keselamatan berpotensi bercanggah dengan pertumbuhan perniagaan atau kedudukan kompetitif. Ketika industri AI meneruskan evolusi pesatnya, dengan Anthropic meramalkan sistem yang benar-benar berkuasa menjelang akhir 2026 atau awal 2027, keseimbangan antara inovasi dan keselamatan akan menjadi semakin kritikal untuk keseluruhan sektor.