Meka Agent Menimbulkan Kebimbangan Keselamatan Walaupun Mencapai Skor Penanda Aras WebArena 72.7%

Pasukan Komuniti BigGo

Meka Agent Menimbulkan Kebimbangan Keselamatan Walaupun Mencapai Skor Penanda Aras WebArena 72.7%

Pelancaran Meka Agent, sebuah ejen autonomi sumber terbuka yang menggunakan komputer, telah mencetuskan perbincangan sengit dalam komuniti teknologi mengenai keseimbangan antara keupayaan dan keselamatan. Walaupun ejen ini mencapai keputusan penanda aras yang mengagumkan, mencecah 72.7% pada ujian WebArena, keupayaan akses komputer penuhnya telah menimbulkan kebimbangan keselamatan yang ketara dalam kalangan pembangun dan pengguna.

Prestasi Penanda Aras

Skor Penanda Aras WebArena: 72.7%
Mencapai keputusan terkini dalam automasi pelayaran web
Menggunakan sistem pengesahan model berganda untuk ketepatan

Kebimbangan Keselamatan Terhadap Akses Sistem Penuh

Perdebatan paling hangat berpusat pada kawalan peringkat OS Meka, yang melangkaui alat automasi pelayar biasa. Tidak seperti penyelesaian kotak pasir yang berfungsi dalam persekitaran pelayar, Meka boleh berinteraksi dengan dialog sistem, mengendalikan muat naik fail, dan melakukan tindakan pada peringkat sistem operasi. Keupayaan ini telah mencetuskan penggera dalam komuniti, dengan pengguna menunjuk kepada insiden terkini di mana alat AI menyebabkan kerosakan serius pada sistem syarikat.

Salah seorang pengasas bersama, Edward, dengan pantas menangani kebimbangan ini dengan menjelaskan bahawa ejen beroperasi dalam persekitaran segar dan terkurung dan bukannya pada komputer peribadi atau syarikat. Walau bagaimanapun, penjelasan ini tidak memuaskan sepenuhnya golongan skeptik yang bimbang tentang potensi penyalahgunaan atau kerosakan tidak sengaja.

Ciri Teknikal Utama

Kawalan peringkat OS (bukan hanya pelayar)
Berasaskan TypeScript dengan API typesafe
Rangka kerja boleh dikembangkan yang menyokong berbilang penyedia
Sumber terbuka di bawah Lesen MIT
Kredit percuma $10 USD tersedia melalui Aplikasi Meka

Pertukaran Prestasi vs Kos

Maklum balas komuniti mendedahkan perasaan bercampur-campur mengenai nilai praktikal ejen ini. Walaupun pengguna mengakui pencapaian teknikal yang mengagumkan, ramai yang mempersoalkan sama ada kos token membenarkan faedah automasi. Ejen ini memerlukan model penglihatan yang berkuasa seperti O3 OpenAI atau Claude Sonnet 4, yang boleh mahal untuk dijalankan bagi tugas rutin.

Ia mengujakan kerana kualiti hampir mencapai tahap manusia, tetapi saya masih fikir kami menghabiskan terlalu banyak token, dan percepatan automasi tidak benar-benar berbaloi dengan jumlah harga token lagi

Para pembangun mengakui batasan ini tetapi berhujah bahawa tugas bernilai tinggi dan membosankan seperti pengisian borang, pencarian prospek jualan, dan pemantauan harga membenarkan kos semasa. Mereka juga menjangkakan harga token akan menurun apabila model penglihatan matang.

Model yang Disyorkan

OpenAI O3
Claude Sonnet 4
Claude Opus 4
Memerlukan model penglihatan dengan keupayaan asas visual yang baik

Seni Bina Teknikal dan Prestasi Dunia Sebenar

Pendekatan Meka berbeza daripada pesaing dengan menggunakan pelbagai model yang mengesahkan kerja antara satu sama lain, serupa dengan pengaturcaraan berpasangan dalam pembangunan perisian. Sistem ini termasuk model penilai yang memeriksa sama ada tugas diselesaikan dengan betul, yang dikreditkan oleh pasukan untuk prestasi penanda aras mereka yang kukuh.

Walau bagaimanapun, ujian dunia sebenar telah mendedahkan cabaran. Pengguna melaporkan isu dengan laman web tempahan penerbangan, ralat tamat masa, dan tugas yang tidak lengkap. Seorang penguji mendapati bahawa kedua-dua laman web syarikat penerbangan menjadi tidak boleh digunakan semasa sesi mereka, menimbulkan persoalan sama ada ejen penggunaan komputer semasa bersedia untuk aplikasi dunia sebenar yang kompleks.

Cabaran Infrastruktur dan Penggunaan

Perbincangan komuniti juga menyerlahkan kebimbangan penggunaan praktikal. Walaupun pasukan pada mulanya meneroka penyelesaian berkontena, mereka mendapati perkhidmatan VM berasaskan awan lebih pantas dan mudah untuk dilaksanakan. Sistem ini memerlukan penyedia infrastruktur khusus yang menawarkan kawalan peringkat OS, mengehadkan pilihan penggunaan berbanding penyelesaian pelayar sahaja yang lebih mudah.

Pengguna telah meminta ciri seperti sokongan proksi untuk laman yang disekat, keserasian sambungan pelayar, dan keupayaan menyelesaikan CAPTCHA. Pasukan telah mengesahkan sokongan proksi tersedia, dengan rancangan untuk sambungan pelayar, walaupun mereka mengakui penyelesaian CAPTCHA akan kekal sebagai cabaran berterusan.

Perdebatan mengenai Meka Agent mencerminkan persoalan yang lebih luas mengenai keselamatan AI dan penggunaan praktikal. Walaupun pencapaian teknikal mengagumkan, sambutan bercampur-campur komuniti menunjukkan bahawa mengimbangi kuasa, keselamatan, dan keberkesanan kos kekal sebagai cabaran ketara untuk ejen penggunaan komputer autonomi.

Rujukan: Meka Agent