Model Computer Use Gemini 2.5 Google Bergelut dengan Tugas Asas Walaupun Mampu Menyelesaikan CAPTCHA

Pasukan Komuniti BigGo
Model Computer Use Gemini 2.5 Google Bergelut dengan Tugas Asas Walaupun Mampu Menyelesaikan CAPTCHA

Google telah mengeluarkan model Computer Use Gemini 2.5 yang direka untuk berinteraksi dengan antara muka pengguna melalui tangkapan skrin dan klik berdasarkan koordinat. Walaupun teknologi ini mewakili langkah maju yang ketara dalam automasi AI, ujian awal mendedahkan hasil bercampur-campur yang menyerlahkan kedua-dua keupayaan yang mengagumkan dan batasan asas.

Model ini berfungsi dengan menganalisis tangkapan skrin antara muka komputer dan menjana tindakan seperti mengklik atau menaip pada koordinat tertentu. Tidak seperti alat automasi pelayar lain yang menggunakan data berstruktur daripada halaman web, pendekatan ini bergantung sepenuhnya pada pemahaman visual, sama seperti cara manusia berinteraksi dengan komputer.

Keupayaan Model:

  • Pengoptimuman utama: Pelayar web
  • Sokongan sekunder: Kawalan UI mudah alih
  • Sokongan terhad: Kawalan peringkat OS desktop
  • Keperluan input: Permintaan pengguna, tangkapan skrin, sejarah tindakan
  • Output: Tindakan UI (mengklik, menaip) dengan pilihan permintaan pengesahan pengguna
Imej ini mempamerkan ucapan salam dalam pelbagai bahasa, mencerminkan komunikasi global, sama seperti bagaimana model Gemini 25 bertujuan untuk meningkatkan interaksi pengguna dengan antara muka yang berbeza
Imej ini mempamerkan ucapan salam dalam pelbagai bahasa, mencerminkan komunikasi global, sama seperti bagaimana model Gemini 25 bertujuan untuk meningkatkan interaksi pengguna dengan antara muka yang berbeza

Kejayaan CAPTCHA Menutupi Masalah Ketepatan

Salah satu demonstrasi yang paling menarik melibatkan model yang berjaya menyelesaikan cabaran reCAPTCHA milik Google sendiri. Penguji awal melaporkan menyaksikan AI menavigasi melalui langkah keselamatan yang direka khusus untuk menghalang sistem automatik. Walau bagaimanapun, pencapaian yang mengagumkan ini berbeza ketara dengan kesukaran dalam tugas navigasi asas.

Maklum balas komuniti mendedahkan isu ketepatan yang ketara dengan operasi klik mudah. Pengguna melaporkan model mengambil masa sehingga 18 percubaan untuk mengklik satu pautan komen, dengan setiap percubaan mendarat hanya beberapa piksel dari sasaran. Masalah ketepatan ini meluas kepada pengisian borang, di mana AI dilaporkan menulis ganti data sedia ada semasa cuba mengisi medan baharu dalam aplikasi seperti Google Sheets.

Isu Prestasi Yang Dilaporkan:

  • Sehingga 18 percubaan diperlukan untuk operasi klik tunggal
  • Masalah ketepatan koordinat (klik mendarat beberapa piksel dari sasaran)
  • Penimpaan data dalam aplikasi Google Sheets
  • Kelajuan pelaksanaan yang perlahan dalam senario interaktif
  • Kesukaran mengendalikan tetingkap/tab pelayar baharu

Kelajuan dan Batasan Praktikal

Kelajuan prestasi model telah menjadi kebimbangan utama bagi pengguna berpotensi. Ramai dalam komuniti menggambarkan kitaran interaksi sebagai sangat perlahan, dengan setiap tindakan memerlukan analisis tangkapan skrin, membuat keputusan, dan pelaksanaan sebelum beralih ke langkah seterusnya. Ini mewujudkan pengalaman pengguna yang mengecewakan di mana tugas mudah mengambil masa yang jauh lebih lama daripada penyelesaian manual.

Ia mengambil masa hampir 18 percubaan untuk mengklik pautan komen pada demo HN, setiap satu beberapa piksel tersilap.

Model ini menunjukkan potensi untuk tugas automasi latar belakang di mana kelajuan kurang kritikal, tetapi tahap prestasi semasa menjadikannya tidak praktikal untuk bantuan masa nyata atau aliran kerja interaktif.

Cabaran Penggunaan Perusahaan

Pengguna perniagaan menyatakan kebimbangan tentang menggunakan teknologi ini dalam persekitaran pengeluaran tanpa kawalan tadbir urus yang sewajarnya. Keupayaan model untuk memintas langkah keselamatan seperti CAPTCHA menimbulkan persoalan tentang akses yang tidak diingini kepada sistem atau data terhad.

Ciri keselamatan yang dibina dalam sistem termasuk perkhidmatan keselamatan setiap langkah dan keperluan pengesahan pengguna untuk tindakan berisiko tinggi. Walau bagaimanapun, penggunaan perusahaan berkemungkinan memerlukan rangka kerja keselamatan tambahan dan proses kelulusan sebelum pelaksanaan meluas.

Ciri-ciri Keselamatan:

  • Perkhidmatan keselamatan setiap langkah untuk penilaian tindakan
  • Arahan sistem untuk pengendalian tindakan berisiko tinggi
  • Keperluan pengesahan pengguna untuk operasi sensitif
  • Latihan keselamatan terbina dalam dalam model
  • Kawalan keselamatan yang boleh dikonfigurasikan oleh pembangun

Perdebatan Seni Bina Teknikal

Komuniti kekal berpecah tentang pendekatan asas menggunakan tangkapan skrin berbanding data berstruktur. Walaupun analisis visual berfungsi secara universal merentasi aplikasi berbeza, ia mengorbankan ketepatan dan kecekapan yang tersedia melalui akses API langsung atau rangka kerja kebolehcapaian.

Sesetengah pembangun berhujah ini mewakili pendekatan kuda mekanikal - menggunakan teknologi baharu untuk meniru kaedah manusia daripada memanfaatkan penyelesaian asli komputer yang lebih cekap. Yang lain membalas bahawa interaksi visual menyediakan satu-satunya kaedah universal untuk mengautomasikan sistem warisan dan aplikasi tanpa akses API.

Model ini pada masa ini berfungsi terbaik dengan pelayar web dan menunjukkan potensi untuk antara muka mudah alih, tetapi kawalan sistem pengendalian desktop kekal tidak dioptimumkan. Batasan ini mengehadkan kegunaannya untuk automasi aliran kerja menyeluruh merentasi platform berbeza.

Walaupun terdapat batasan semasa, teknologi ini menunjukkan potensi untuk sistem AI berinteraksi dengan mana-mana antara muka visual, membuka kemungkinan untuk mengautomasikan sistem dan aliran kerja yang sebelum ini tidak boleh diakses.

Rujukan: Introducing the Gemini 2.5 Computer Use model