Google telah mengambil langkah besar ke hadapan dalam keupayaan kecerdasan buatan dengan pelancaran model Penggunaan Komputer Gemini 2.5, yang kini tersedia dalam pratonton awam untuk pembangun. Teknologi terobosan ini mewakili peralihan asas daripada pembantu AI yang hanya mencadangkan tindakan kepada yang benar-benar boleh melaksanakan tugas dengan berinteraksi secara langsung dengan antara muka web seperti yang dilakukan oleh pengguna manusia.
Pendekatan Revolusioner kepada Automasi Web
Model Penggunaan Komputer Gemini 2.5 beroperasi melalui sistem berasaskan tangkapan skrin yang inovatif yang memisahkan diri daripada pendekatan bergantung kepada API tradisional. Daripada memerlukan antara muka data berstruktur yang bersih, model ini menganalisis tangkapan skrin visual halaman web dan menghasilkan tindakan antara muka pengguna yang spesifik sebagai respons. Proses kitaran ini melibatkan penghantaran tangkapan skrin kepada model bersama dengan sejarah tindakan terkini, menerima panggilan fungsi seperti klik, taip, atau tatal, melaksanakan tindakan tersebut, dan kemudian mengulangi kitaran dengan tangkapan skrin segar sehingga tugas selesai atau protokol keselamatan mencetuskan pemberhentian.
Keupayaan Interaksi Pelayar Menyeluruh
Model ini menunjukkan kepelbagaian yang luar biasa dalam navigasi web, mampu melakukan tiga belas jenis tindakan berbeza yang mencerminkan tingkah laku pelayaran manusia. Ini termasuk membuka halaman web, mengisi borang, mengklik butang, memilih menu lungsur, menyeret item, menatal melalui kandungan, dan mengekalkan konteks merentas pelbagai interaksi halaman. Google telah mengoptimumkan model khusus untuk persekitaran pelayar terlebih dahulu, walaupun ujian awal menunjukkan hasil yang menjanjikan pada antara muka pengguna mudah alih juga.
Tindakan yang Disokong: Model ini pada masa ini menyokong 13 tindakan UI yang berbeza termasuk klik, taip, skrol, hover, buka dropdown, seret item, dan navigasi URL
Metrik Prestasi Unggul
Menurut ujian dalaman Google, model Penggunaan Komputer Gemini 2.5 mengatasi penyelesaian pesaing merentas pelbagai penanda aras industri. Model ini mendahului dalam penilaian kawalan pelayar termasuk Online-Mind2Web, WebVoyager, dan AndroidWorld sambil mengekalkan latensi yang ketara lebih rendah dalam persekitaran ujian Browserbase. Kelebihan prestasi ini menjadi sangat berharga untuk aplikasi masa nyata seperti menavigasi papan pemuka akaun yang kompleks atau tempahan perjalanan di mana kelajuan dan ketepatan adalah penting.
Prestasi Penanda Aras: Mendahului dalam penanda aras Online-Mind2Web, WebVoyager, dan AndroidWorld sambil mengekalkan kekamiran yang lebih rendah berbanding penyelesaian pesaing
Rangka Kerja Keselamatan Kukuh
Google telah melaksanakan langkah keselamatan menyeluruh yang berfungsi sebagai komponen integral dan bukannya tambahan pilihan kepada sistem. Setiap tindakan yang dicadangkan menjalani semakan oleh perkhidmatan keselamatan khusus sebelum pelaksanaan, membolehkan pembangun menyekat tindakan tertentu atau memerlukan pengesahan pengguna eksplisit untuk tugas berisiko tinggi seperti transaksi kewangan atau operasi kritikal sistem. Perlindungan ini membantu mencegah agen daripada secara tidak sengaja menyebabkan kerosakan sambil mengekalkan fleksibiliti operasi untuk kes penggunaan yang sah.
Ciri-ciri Keselamatan: Semakan perkhidmatan keselamatan setiap langkah, sekatan tindakan yang boleh dikonfigurasikan oleh pembangun, keperluan pengesahan pengguna untuk tugas berisiko tinggi
Aplikasi Dunia Sebenar dan Integrasi
Beberapa pasukan Google sudah menggunakan model dalam persekitaran pengeluaran, termasuk ciri Mod AI Carian, Agen Ujian Firebase, dan inisiatif Projek Mariner. Teknologi ini membolehkan automasi aliran kerja dan alat pembantu yang boleh beroperasi di sebalik skrin log masuk di mana API tradisional tidak wujud, membuka kemungkinan untuk mengautomasikan proses berbilang langkah yang kompleks merentas pelbagai platform web.
Akses Pembangun dan Pelaksanaan
Pembangun boleh mula bereksperimen dengan model Penggunaan Komputer Gemini 2.5 melalui platform Google AI Studio dan Vertex AI. Google menyediakan sokongan menyeluruh termasuk demonstrasi yang dihoskan melalui Browserbase, gelung agen sampel untuk rujukan, dan dokumentasi terperinci untuk pelaksanaan tempatan menggunakan Playwright. Syarikat menekankan kepentingan ujian menyeluruh sebelum menggunakan agen dalam persekitaran pengeluaran, memandangkan sifat teknologi yang berkuasa.