Pelancaran Windows-Use , sebuah agen automasi baharu yang mengawal sistem Windows melalui interaksi GUI , telah mencetuskan perbincangan teknikal yang menarik mengenai pendekatan terbaik untuk automasi komputer. Alat berasaskan Python ini menjanjikan untuk membolehkan mana-mana model bahasa besar melakukan tugas automasi desktop tanpa bergantung pada model computer vision tradisional.
Keperluan Sistem
- Python 3.12 atau lebih tinggi
- Pengurus pakej UV (atau pip)
- Windows 7, 8, 10, atau 11
- Serasi dengan mana-mana LLM (ditunjukkan dengan Google's Gemini 2.0 Flash )
Perpecahan Besar Automasi: Accessibility Trees vs Screenshots
Komuniti dengan pantas terbahagi kepada dua kem berkenaan strategi automasi. Satu pihak menyokong pendekatan User Interface Automation ( UIA ) tree yang digunakan oleh Windows-Use , dengan berhujah bahawa ia menyediakan data yang lebih bersih dan boleh dipercayai untuk sistem AI bekerja. Pihak yang lain menyokong kaedah computer vision yang menganalisis screenshots secara langsung.
Penyokong pendekatan UIA menunjukkan bahawa kebanyakan aplikasi Windows penting dengan betul mendedahkan elemen antara muka mereka melalui rangka kerja kebolehcapaian. Kaedah ini menyediakan maklumat berstruktur dan tidak kabur mengenai butang, medan teks, dan komponen UI lain yang boleh difahami dan berinteraksi dengan mudah oleh agen AI .
Walau bagaimanapun, pengkritik menyerlahkan jurang ketara dalam pendekatan ini. Aplikasi penjagaan kesihatan, perisian berasaskan Electron , dan banyak aplikasi web tidak mengikut garis panduan kebolehcapaian dengan betul, menyebabkan alat automasi tidak dapat melihat elemen antara muka mereka. Ini mewujudkan titik buta di mana kaedah berasaskan screenshot mungkin satu-satunya pilihan yang berdaya maju.
Nota: UIA ( User Interface Automation ) adalah rangka kerja Microsoft yang membolehkan aplikasi mendedahkan elemen antara muka mereka kepada teknologi bantuan dan alat automasi.
Pendekatan Teknikal Utama yang Dibincangkan
- Kaedah UIA Tree: Menggunakan rangka kerja kebolehcapaian Windows untuk data UI berstruktur
- Computer Vision: Menganalisis tangkapan skrin untuk mengenal pasti elemen UI
- Pendekatan Hibrid: Menggabungkan kedua-dua kaedah untuk keserasian yang lebih luas
- Alatan Warisan: SendKeys() dan panggilan Win32 API dari tahun 1990-an
Perjuangan Computer Vision
Perbincangan mendedahkan kekecewaan berterusan dengan keupayaan analisis screenshot model AI semasa. Beberapa ahli komuniti melaporkan bahawa walaupun model canggih seperti ChatGPT sering menggunakan skrip Python untuk menghuraikan imej daripada menggunakan keupayaan vision asli mereka, yang membawa kepada hasil yang tidak boleh dipercayai dan berbilang percubaan yang gagal.
Saya memintanya mengekstrak guid daripada imej dan ia menulis skrip python untuk menjalankan ocr terhadapnya...dan mendapat jawapan yang salah.
Ini menyerlahkan cabaran yang lebih luas: walaupun computer vision menawarkan keserasian universal dengan mana-mana aplikasi, pelaksanaannya kekal tidak konsisten dan rapuh. Model yang dilatih khusus untuk pengesanan UI mungkin berprestasi lebih baik, tetapi alat khusus sedemikian belum tersedia secara meluas lagi.
Isu Keserasian Aplikasi
- Sokongan UIA Yang Baik: Kebanyakan aplikasi Windows standard, suite Office
- Sokongan UIA Yang Lemah: Aplikasi Electron, banyak aplikasi penjagaan kesihatan, VS Code (tanpa mod kebolehcapaian)
- Keserasian Universal: Penglihatan komputer berfungsi dengan mana-mana antara muka visual
Nostalgia untuk Zaman yang Lebih Mudah
Menariknya, perbincangan teknikal telah mencetuskan kenangan nostalgia alat automasi awal. Ramai pembangun dengan penuh kasih sayang mengingati penggunaan SendKeys() dalam Visual Basic 6 semasa tahun 1990-an, yang menggerakkan segala-galanya daripada chatbot AOL hingga gurauan desktop. Alat mudah ini, walaupun primitif, sering berfungsi dengan lebih boleh dipercayai daripada penyelesaian berkuasa AI hari ini.
Perbandingan ini menggariskan bagaimana cabaran automasi berterusan walaupun kemajuan teknologi selama beberapa dekad. Alat moden mungkin lebih canggih, tetapi mereka masih bergelut dengan masalah asas yang sama: berinteraksi dengan boleh dipercayai dengan antara muka pengguna yang pelbagai dan tidak konsisten.
Memandang ke Hadapan
Apabila agen automasi komputer menjadi lebih berleluasa, perdebatan antara pendekatan teknikal yang berbeza berkemungkinan akan semakin sengit. Penyelesaian ideal mungkin melibatkan sistem hibrid yang boleh bertukar antara UIA trees , computer vision , dan panggilan API langsung bergantung pada keupayaan aplikasi sasaran.
Buat masa ini, Windows-Use mewakili titik tengah yang menarik, terutamanya menggunakan data kebolehcapaian berstruktur sambil kembali kepada vision apabila perlu. Sama ada pendekatan ini terbukti lebih boleh dipercayai daripada kaedah computer vision tulen masih belum dapat dilihat apabila lebih ramai pengguna mengujinya dalam senario dunia sebenar.
Rujukan: Windows-Use