Agent Windows-Use Memicu Perdebatan Tentang Pendekatan Otomasi GUI: UIA vs Computer Vision

Tim Komunitas BigGo
Agent Windows-Use Memicu Perdebatan Tentang Pendekatan Otomasi GUI: UIA vs Computer Vision

Peluncuran Windows-Use , sebuah agent otomasi baru yang mengendalikan sistem Windows melalui interaksi GUI, telah memicu diskusi teknis yang menarik tentang pendekatan terbaik untuk otomasi komputer. Tool berbasis Python ini menjanjikan untuk memungkinkan model bahasa besar apa pun melakukan tugas otomasi desktop tanpa bergantung pada model computer vision tradisional.

Persyaratan Sistem

  • Python 3.12 atau lebih tinggi
  • Package manager UV (atau pip)
  • Windows 7, 8, 10, atau 11
  • Kompatibel dengan LLM apa pun (didemonstrasikan dengan Google Gemini 2.0 Flash )

Perpecahan Besar Otomasi: Accessibility Trees vs Screenshots

Komunitas dengan cepat terbagi menjadi dua kubu mengenai strategi otomasi. Satu sisi mendukung pendekatan User Interface Automation (UIA) tree yang digunakan Windows-Use , dengan berargumen bahwa ini memberikan data yang lebih bersih dan andal untuk sistem AI. Sisi lain mengadvokasi metode computer vision yang menganalisis screenshot secara langsung.

Pendukung pendekatan UIA menunjukkan bahwa sebagian besar aplikasi Windows penting dengan benar mengekspos elemen antarmuka mereka melalui framework aksesibilitas. Metode ini menyediakan informasi terstruktur dan tidak ambigu tentang tombol, field teks, dan komponen UI lainnya yang dapat dengan mudah dipahami dan diinteraksi oleh agent AI.

Namun, kritikus menyoroti kesenjangan signifikan dalam pendekatan ini. Aplikasi kesehatan, software berbasis Electron , dan banyak aplikasi web tidak mengikuti pedoman aksesibilitas dengan benar, membuat tool otomasi tidak dapat melihat elemen antarmuka mereka. Ini menciptakan blind spot di mana metode berbasis screenshot mungkin menjadi satu-satunya opsi yang layak.

Catatan: UIA (User Interface Automation) adalah framework Microsoft yang memungkinkan aplikasi mengekspos elemen antarmuka mereka ke teknologi bantuan dan tool otomasi.

Pendekatan Teknis Utama yang Dibahas

  • Metode UIA Tree: Menggunakan kerangka kerja aksesibilitas Windows untuk data UI yang terstruktur
  • Computer Vision: Menganalisis tangkapan layar untuk mengidentifikasi elemen UI
  • Pendekatan Hybrid: Menggabungkan kedua metode untuk kompatibilitas yang lebih luas
  • Legacy Tools: SendKeys() dan panggilan Win32 API dari tahun 1990-an

Perjuangan Computer Vision

Diskusi mengungkapkan frustrasi yang berkelanjutan dengan kemampuan analisis screenshot model AI saat ini. Beberapa anggota komunitas melaporkan bahwa bahkan model canggih seperti ChatGPT sering kali menggunakan penulisan script Python untuk mem-parsing gambar daripada menggunakan kemampuan vision native mereka, yang mengarah pada hasil yang tidak andal dan beberapa percobaan yang gagal.

Saya memintanya mengekstrak guid dari gambar dan ia menulis script python untuk menjalankan ocr terhadapnya...dan salah.

Ini menyoroti tantangan yang lebih luas: meskipun computer vision menawarkan kompatibilitas universal dengan aplikasi apa pun, eksekusinya tetap tidak konsisten dan rapuh. Model yang secara khusus dilatih untuk deteksi UI mungkin berkinerja lebih baik, tetapi tool khusus seperti itu belum tersedia secara luas.

Masalah Kompatibilitas Aplikasi

  • Dukungan UIA yang Baik: Sebagian besar aplikasi Windows standar, suite Office
  • Dukungan UIA yang Buruk: Aplikasi Electron, banyak aplikasi kesehatan, VS Code (tanpa mode aksesibilitas)
  • Kompatibilitas Universal: Computer vision bekerja dengan antarmuka visual apa pun

Nostalgia untuk Masa yang Lebih Sederhana

Menariknya, diskusi teknis telah memicu kenangan nostalgia tentang tool otomasi yang lebih awal. Banyak developer dengan penuh kasih mengingat penggunaan SendKeys() di Visual Basic 6 selama tahun 1990-an, yang menggerakkan segala hal dari chatbot AOL hingga prank desktop. Tool sederhana ini, meskipun primitif, sering kali bekerja lebih andal daripada solusi bertenaga AI saat ini.

Perbandingan ini menggarisbawahi bagaimana tantangan otomasi bertahan meskipun kemajuan teknologi selama beberapa dekade. Tool modern mungkin lebih canggih, tetapi mereka masih berjuang dengan masalah fundamental yang sama: berinteraksi secara andal dengan antarmuka pengguna yang beragam dan tidak konsisten.

Melihat ke Depan

Seiring agent otomasi komputer menjadi lebih umum, perdebatan antara pendekatan teknis yang berbeda kemungkinan akan semakin intensif. Solusi ideal mungkin melibatkan sistem hybrid yang dapat beralih antara UIA tree, computer vision, dan panggilan API langsung tergantung pada kemampuan aplikasi target.

Untuk saat ini, Windows-Use mewakili jalan tengah yang menarik, terutama menggunakan data aksesibilitas terstruktur sambil kembali ke vision ketika diperlukan. Apakah pendekatan ini terbukti lebih andal daripada metode computer vision murni masih harus dilihat saat lebih banyak pengguna mengujinya dalam skenario dunia nyata.

Referensi: Windows-Use