Model Computer Use Gemini 2.5 Google Kesulitan dengan Tugas Dasar Meski Mampu Memecahkan CAPTCHA

Tim Komunitas BigGo
Model Computer Use Gemini 2.5 Google Kesulitan dengan Tugas Dasar Meski Mampu Memecahkan CAPTCHA

Google telah merilis model Gemini 2.5 Computer Use yang dirancang untuk berinteraksi dengan antarmuka pengguna melalui tangkapan layar dan klik berbasis koordinat. Meskipun teknologi ini merupakan langkah maju yang signifikan dalam otomatisasi AI, pengujian awal menunjukkan hasil yang beragam dan menyoroti kemampuan yang mengesankan sekaligus keterbatasan mendasar.

Model ini bekerja dengan menganalisis tangkapan layar antarmuka komputer dan menghasilkan tindakan seperti mengklik atau mengetik pada koordinat tertentu. Berbeda dengan alat otomatisasi browser lain yang menggunakan data terstruktur dari halaman web, pendekatan ini mengandalkan pemahaman visual murni, mirip dengan cara manusia berinteraksi dengan komputer.

Kemampuan Model:

  • Optimasi utama: Browser web
  • Dukungan sekunder: Kontrol UI mobile
  • Dukungan terbatas: Kontrol tingkat OS desktop
  • Persyaratan input: Permintaan pengguna, tangkapan layar, riwayat tindakan
  • Output: Tindakan UI (mengklik, mengetik) dengan opsi permintaan konfirmasi pengguna
Gambar ini menampilkan sapaan dalam berbagai bahasa, mencerminkan komunikasi global, serupa dengan bagaimana model Gemini 25 bertujuan untuk meningkatkan interaksi pengguna dengan antarmuka yang berbeda
Gambar ini menampilkan sapaan dalam berbagai bahasa, mencerminkan komunikasi global, serupa dengan bagaimana model Gemini 25 bertujuan untuk meningkatkan interaksi pengguna dengan antarmuka yang berbeda

Keberhasilan CAPTCHA Menutupi Masalah Presisi

Salah satu demonstrasi yang paling mencolok melibatkan model yang berhasil memecahkan tantangan reCAPTCHA milik Google sendiri. Para penguji awal melaporkan menyaksikan AI menavigasi melalui langkah-langkah keamanan yang secara khusus dirancang untuk memblokir sistem otomatis. Namun, pencapaian yang mengesankan ini kontras tajam dengan kesulitan dalam tugas navigasi dasar.

Umpan balik komunitas mengungkapkan masalah akurasi yang signifikan dengan operasi klik sederhana. Pengguna melaporkan model membutuhkan hingga 18 percobaan untuk mengklik satu tautan komentar, dengan setiap percobaan mendarat hanya beberapa piksel dari target. Masalah presisi ini meluas ke pengisian formulir, di mana AI dilaporkan menimpa data yang sudah ada saat mencoba mengisi bidang baru dalam aplikasi seperti Google Sheets.

Masalah Performa yang Dilaporkan:

  • Dibutuhkan hingga 18 percobaan untuk operasi klik tunggal
  • Masalah presisi koordinat (klik mendarat beberapa piksel dari target)
  • Penimpaan data pada aplikasi Google Sheets
  • Kecepatan eksekusi lambat dalam skenario interaktif
  • Kesulitan menangani jendela/tab browser baru

Keterbatasan Kecepatan dan Praktis

Kecepatan kinerja model telah menjadi perhatian utama bagi pengguna potensial. Banyak dalam komunitas menggambarkan siklus interaksi sebagai sangat lambat, dengan setiap tindakan memerlukan analisis tangkapan layar, pengambilan keputusan, dan eksekusi sebelum beralih ke langkah berikutnya. Ini menciptakan pengalaman pengguna yang membuat frustrasi di mana tugas sederhana membutuhkan waktu yang jauh lebih lama daripada penyelesaian manual.

Dibutuhkan hampir 18 percobaan untuk mengklik tautan komentar pada demo HN, masing-masing meleset beberapa piksel.

Model menunjukkan potensi untuk tugas otomatisasi latar belakang di mana kecepatan kurang kritis, tetapi tingkat kinerja saat ini membuatnya tidak praktis untuk bantuan real-time atau alur kerja interaktif.

Tantangan Adopsi Perusahaan

Pengguna bisnis menyatakan kekhawatiran tentang penerapan teknologi di lingkungan produksi tanpa kontrol tata kelola yang tepat. Kemampuan model untuk melewati langkah-langkah keamanan seperti CAPTCHA menimbulkan pertanyaan tentang akses yang tidak diinginkan ke sistem atau data yang dibatasi.

Fitur keamanan yang dibangun ke dalam sistem mencakup layanan keamanan per langkah dan persyaratan konfirmasi pengguna untuk tindakan berisiko tinggi. Namun, adopsi perusahaan kemungkinan akan memerlukan kerangka kerja keamanan tambahan dan proses persetujuan sebelum implementasi yang luas.

Fitur Keamanan:

  • Layanan keamanan per-langkah untuk penilaian tindakan
  • Instruksi sistem untuk penanganan tindakan berisiko tinggi
  • Persyaratan konfirmasi pengguna untuk operasi sensitif
  • Pelatihan keamanan bawaan dalam model
  • Kontrol keamanan yang dapat dikonfigurasi pengembang

Perdebatan Arsitektur Teknis

Komunitas tetap terbagi pada pendekatan mendasar menggunakan tangkapan layar versus data terstruktur. Sementara analisis visual bekerja secara universal di berbagai aplikasi, ini mengorbankan presisi dan efisiensi yang tersedia melalui akses API langsung atau kerangka kerja aksesibilitas.

Beberapa pengembang berpendapat ini merupakan pendekatan kuda mekanis - menggunakan teknologi baru untuk mereplikasi metode manusia daripada memanfaatkan solusi yang lebih efisien yang asli komputer. Yang lain membantah bahwa interaksi visual menyediakan satu-satunya metode universal untuk mengotomatisasi sistem dan aplikasi lama tanpa akses API.

Model saat ini bekerja paling baik dengan browser web dan menunjukkan potensi untuk antarmuka mobile, tetapi kontrol sistem operasi desktop tetap tidak dioptimalkan. Keterbatasan ini membatasi kegunaannya untuk otomatisasi alur kerja komprehensif di berbagai platform.

Meskipun ada keterbatasan saat ini, teknologi ini mendemonstrasikan potensi sistem AI untuk berinteraksi dengan antarmuka visual apa pun, membuka kemungkinan untuk mengotomatisasi sistem dan alur kerja yang sebelumnya tidak dapat diakses.

Referensi: Introducing the Gemini 2.5 Computer Use model