Google telah mengambil langkah maju yang signifikan dalam kemampuan kecerdasan buatan dengan peluncuran model Gemini 2.5 Computer Use , yang kini tersedia dalam pratinjau publik untuk para pengembang. Teknologi terobosan ini merepresentasikan pergeseran fundamental dari asisten AI yang hanya menyarankan tindakan menjadi yang benar-benar dapat melakukan tugas dengan berinteraksi langsung dengan antarmuka web seperti yang dilakukan pengguna manusia.
Pendekatan Revolusioner untuk Otomasi Web
Model Gemini 2.5 Computer Use beroperasi melalui sistem berbasis screenshot yang inovatif dan melepaskan diri dari pendekatan tradisional yang bergantung pada API. Alih-alih memerlukan antarmuka data yang bersih dan terstruktur, model ini menganalisis screenshot visual dari halaman web dan menghasilkan tindakan antarmuka pengguna yang spesifik sebagai respons. Proses siklis ini melibatkan pengiriman screenshot kepada model beserta riwayat tindakan terbaru, menerima panggilan fungsi seperti klik, ketik, atau gulir, mengeksekusi tindakan tersebut, dan kemudian mengulangi siklus dengan screenshot baru hingga tugas selesai atau protokol keamanan memicu penghentian.
Kemampuan Interaksi Browser yang Komprehensif
Model ini menunjukkan keserbagunaan yang luar biasa dalam navigasi web, mampu melakukan tiga belas jenis tindakan berbeda yang mencerminkan perilaku browsing manusia. Ini termasuk membuka halaman web, mengisi formulir, mengklik tombol, memilih menu dropdown, menyeret item, menggulir konten, dan mempertahankan konteks di berbagai interaksi halaman. Google secara khusus telah mengoptimalkan model untuk lingkungan browser terlebih dahulu, meskipun pengujian awal menunjukkan hasil yang menjanjikan pada antarmuka pengguna mobile juga.
Aksi yang Didukung: Model ini saat ini mendukung 13 aksi UI yang berbeda termasuk klik, ketik, gulir, hover, buka dropdown, seret item, dan navigasi URL
Metrik Performa yang Unggul
Menurut pengujian internal Google , model Gemini 2.5 Computer Use mengungguli solusi pesaing di berbagai benchmark industri. Model ini memimpin dalam penilaian kontrol browser termasuk Online-Mind2Web , WebVoyager , dan AndroidWorld sambil mempertahankan latensi yang sangat rendah dalam lingkungan pengujian Browserbase . Keunggulan performa ini menjadi sangat berharga untuk aplikasi real-time seperti menavigasi dashboard akun yang kompleks atau memesan perjalanan di mana kecepatan dan akurasi sangat penting.
Performa Benchmark: Memimpin dalam benchmark Online-Mind2Web , WebVoyager , dan AndroidWorld sambil mempertahankan latensi yang lebih rendah dibandingkan dengan solusi pesaing
Kerangka Keamanan yang Robust
Google telah menerapkan langkah-langkah keamanan komprehensif yang berfungsi sebagai komponen integral daripada tambahan opsional pada sistem. Setiap tindakan yang diusulkan menjalani tinjauan oleh layanan keamanan khusus sebelum eksekusi, memungkinkan pengembang untuk membatasi tindakan tertentu atau memerlukan konfirmasi pengguna eksplisit untuk tugas berisiko tinggi seperti transaksi keuangan atau operasi sistem kritis. Perlindungan ini membantu mencegah agen dari menyebabkan kerusakan yang tidak disengaja sambil mempertahankan fleksibilitas operasional untuk kasus penggunaan yang sah.
Fitur Keamanan: Tinjauan layanan keamanan per langkah, pembatasan tindakan yang dapat dikonfigurasi pengembang, persyaratan konfirmasi pengguna untuk tugas berisiko tinggi
Aplikasi Dunia Nyata dan Integrasi
Beberapa tim Google sudah menggunakan model ini dalam lingkungan produksi, termasuk fitur Search AI Mode , Firebase Testing Agent , dan inisiatif Project Mariner . Teknologi ini memungkinkan otomasi alur kerja dan alat asisten yang dapat beroperasi di balik layar login di mana API tradisional tidak ada, membuka kemungkinan untuk mengotomatisasi proses multi-langkah yang kompleks di berbagai platform web.
Akses Pengembang dan Implementasi
Pengembang dapat mulai bereksperimen dengan model Gemini 2.5 Computer Use melalui platform Google AI Studio dan Vertex AI . Google menyediakan dukungan komprehensif termasuk demonstrasi yang di-host melalui Browserbase , loop agen sampel untuk referensi, dan dokumentasi detail untuk implementasi lokal menggunakan Playwright . Perusahaan menekankan pentingnya pengujian menyeluruh sebelum menerapkan agen dalam lingkungan produksi, mengingat sifat teknologi yang kuat.