Gemini AI Google Dapat Presisi Visual dengan Alat Markup Gambar Baru

Tim Editorial BigGo
Gemini AI Google Dapat Presisi Visual dengan Alat Markup Gambar Baru

Google secara diam-diam meluncurkan peningkatan signifikan pada asisten AI Gemini-nya, yang bertujuan untuk mengatasi kefrustrasian umum dalam interaksi manusia-AI: tebakan. Bagi pengguna yang mencoba mengedit atau menganalisis gambar, mengkomunikasikan maksud dengan tepat hanya melalui teks bisa menjadi tantangan. Satu set alat markup gambar baru, yang kini muncul untuk beberapa pengguna, berjanji untuk menjembatani kesenjangan ini dengan membiarkan Anda menggambar langsung pada foto untuk memandu tindakan Gemini, bergerak melampaui perintah teks yang samar ke instruksi visual yang tepat sasaran.

Masalah dengan Perintah Teks Saja

Sampai sekarang, berinteraksi dengan Gemini tentang sebuah gambar memerlukan deskripsi teks yang dirancang dengan hati-hati. Jika sebuah foto mengandung banyak subjek atau detail yang kompleks, pengguna harus mengandalkan AI untuk menafsirkan frasa seperti "gedung di sebelah kiri" atau "kaos merah" dengan benar. Hal ini sering menyebabkan kesalahpahaman, di mana Gemini akan fokus pada elemen yang salah atau membuat perubahan luas yang tidak diinginkan pada seluruh gambar. Prosesnya terasa kurang seperti kolaborasi dan lebih seperti berharap AI akan menebak dengan benar, sebuah keterbatasan yang menjadi lebih jelas seiring dengan kemampuan pengeditan gambar AI yang semakin kuat.

Memperkenalkan Panduan Visual dengan Alat Markup

Fitur baru ini memperkenalkan antarmuka markup yang sederhana yang muncul ketika sebuah gambar dilampirkan di Gemini. Pengguna kini dapat melingkari, menyorot, menggambar panah, atau menambahkan catatan teks langsung ke gambar. Konteks visual ini kemudian digunakan oleh Gemini untuk memahami persis bagian gambar mana yang dirujuk oleh pengguna. Misalnya, alih-alih menulis "ubah warna mobilnya," pengguna dapat dengan sederhana menggambar lingkaran di sekitar mobil dan mengetik "buat jadi biru." Lingkaran umpan balik visual langsung ini dirancang untuk membuat interaksi lebih intuitif dan tepat, mengurangi kebutuhan akan perintah deskriptif yang panjang.

Alat Markup Inti (Berdasarkan Laporan):

  • Alat Menggambar/Mencoret: Digunakan untuk melingkari, menyorot, atau menggambar panah pada area gambar tertentu untuk memberikan konteks bagi pengeditan atau pertanyaan.
  • Alat Teks (Ikon T): Memungkinkan penambahan anotasi teks langsung ke gambar. Fungsi lengkap dan integrasi dengan perintah edit tampaknya masih dalam pengembangan.

Fungsi Ganda untuk Analisis dan Pengeditan

Alat markup melayani tujuan ganda, meningkatkan baik analisis gambar maupun pengeditan kreatif. Untuk tugas analitis, pengguna dapat menyorot objek tertentu dalam kerumunan atau detail dalam pemandangan dan bertanya "Apa ini?" Ini memberikan tingkat spesifisitas yang mirip dengan fitur seperti Circle to Search. Untuk pengeditan, alat-alat ini menawarkan kontrol yang belum pernah ada sebelumnya. Pengguna dapat membuat sketsa di mana elemen baru harus ditempatkan atau menandai area persis yang ingin mereka ubah, secara teoritis memungkinkan pengeditan kompleks yang terlokalisasi tanpa mempengaruhi sisa komposisi, sebuah tugas yang sebelumnya memerlukan perangkat lunak profesional seperti Photoshop.

Kasus Penggunaan Utama yang Dimungkinkan:

  1. Suntingan Presisi: Tandai suatu area (misalnya, kaos) dan jelaskan perubahan yang diinginkan (misalnya, "buat jadi biru").
  2. Penambahan Tertarget: Gambar di mana elemen baru (misalnya, naga kartun) harus ditempatkan.
  3. Analisis Terfokus: Lingkari sebuah objek atau orang dan tanyakan "Apa ini?" atau "Siapa ini?"

Peluncuran Bertahap dan Diam-diam

Per pertengahan Desember 2025, fitur ini belum tersedia secara universal. Fitur ini tampaknya merupakan uji coba sisi server, yang berarti akses diberikan secara bertahap oleh server Google daripada melalui pembaruan aplikasi tertentu. Pengguna mungkin perlu keluar dan memulai ulang aplikasi Gemini atau menyegar antarmuka web untuk memeriksa ketersediaannya. Google belum membuat pengumuman resmi, mengindikasikan perusahaan kemungkinan sedang mengumpulkan umpan balik pengguna dan menyempurnakan alat-alat tersebut sebelum peluncuran yang lebih luas. Pendekatan hati-hati ini umum untuk fitur AI yang melibatkan interaksi pengguna yang bernuansa.

Ketersediaan & Peluncuran Fitur yang Dilaporkan:

  • Status: Terbatas, peluncuran sisi server (fase pengujian).
  • Aktivasi: Tidak dijamin oleh pembaruan aplikasi; mungkin memerlukan restart/refresh aplikasi.
  • Pengumuman Resmi: Belum ada per 18 Desember 2025.

Uji Coba Awal Menunjukkan Janji dan Ruang untuk Pertumbuhan

Pengalaman langsung awal dengan alat-alat tersebut, seperti dilaporkan oleh media teknologi, mengungkapkan fitur dengan potensi besar yang masih matang. Dalam satu uji coba, meminta Gemini untuk menambahkan bangunan hasil generasi di sebelah bangunan yang sudah ada mengakibatkan AI menimpa struktur asli sepenuhnya alih-alih menggabungkan yang baru di sampingnya. Ini menyoroti bahwa meskipun metode input telah membaik, pemahaman model AI yang mendasari tentang hubungan spasial dan maksud masih memiliki ruang untuk kemajuan. Utilitas penuh alat anotasi teks juga masih agak tidak jelas, menunjukkan bahwa panduan pengguna dan praktik terbaik kemungkinan akan menyusul rilis resmi.

Gambaran Besar untuk Asisten AI

Pembaruan ini adalah bagian dari tren yang lebih luas dalam pengembangan AI menuju interaksi multimodal yang lebih alami dan tepat. Dengan menggabungkan markup visual dengan perintah teks, Google menjadikan Gemini alat yang lebih kolaboratif. Ini mengakui bahwa komunikasi tidak murni verbal dan bahwa menunjuk, melingkari, dan menganotasi adalah cara mendasar manusia mengekspresikan ide. Seiring AI menjadi terintegrasi ke dalam alur kerja kreatif dan analitis, fitur-fitur seperti ini yang mengurangi gesekan dan ambiguitas akan sangat penting untuk adopsi dan kepuasan pengguna, mendorong asisten dari sekadar penerima perintah menjadi mitra kreatif sejati.