Dalam langkah strategis yang tepat waktu menjelang perilisan pesaing utama, Google secara signifikan memperluas kemampuan penelitian AI-nya untuk pengembang dan konsumen. Perusahaan telah meluncurkan versi yang lebih kuat dan ditingkatkan dari agen Gemini Deep Research, membuatnya tersedia untuk pengembang, dan memperkenalkan tolok ukur serta API baru untuk mendorong ekosistem yang lebih luas. Serangkaian pengumuman ini menandai dorongan terkoordinasi untuk menjadikan penelitian otonom yang kompleks sebagai fitur inti dan mudah diakses dari penawaran AI-nya.
Tolok Ukur Baru untuk Penelitian Otonom
Inti dari pengumuman Google adalah pembukaan sumber DeepSearchQA, sebuah tolok ukur baru yang dirancang untuk menguji agen AI secara ketat pada jenis tugas investigasi multi-langkah yang kompleks yang semakin banyak ditangani. Berbeda dengan tolok ukur berbasis fakta yang lebih sederhana, DeepSearchQA mengevaluasi "kelengkapan" agen—kemampuannya untuk melakukan investigasi menyeluruh dengan merumuskan kueri berurutan, menganalisis hasil, mengidentifikasi celah pengetahuan, dan mengulangi proses. Tolok ukur ini terdiri dari 900 tugas "rantai kausal" yang dibuat secara manual yang mencakup 17 domain beragam, dari sains hingga keuangan. Pengujian internal Google mengungkapkan korelasi yang jelas: memungkinkan agen lebih banyak langkah pencarian dan penalaran dalam kerangka kerja ini menghasilkan peningkatan kinerja yang signifikan, memvalidasi kegunaan tolok ukur untuk mengukur efisiensi "waktu berpikir".
Detail Benchmark DeepSearchQA:
- Tujuan: Mengevaluasi kemampuan penelitian web komprehensif dan multi-langkah (bukan hanya mengingat fakta).
- Ukuran: 900 tugas yang dirancang secara manual.
- Struktur: Tugas "rantai kausal" di mana setiap langkah bergantung pada analisis sebelumnya.
- Cakupan: Meliputi 17 domain berbeda.
- Temuan Kunci: Kinerja agen meningkat secara signifikan ketika diberi lebih banyak langkah pencarian/penalaran ("waktu berpikir").
Agen Gemini Deep Research: Kekuatan dan Presisi
Penerima utama dari arena pengujian baru ini adalah agen Gemini Deep Research yang ditingkatkan. Dibangun di atas model Gemini 3 Pro, agen ini secara khusus dirancang untuk sintesis konteks panjang dan pengumpulan informasi kompleks. Operasi intinya adalah loop otonom dan iteratif: menerima perintah, merumuskan kueri pencarian, membaca hasil, mengidentifikasi informasi yang hilang, dan mencari lagi. Versi terbaru ini menampilkan peningkatan besar, termasuk kemampuan pencarian web yang lebih kuat yang memungkinkannya mengebor ke situs web tertentu untuk data dan optimasi untuk menghasilkan laporan penelitian terperinci dengan biaya komputasi yang lebih rendah.
Google mengklaim agen tersebut telah mencapai hasil state-of-the-art (SOTA). Dalam tes penuh Humanity's Last Exam (HLE), ia mencetak skor 46,4%, mengungguli model dasar Gemini 3 Pro (43,2%) dan GPT-5 Pro milik OpenAI (38,9%). Mungkin yang lebih mencolok adalah klaim biaya yang dibuat oleh manajer produk Google DeepMind Lukas Haas. Dia menyatakan di media sosial bahwa agen baru ini berkinerja setara dengan GPT-5 Pro pada tolok ukur BrowseComp tetapi dengan biaya sekitar sepersepuluh, sebuah potensi pengubah permainan bagi pengembang dan perusahaan yang ingin menskalakan penelitian berbasis AI.
Tolok Ukur Kinerja (Dilaporkan oleh Google):
- Humanity's Last Exam (HLE) Tes Lengkap:
- Gemini Deep Research Agent: 46.4%
- Gemini 3 Pro (model dasar): 43.2%
- GPT-5 Pro: 38.9%
- Tolok Ukur BrowseComp: Kinerja digambarkan "sebanding" dengan GPT-5 Pro.
- Klaim Biaya: Google menyatakan Gemini Deep Research Agent beroperasi dengan biaya sekitar 1/10 dari biaya GPT-5 Pro untuk kinerja yang sebanding pada tugas seperti BrowseComp.
Membuka Pintu bagi Pengembang
Untuk menerjemahkan kemampuan canggih ini ke dalam aplikasi dunia nyata, Google meluncurkan dua alat kunci untuk pengembang. Pertama, agen Deep Research itu sendiri dibuat tersedia untuk pengembang untuk integrasi. Kedua, dan yang penting, Google memperkenalkan Interactions API yang baru. API ini berfungsi sebagai antarmuka terpadu untuk berinteraksi dengan model Gemini dan agen seperti Deep Research. API ini dirancang khusus untuk membangun aplikasi agenik, menangani manajemen konteks kompleks seperti pesan berselang-seling, penalaran rantai-pemikiran, dan panggilan alat di sisi server. Ini mengurangi kompleksitas dan potensi kesalahan di sisi klien. API juga memperkenalkan dukungan untuk Model Context Protocol (MCP), memungkinkan model untuk langsung memanggil alat dari server MCP eksternal, secara signifikan memperluas konektivitas ke sumber data kustom.
Alat Pengembang Baru:
- Interactions API: Sebuah endpoint RESTful terpadu untuk berinteraksi dengan model dan agen Gemini.
- Fitur: Manajemen status sisi server, eksekusi latar belakang untuk tugas panjang, dukungan alat MCP jarak jauh.
- Ketersediaan: Dalam beta publik melalui Gemini API di Google AI Studio.
- Ketersediaan: Agen Penelitian Mendalam (
deep-research-pro-preview-12-2025) kini tersedia untuk pengembang melalui API baru ini.
Aplikasi Saat Ini dan Peta Jalan Masa Depan
Agen Gemini Deep Research bukanlah janji masa depan melainkan alat yang sudah ada saat ini. Ia sudah diuji di bidang-bidang berisiko tinggi dan kritis terhadap akurasi seperti layanan keuangan untuk due diligence, bioteknologi untuk tinjauan literatur keamanan obat, dan penelitian pasar. Bagi pengembang, ia menawarkan fitur seperti sintesis terpadu dari dokumen yang diunggah dan data web, penataan laporan yang dapat dikontrol, kutipan sumber terperinci, dan output JSON untuk penguraian yang mudah.
Ke depan, peta jalan Google berfokus pada ekspansi dan penyempurnaan. Agen Deep Research akan segera diintegrasikan ke dalam produk yang ditujukan untuk konsumen seperti aplikasi Gemini utama, Google Search, dan NotebookLM. Untuk perusahaan, Google berencana membawanya ke platform Vertex AI. Pembaruan di masa depan menjanjikan output yang lebih kaya, termasuk bagan yang dihasilkan secara native untuk laporan visual, dan peningkatan berkelanjutan pada kerangka kerja MCP untuk konektivitas data yang mulus. Dengan langkah-langkah ini, Google tidak hanya merilis agen yang kuat; ia membangun infrastruktur untuk menjadikan penelitian AI yang canggih sebagai komponen standar dari perangkat digital.
