Developer Memperdebatkan Apakah RAG Sudah Mati Karena AI Agent dan Context Window yang Lebih Besar Mengubah Permainan

Tim Komunitas BigGo
Developer Memperdebatkan Apakah RAG Sudah Mati Karena AI Agent dan Context Window yang Lebih Besar Mengubah Permainan

Komunitas kecerdasan buatan sedang terlibat dalam perdebatan sengit tentang masa depan Retrieval Augmented Generation ( RAG ), dengan beberapa developer mengklaim bahwa AI agent dan perluasan context window membuat pipeline RAG tradisional menjadi usang. Diskusi berpusat pada apakah tools sederhana seperti grep yang dikombinasikan dengan large language model dapat menggantikan sistem embedding dan vector database yang kompleks.

Komponen Pipeline RAG Tradisional:

  • Ingesti dan pembersihan data
  • Chunking (membagi data menjadi bagian-bagian yang lebih kecil)
  • Embedding (mengonversi ke representasi vektor)
  • Penyimpanan Vector Database
  • Retrieval dan pencarian
  • Reranking untuk relevansi
  • Konstruksi prompt

Masalah Scaling Membagi Opini

Poin utama perdebatan berkisar pada keterbatasan scaling. Para kritikus berargumen bahwa meskipun pendekatan berbasis grep bekerja dengan baik untuk codebase kecil dengan ribuan file, mereka gagal ketika berhadapan dengan koleksi dokumen skala enterprise yang berisi jutaan file. Masalah mendasarnya adalah grep melakukan pencocokan kata kunci yang tepat, yang gagal ketika pengguna mencari konsep menggunakan terminologi yang berbeda dari yang muncul dalam dokumen.

Sebagai contoh, mencari revenue growth driver tidak akan menemukan dokumen yang membahas faktor-faktor yang berkontribusi pada peningkatan penjualan - masalah ketidakcocokan kosakata yang dirancang untuk dipecahkan oleh semantic embedding. Keterbatasan ini menjadi sangat bermasalah di lingkungan enterprise di mana dokumen menggunakan bahasa yang bervariasi dan query konseptual adalah hal yang umum.

Tantangan Performa di Dunia Nyata

Praktisi industri melaporkan hasil yang beragam ketika mengimplementasikan pendekatan-pendekatan baru ini. Beberapa developer memuji kesederhanaan pencarian grep iteratif, di mana AI agent menemukan istilah pencarian baru dari hasil awal dan mengulangi prosesnya. Namun, yang lain menunjukkan bahwa pendekatan ini menjadi mahal secara komputasi dan lambat ketika berhadapan dengan koleksi dokumen besar dan banyak pengguna secara bersamaan.

Faktor biaya sangat signifikan. Memproses miliaran token melalui large language model dapat menghasilkan biaya inferensi mencapai ribuan dolar Amerika Serikat untuk satu query, membuatnya tidak layak secara ekonomi untuk banyak kasus penggunaan. Selain itu, waktu yang dibutuhkan untuk pencarian agentic - yang dapat melibatkan 20-30 function call berbeda per investigasi - membuatnya lebih lambat dari pendekatan RAG tradisional, meskipun hasilnya berpotensi lebih akurat.

Perbandingan Performa:

  • Pendekatan berbasis Grep: Cepat untuk dataset kecil (ribuan file), kesulitan dengan pemahaman semantik
  • RAG tradisional: Pencocokan semantik yang baik, pemeliharaan pipeline yang kompleks
  • Pencarian agentic: Hasil superior namun 20-30x lebih banyak pemanggilan fungsi, biaya lebih tinggi
  • Sistem hybrid: Keseimbangan antara pemahaman semantik dan efisiensi pemrosesan

Jalan Tengah Hybrid

Banyak developer menemukan kesuksesan dengan pendekatan hybrid yang menggabungkan yang terbaik dari kedua dunia. Sistem-sistem ini menggunakan semantic search untuk penemuan dokumen awal sambil memanfaatkan context window yang lebih besar untuk memproses file lengkap daripada chunk kecil. Pendekatan ini mempertahankan kemampuan pemahaman semantik dari embedding sambil memanfaatkan peningkatan kapasitas language model.

Pencarian agentic dengan segenggam tools dasar (diambil dari BM25 , semantic search, tag, SQL , knowledge graph, dan segenggam fungsi retrieval kustom) jauh mengungguli RAG dalam pengalaman saya.

Industri konstruksi memberikan contoh yang menarik dari tantangan-tantangan ini. Perusahaan yang memproses dokumen tender sering berhadapan dengan file individual yang berisi miliaran token - jauh melebihi kemampuan context window saat ini dan menghasilkan biaya pemrosesan yang sangat mahal.

Kemampuan Agentic Search:

  • Panggilan API dan penjelajahan web
  • Perhitungan matematis
  • Pembuatan dan perencanaan alur kerja
  • Eksekusi tugas dengan beberapa LLM
  • Penalaran real-time atas informasi yang diperoleh
  • Penyempurnaan pencarian berulang

Masa Depan Information Retrieval

Perdebatan ini mencerminkan tren yang lebih luas dalam pengembangan AI di mana kemampuan baru membuat solusi sementara sebelumnya menjadi usang. Seiring context window meluas dan biaya model menurun, pendekatan yang lebih sederhana menjadi lebih layak. Namun, transisinya tidak seragam di semua kasus penggunaan.

Pencarian kode telah muncul sebagai kisah sukses awal untuk pendekatan berbasis agent, sebagian besar karena codebase memiliki terminologi dan struktur yang lebih konsisten. Pencarian dokumen di lingkungan enterprise dengan bahasa yang bervariasi dan query kompleks tetap lebih menantang untuk metode berbasis kata kunci sederhana.

Diskusi ini juga menyoroti kekhawatiran tentang keandalan dan keamanan sistem agentic, yang memperkenalkan kompleksitas tambahan dan titik kegagalan potensial dibandingkan dengan pipeline retrieval tradisional. Beberapa developer khawatir tentang meninggalkan praktik engineering yang terbukti demi pendekatan yang didorong AI yang kurang dapat diprediksi.

Meskipun RAG mungkin tidak mati, jelas sedang berkembang. Sistem yang paling sukses kemungkinan adalah yang secara bijaksana menggabungkan teknik information retrieval tradisional dengan kemampuan AI yang lebih baru, daripada sepenuhnya menggantikan satu dengan yang lain. Perdebatan berlanjut saat developer bekerja untuk menemukan keseimbangan yang tepat antara kesederhanaan, performa, dan keandalan untuk kasus penggunaan spesifik mereka.

Referensi: The RAG Obituary: Killed by Agents, Buried by Context Windows