Agen ChatGPT yang baru dirilis oleh OpenAI merepresentasikan langkah ambisius dalam otomasi AI, menggabungkan kemampuan browsing web dengan eksekusi tugas. Namun, pengujian dunia nyata yang ekstensif mengungkapkan sebuah alat yang masih mencari posisinya, memberikan hasil yang tidak konsisten mulai dari yang mengesankan hingga bermasalah.
Struktur Harga Menciptakan Hambatan Tinggi untuk Masuk
Agen ChatGPT saat ini eksklusif untuk pelanggan tier Pro dengan harga 200 dolar Amerika per bulan, menawarkan 400 interaksi agen bulanan. Ketika fitur ini diluncurkan untuk pelanggan Plus dengan harga 20 dolar Amerika bulanan, mereka akan menerima hanya 40 interaksi. Model harga ini mencerminkan intensitas komputasi layanan, namun pengujian menunjukkan pengguna akan membutuhkan beberapa query per proyek, secara efektif mengurangi jumlah praktis tugas yang dapat diselesaikan.
Perbandingan Harga:
- Tier Pro: USD 200/bulan, 400 interaksi agen
- Tier Plus: USD 20/bulan, 40 interaksi agen (segera hadir)
- Penggunaan praktis: Diperkirakan 20-25 proyek karena diperlukan pertanyaan lanjutan
Hasil Performa Menunjukkan Inkonsistensi Signifikan
Pengujian komprehensif di delapan skenario berbeda mengungkapkan pola yang meresahkan dari hasil yang beragam. Agen menunjukkan pemahaman yang solid terhadap sebagian besar masalah namun sering gagal mengeksekusi tugas secara efektif. Browsing web terbukti sangat menantang, dengan agen kesulitan menggulir halaman dan diblokir oleh pembatasan AI di banyak website. Timeout sesi juga mengganggu tugas pemrosesan yang lebih lama, bahkan pada tier Pro premium.
Ringkasan Hasil Pengujian:
- Total pengujian yang dilakukan: 8 skenario komprehensif
- Rentang waktu pemrosesan: 2-32 menit per tugas
- Tingkat keberhasilan: 1 hasil yang hampir sempurna, 7 dengan masalah signifikan
- Masalah umum: Tautan rusak, informasi yang dihayal-hayalkan, kualitas grafis yang buruk
Kekhawatiran Akurasi Menimbulkan Pertanyaan Penggunaan Profesional
Kecenderungan agen untuk berhalusinasi informasi menimbulkan kekhawatiran serius untuk aplikasi profesional. Selama pencarian produk Amazon , alat ini memberikan tautan produk yang tidak ada dan rekomendasi yang dibuat-buat. Ketika ditugaskan membuat presentasi, alat ini menghasilkan slide dengan teks yang tumpang tindih, legenda yang hilang, dan kualitas grafis yang buruk. Yang paling mengkhawatirkan, ketika satu presentasi yang dihasilkan AI diperiksa faktanya oleh sesi Agen ChatGPT lain, hanya lima dari tujuh belas poin data yang dapat dikonfirmasi sepenuhnya, sementara sesi GPT-4o standar sebelumnya telah memvalidasi semua pernyataan.
Hasil Verifikasi Akurasi: Ketika presentasi yang dihasilkan AI diperiksa faktanya:
- Sepenuhnya terkonfirmasi: 5/17 poin data
- Sebagian besar terkonfirmasi: 6/17 poin data
- Sebagian terkonfirmasi: 4/17 poin data
- Tidak terverifikasi: 2/17 poin data
Keterbatasan Teknis Menghambat Proyek Kompleks
Agen ini kesulitan dengan proyek analisis data skala besar yang biasanya membenarkan bantuan AI. Masalah kompatibilitas browser mencegah penggunaan di aplikasi macOS , dan menjalankan beberapa sesi agen secara bersamaan menyebabkan sistem terhenti. Keterbatasan ini secara signifikan mengurangi utilitas alat untuk jenis tugas penelitian dan analisis komprehensif yang akan membuat biaya berlangganan tinggi menjadi sepadan.
Keterbatasan Teknis:
- Tidak dapat menangani proyek analisis data skala besar
- Kesulitan dengan pengguliran halaman web
- Diblokir oleh pembatasan AI/robots.txt di banyak situs
- Timeout sesi mengganggu tugas pemrosesan yang panjang
- Tidak kompatibel dengan aplikasi macOS
- Tidak dapat menjalankan beberapa sesi secara bersamaan
Kesuksesan Menonjol Mendemonstrasikan Potensi Masa Depan
Meskipun memiliki banyak kekurangan, satu kasus uji memberikan hasil yang luar biasa. Ketika diminta menganalisis kode bangunan untuk persyaratan instalasi pagar, agen menghasilkan analisis yang akurat dan detail dengan diagram yang berfungsi hanya dalam empat menit. Tugas ini, yang sebelumnya memerlukan komunikasi ekstensif dengan kantor perencanaan kota, diselesaikan dengan presentasi dan organisasi berstandar profesional. Kesuksesan ini menyoroti potensi teknologi ketika berfungsi sebagaimana dimaksudkan.
Pengalaman Pengguna Terasa Mengganggu dan Tidak Natural
Perilaku agen menciptakan pengalaman browsing yang menyeramkan, dengan kursor hantu bergerak di layar dan narasi orang pertama tentang tindakannya. Beberapa agen simultan menjadi luar biasa untuk dipantau, dan imitasi mereka yang hampa terhadap pola browsing web manusia terasa lebih seperti peniruan daripada pemahaman yang asli. Efek uncanny valley ini dapat menghambat adopsi pengguna bahkan ketika kemampuan teknis meningkat.
Implikasi Pasar untuk Periklanan Digital
Adopsi luas agen AI dapat secara fundamental mengganggu model periklanan digital. Browser otomatis ini sebagian besar mengabaikan iklan display saat menyelesaikan tugas, berpotensi mengurangi eksposur manusia terhadap iklan. Jika akurasi meningkat dan pengguna tidak lagi perlu memantau aktivitas agen, pasar iklan digital yang sudah berjuang dapat menghadapi tantangan lebih lanjut karena lebih sedikit mata manusia yang melihat konten promosi.
Kondisi saat ini dari Agen ChatGPT menunjukkan teknologi dengan potensi signifikan yang tetap terhambat oleh masalah keandalan dan biaya tinggi. Meskipun kilasan kecemerlangan sesekali mendemonstrasikan apa yang mungkin, performa yang tidak konsisten dan kesalahan yang sering membuat sulit untuk merekomendasikannya untuk penggunaan profesional pada tahap ini.