Agen ChatGPT OpenAI Menunjukkan Potensi namun Bermasalah dengan Akurasi dan Keandalan dalam Pengujian Komprehensif

Tim Editorial BigGo

Agen ChatGPT OpenAI Menunjukkan Potensi namun Bermasalah dengan Akurasi dan Keandalan dalam Pengujian Komprehensif

Agen ChatGPT yang baru dirilis oleh OpenAI merepresentasikan langkah ambisius dalam otomasi AI, menggabungkan kemampuan browsing web dengan eksekusi tugas. Namun, pengujian dunia nyata yang ekstensif mengungkapkan sebuah alat yang masih mencari posisinya, memberikan hasil yang tidak konsisten mulai dari yang mengesankan hingga bermasalah.

Struktur Harga Menciptakan Hambatan Tinggi untuk Masuk

Agen ChatGPT saat ini eksklusif untuk pelanggan tier Pro dengan harga 200 dolar Amerika per bulan, menawarkan 400 interaksi agen bulanan. Ketika fitur ini diluncurkan untuk pelanggan Plus dengan harga 20 dolar Amerika bulanan, mereka akan menerima hanya 40 interaksi. Model harga ini mencerminkan intensitas komputasi layanan, namun pengujian menunjukkan pengguna akan membutuhkan beberapa query per proyek, secara efektif mengurangi jumlah praktis tugas yang dapat diselesaikan.

Perbandingan Harga:

Tier Pro: USD 200/bulan, 400 interaksi agen
Tier Plus: USD 20/bulan, 40 interaksi agen (segera hadir)
Penggunaan praktis: Diperkirakan 20-25 proyek karena diperlukan pertanyaan lanjutan

Hasil Performa Menunjukkan Inkonsistensi Signifikan

Pengujian komprehensif di delapan skenario berbeda mengungkapkan pola yang meresahkan dari hasil yang beragam. Agen menunjukkan pemahaman yang solid terhadap sebagian besar masalah namun sering gagal mengeksekusi tugas secara efektif. Browsing web terbukti sangat menantang, dengan agen kesulitan menggulir halaman dan diblokir oleh pembatasan AI di banyak website. Timeout sesi juga mengganggu tugas pemrosesan yang lebih lama, bahkan pada tier Pro premium.

Ringkasan Hasil Pengujian:

Total pengujian yang dilakukan: 8 skenario komprehensif
Rentang waktu pemrosesan: 2-32 menit per tugas
Tingkat keberhasilan: 1 hasil yang hampir sempurna, 7 dengan masalah signifikan
Masalah umum: Tautan rusak, informasi yang dihayal-hayalkan, kualitas grafis yang buruk

Kekhawatiran Akurasi Menimbulkan Pertanyaan Penggunaan Profesional

Kecenderungan agen untuk berhalusinasi informasi menimbulkan kekhawatiran serius untuk aplikasi profesional. Selama pencarian produk Amazon , alat ini memberikan tautan produk yang tidak ada dan rekomendasi yang dibuat-buat. Ketika ditugaskan membuat presentasi, alat ini menghasilkan slide dengan teks yang tumpang tindih, legenda yang hilang, dan kualitas grafis yang buruk. Yang paling mengkhawatirkan, ketika satu presentasi yang dihasilkan AI diperiksa faktanya oleh sesi Agen ChatGPT lain, hanya lima dari tujuh belas poin data yang dapat dikonfirmasi sepenuhnya, sementara sesi GPT-4o standar sebelumnya telah memvalidasi semua pernyataan.

Hasil Verifikasi Akurasi: Ketika presentasi yang dihasilkan AI diperiksa faktanya:

Sepenuhnya terkonfirmasi: 5/17 poin data
Sebagian besar terkonfirmasi: 6/17 poin data
Sebagian terkonfirmasi: 4/17 poin data
Tidak terverifikasi: 2/17 poin data

Keterbatasan Teknis Menghambat Proyek Kompleks

Agen ini kesulitan dengan proyek analisis data skala besar yang biasanya membenarkan bantuan AI. Masalah kompatibilitas browser mencegah penggunaan di aplikasi macOS , dan menjalankan beberapa sesi agen secara bersamaan menyebabkan sistem terhenti. Keterbatasan ini secara signifikan mengurangi utilitas alat untuk jenis tugas penelitian dan analisis komprehensif yang akan membuat biaya berlangganan tinggi menjadi sepadan.

Keterbatasan Teknis:

Tidak dapat menangani proyek analisis data skala besar
Kesulitan dengan pengguliran halaman web
Diblokir oleh pembatasan AI/robots.txt di banyak situs
Timeout sesi mengganggu tugas pemrosesan yang panjang
Tidak kompatibel dengan aplikasi macOS
Tidak dapat menjalankan beberapa sesi secara bersamaan

Kesuksesan Menonjol Mendemonstrasikan Potensi Masa Depan

Meskipun memiliki banyak kekurangan, satu kasus uji memberikan hasil yang luar biasa. Ketika diminta menganalisis kode bangunan untuk persyaratan instalasi pagar, agen menghasilkan analisis yang akurat dan detail dengan diagram yang berfungsi hanya dalam empat menit. Tugas ini, yang sebelumnya memerlukan komunikasi ekstensif dengan kantor perencanaan kota, diselesaikan dengan presentasi dan organisasi berstandar profesional. Kesuksesan ini menyoroti potensi teknologi ketika berfungsi sebagaimana dimaksudkan.

Pengalaman Pengguna Terasa Mengganggu dan Tidak Natural

Perilaku agen menciptakan pengalaman browsing yang menyeramkan, dengan kursor hantu bergerak di layar dan narasi orang pertama tentang tindakannya. Beberapa agen simultan menjadi luar biasa untuk dipantau, dan imitasi mereka yang hampa terhadap pola browsing web manusia terasa lebih seperti peniruan daripada pemahaman yang asli. Efek uncanny valley ini dapat menghambat adopsi pengguna bahkan ketika kemampuan teknis meningkat.

Implikasi Pasar untuk Periklanan Digital

Adopsi luas agen AI dapat secara fundamental mengganggu model periklanan digital. Browser otomatis ini sebagian besar mengabaikan iklan display saat menyelesaikan tugas, berpotensi mengurangi eksposur manusia terhadap iklan. Jika akurasi meningkat dan pengguna tidak lagi perlu memantau aktivitas agen, pasar iklan digital yang sudah berjuang dapat menghadapi tantangan lebih lanjut karena lebih sedikit mata manusia yang melihat konten promosi.

Kondisi saat ini dari Agen ChatGPT menunjukkan teknologi dengan potensi signifikan yang tetap terhambat oleh masalah keandalan dan biaya tinggi. Meskipun kilasan kecemerlangan sesekali mendemonstrasikan apa yang mungkin, performa yang tidak konsisten dan kesalahan yang sering membuat sulit untuk merekomendasikannya untuk penggunaan profesional pada tahap ini.

Berita Terkait

‌

‌
‌

‌

‌
‌

‌