Agen AI Menemui Hambatan: Mengapa Mereka Lebih Sering Gagal pada Tugas yang Lebih Panjang

Tim Komunitas BigGo
Agen AI Menemui Hambatan: Mengapa Mereka Lebih Sering Gagal pada Tugas yang Lebih Panjang

Sebuah studi baru mengungkap pola yang mengkhawatirkan dalam kinerja AI: semakin panjang tugasnya, semakin besar kemungkinan agen AI gagal total. Penemuan ini telah memicu diskusi intens di kalangan pengembang yang mengenali pola tersebut dari pengalaman mereka sendiri yang mengecewakan dengan asisten coding AI.

Penelitian menunjukkan bahwa agen AI mengikuti apa yang disebut ilmuwan sebagai tingkat bahaya konstan - artinya mereka memiliki peluang tetap untuk gagal pada setiap langkah tugas. Hal ini menciptakan penurunan eksponensial dalam tingkat keberhasilan seiring bertambah panjangnya tugas, mirip dengan bagaimana material radioaktif meluruh seiring waktu. Setiap agen AI dapat dikarakterisasi dengan waktu paruhnya sendiri - panjang tugas di mana ia berhasil hanya 50% dari waktu.

Slide presentasi ini merangkum penelitian tentang menurunnya tingkat keberhasilan agen AI , khususnya dalam kaitannya dengan panjang tugas
Slide presentasi ini merangkum penelitian tentang menurunnya tingkat keberhasilan agen AI , khususnya dalam kaitannya dengan panjang tugas

Masalah Keracunan Konteks

Pengembang dalam komunitas telah mengidentifikasi alasan utama di balik kegagalan ini: keracunan konteks. Saat agen AI bekerja pada tugas yang lebih panjang, riwayat percakapan mereka dipenuhi dengan percobaan yang gagal, saran yang salah, dan jalan buntu. Konteks yang rusak ini membuat AI semakin mungkin membuat keputusan yang buruk.

Mereka meracuni konteks mereka sendiri. Mungkin bisa disebut pembusukan konteks, di mana saat konteks tumbuh dan terutama jika tumbuh dengan banyak gangguan dan jalan buntu, kualitas output menurun dengan cepat.

Banyak pengembang melaporkan bahwa agen AI mulai membuat pilihan yang aneh ketika terjebak. Alih-alih memperbaiki kesalahan build yang sederhana, AI mungkin memutuskan untuk beralih ke library software yang benar-benar berbeda. Ketika itu gagal, ia mungkin beralih kembali ke library asli, menciptakan loop kebingungan yang tak berujung.

Diagram ini menganalisis performa AI di berbagai tugas, mencerminkan masalah keracunan konteks yang dihadapi oleh agen AI dalam tugas-tugas yang lebih panjang
Diagram ini menganalisis performa AI di berbagai tugas, mencerminkan masalah keracunan konteks yang dihadapi oleh agen AI dalam tugas-tugas yang lebih panjang

Efek Peluruhan Eksponensial

Model matematika di balik fenomena ini sangat sederhana. Jika AI memiliki tingkat keberhasilan 50% pada tugas satu jam, itu turun menjadi hanya 25% untuk tugas dua jam dan 12,5% untuk tugas empat jam. Untuk tugas yang memerlukan keandalan 99%, horizon waktu menyusut menjadi hanya 1/70 dari benchmark tingkat keberhasilan 50%.

Ini menjelaskan mengapa asisten coding AI bekerja dengan baik untuk masalah kecil yang terisolasi tetapi kesulitan dengan proyek kompleks multi-langkah. Setiap langkah tambahan dalam tugas melipatgandakan peluang kegagalan, menciptakan tebing yang curam dalam kinerja daripada penurunan bertahap.

Pola Penurunan Tingkat Keberhasilan:

  • Tingkat keberhasilan dasar 50%
  • Tingkat keberhasilan 25% pada panjang tugas dua kali lipat
  • Tingkat keberhasilan 12,5% pada panjang tugas empat kali lipat
  • Keandalan 99% memerlukan 1/70 dari panjang tugas tingkat keberhasilan 50%

Solusi Sementara Pengembang

Komunitas telah mengembangkan beberapa strategi untuk melawan keterbatasan ini. Beberapa pengembang secara teratur memulai percakapan baru, hanya menyalin konteks penting dari sesi sebelumnya. Yang lain menggunakan alat khusus yang dapat menghapus atau memadatkan riwayat percakapan untuk menghilangkan konten beracun.

Pendekatan yang paling berhasil tampaknya adalah memperlakukan interaksi AI seperti sesi pair programming - tetap terlibat aktif dan campur tangan ketika AI mulai menuju jalur yang tidak produktif. Pengembang melaporkan bahwa membiarkan AI bekerja keras selama lebih dari beberapa menit tanpa bimbingan jarang menghasilkan hasil yang baik.

Contoh Performa Claude 3.5 Sonnet :

  • Tingkat keberhasilan 50%: tugas berdurasi 59 menit
  • Tingkat keberhasilan 80%: tugas berdurasi 15 menit
  • Durasi tugas untuk keberhasilan 80% = 1/4 dari durasi tugas keberhasilan 50%
Grafik ini membandingkan tingkat keberhasilan berbagai agen AI pada panjang tugas yang berbeda, meningkatkan pemahaman tentang strategi pengembang untuk memperbaiki output AI
Grafik ini membandingkan tingkat keberhasilan berbagai agen AI pada panjang tugas yang berbeda, meningkatkan pemahaman tentang strategi pengembang untuk memperbaiki output AI

Implikasi untuk Pengembangan AI

Penelitian ini menunjukkan bahwa agen AI saat ini kekurangan mekanisme pemulihan kesalahan yang efektif. Tidak seperti manusia, yang dapat mundur dan menilai kembali ketika terjebak, agen AI cenderung memperparah kesalahan mereka. Mereka kesulitan mengenali kapan mereka berada dalam keadaan gagal dan perlu mengubah pendekatan.

Temuan ini juga menyoroti tantangan fundamental dalam pengembangan AI: kesenjangan antara kinerja yang mengesankan pada tugas pendek dan penyelesaian proyek dunia nyata yang dapat diandalkan. Meskipun kemampuan AI terus meningkat pesat, dengan tingkat keberhasilan berlipat ganda setiap tujuh bulan menurut studi, sifat eksponensial dari peluruhan ini berarti bahwa mencapai keandalan tinggi pada tugas panjang tetap menjadi rintangan yang signifikan.

Memahami hubungan matematis ini membantu menjelaskan mengapa agen AI dapat tampak sangat mampu dan sangat tidak dapat diandalkan pada saat yang bersamaan. Ini bukan hanya tentang membuat AI lebih pintar - ini tentang secara fundamental mengubah bagaimana mereka menangani kegagalan dan mempertahankan fokus selama periode yang diperpanjang.

Referensi: Is there a Half-Life for the Success Rates of AI Agents?