Benchmark agen AI, alat yang digunakan untuk mengukur seberapa baik sistem kecerdasan buatan melakukan tugas-tugas dunia nyata, secara fundamental rusak menurut penelitian terbaru. Sistem evaluasi ini seharusnya memandu pengembangan penelitian dan industri saat AI bergerak dari demo laboratorium ke aplikasi kritis. Namun, sebuah studi komprehensif telah mengungkap masalah serius yang membuat benchmark saat ini tidak dapat diandalkan untuk mengukur kemampuan AI.
Masalahnya jauh melampaui kesalahan sederhana. Para peneliti menemukan bahwa banyak benchmark populer mengandung kesalahan dasar yang akan jelas terlihat oleh evaluator manusia mana pun, namun terlewatkan oleh sistem otomatis.
Statistik Kegagalan Benchmark:
- 8 dari 10 benchmark populer mengandung masalah serius
- Hingga 100% kesalahan estimasi kemampuan agen
- 7 dari 10 benchmark mengandung jalan pintas atau tugas yang tidak mungkin
- 7 dari 10 benchmark gagal dalam validitas hasil
- Agen yang tidak melakukan apa-apa mencetak skor 38% pada beberapa tugas maskapai penerbangan
Kesalahan Matematika Tidak Terdeteksi
Salah satu contoh paling mencolok berasal dari WebArena, sebuah benchmark yang digunakan oleh perusahaan-perusahaan besar termasuk OpenAI. Ketika agen AI diminta menghitung durasi rute dan menjawab 45 + 8 menit, sistem menandainya sebagai benar, meskipun jawaban sebenarnya harusnya 63 menit. Jenis kesalahan aritmatika fundamental ini menyoroti bagaimana sistem evaluasi otomatis dapat gagal pada tugas yang tampak mudah.
Masalahnya meluas melampaui kasus tunggal. Di antara 10 benchmark agen AI populer yang diperiksa, peneliti menemukan masalah serius pada 8 di antaranya, yang menyebabkan kesalahan estimasi performa hingga 100%. Angka-angka ini mengungkap masalah sistematis daripada insiden terisolasi.
Benchmark Utama yang Terdampak:
- WebArena (digunakan oleh OpenAI dan lainnya)
- SWE-Bench dan SWE-Bench Verified
- OSWorld
- t-bench
- Beberapa lainnya dengan perubahan peringkat yang mempengaruhi 24-41% posisi papan peringkat
Masalah Inti dengan AI Menilai AI
Sumber utama kegagalan ini berasal dari penggunaan large language model (LLM) untuk mengevaluasi output dari LLM lainnya. Pendekatan ini menciptakan masalah validasi fundamental karena baik sistem yang diuji maupun sistem yang melakukan pengujian memiliki blind spot arsitektural yang sama.
Menggunakan penilai dengan arsitektur yang sama dengan hal yang dinilai memaksimalkan kemungkinan kegagalan fundamental benchmark untuk menjadi valid karena penilai memiliki blind spot yang persis sama dengan hal yang sedang diuji.
Komunitas penelitian telah menarik paralel dengan bidang lain di mana pelajaran ini dipelajari dengan cara yang sulit. Dalam pengembangan kompresi audio, para insinyur menemukan bahwa metrik otomatis apa pun dapat dimanipulasi, yang menyebabkan artefak ketika sistem dioptimalkan langsung untuk metrik tersebut. Solusinya selalu memerlukan evaluasi manusia untuk hasil akhir, meskipun menambah biaya dan kompleksitas.
Agen Do-Nothing Mencetak Skor Mengejutkan Tinggi
Temuan mengkhawatirkan lainnya melibatkan agen do-nothing - sistem yang tidak melakukan pekerjaan aktual. Dalam beberapa benchmark, agen-agen sepele ini mencetak skor benar pada 38% tugas, meskipun mereka tidak menunjukkan pemahaman terhadap masalah yang seharusnya mereka selesaikan. Ini menunjukkan bahwa banyak tugas benchmark dirancang dengan buruk atau mengandung jalan pintas yang memungkinkan sistem tampak berhasil tanpa benar-benar melakukan pekerjaan yang dimaksudkan.
Lingkungan Pengujian yang Usang dan Rapuh
Studi ini juga mengungkap masalah dengan lingkungan benchmark itu sendiri. Beberapa tes bergantung pada situs web yang usang atau simulasi rapuh yang rusak ketika kondisi eksternal berubah. Misalnya, sistem evaluasi OSWorld sebagian bergantung pada situs web yang usang, menyebabkan kegagalan agen ketika kelas CSS atau elemen web lainnya diperbarui. Ini menciptakan target bergerak yang membuat evaluasi konsisten menjadi tidak mungkin.
Masalah Utama yang Teridentifikasi:
- Sistem LLM-as-Judge membuat kesalahan aritmatika dasar (45+8≠63)
- Lingkungan simulasi yang rapuh rusak karena perubahan eksternal
- Dependensi situs web yang usang menyebabkan kegagalan evaluasi
- Masalah validitas tugas dengan tes yang tidak dapat dipecahkan atau rentan terhadap jalan pintas
- Masalah kebenaran evaluasi dengan kesalahan estimasi performa absolut 1,6-5,2%
Respons Industri dan Solusi
Tim peneliti telah mengembangkan AI Agent Benchmark Checklist (ABC), sebuah kerangka kerja yang dirancang untuk membantu pengembang mengidentifikasi dan memperbaiki masalah-masalah ini. Checklist ini berfokus pada tiga area kunci: validitas tugas (apakah tugas benar-benar menguji kemampuan yang dimaksudkan), validitas hasil (apakah evaluasi dengan benar mengidentifikasi keberhasilan), dan pedoman pelaporan yang tepat.
Namun, tantangan fundamental tetap kompleks. Kualitas yang membuat sistem AI kuat - kemampuan mereka untuk menangani input yang kabur dan menghasilkan output yang bervariasi - juga membuat mereka sangat sulit untuk dievaluasi secara sistematis. Pendekatan benchmarking tradisional yang bekerja dengan baik untuk sistem yang lebih deterministik kesulitan dengan sifat tugas agen AI yang bernuansa dan bergantung pada konteks.
Temuan ini menunjukkan bahwa industri AI mungkin perlu memikirkan ulang secara fundamental bagaimana mengukur kemajuan, berpotensi memerlukan proses evaluasi manusia yang lebih mahal atau pendekatan validasi yang sepenuhnya baru. Sampai masalah-masalah ini diatasi, klaim tentang kemampuan agen AI harus dilihat dengan skeptisisme yang cukup besar.
Referensi: Al Agent Benchmarks are Broken