Komunitas kecerdasan buatan sedang bergulat dengan kekhawatiran yang meningkat tentang keandalan benchmark AI, karena para peneliti menyoroti masalah kontaminasi data dan biaya komputasi yang tidak diungkapkan yang mungkin menyesatkan publik tentang kemampuan AI yang sebenarnya.
Kontaminasi Data Pelatihan Merusak Validitas Benchmark
Masalah signifikan yang melanda evaluasi AI saat ini adalah kontaminasi dataset pelatihan dengan masalah benchmark. Para peneliti menunjukkan bahwa banyak pencapaian AI yang mengesankan mungkin tampak kurang luar biasa jika data pelatihannya transparan. Masalah ini berasal dari model bahasa besar yang dilatih pada data internet dalam jumlah besar, yang kemungkinan mencakup variasi masalah benchmark dan solusinya.
Masalah kontaminasi ini telah menjadi begitu umum sehingga beberapa perusahaan diduga telah memperoleh keuntungan yang tidak adil melalui praktik yang meragukan. Komunitas telah mencatat kasus-kasus di mana perusahaan AI telah mengamankan akses eksklusif ke masalah benchmark sebelum evaluasi resmi, menimbulkan pertanyaan serius tentang integritas hasil yang dilaporkan.
Kontaminasi data: Ketika dataset pelatihan secara tidak sengaja atau sengaja mencakup contoh yang mirip dengan masalah tes, membuat kinerja AI tampak lebih baik dari yang sebenarnya.
Sumber Kontaminasi Data:
- Dataset CommonCrawl yang mengandung masalah benchmark
- Data pelatihan sintetis yang didistilasi dari model yang telah melihat benchmark
- Akses pra-eksklusif terhadap masalah evaluasi
- Varian dan permutasi dari pertanyaan benchmark yang sudah ada
Biaya Komputasi Tersembunyi Mendistorsi Kelayakan Dunia Nyata
Selain masalah data, komunitas AI menyerukan transparansi yang lebih besar dalam melaporkan biaya sebenarnya dari pencapaian AI. Pengumuman saat ini sering menyoroti hasil yang berhasil sambil menghilangkan informasi penting tentang biaya komputasi dan tingkat kegagalan.
Sebagai contoh, jika sistem AI memerlukan biaya 1.000 dolar Amerika dalam sumber daya komputasi per percobaan tetapi hanya berhasil 20% dari waktu, biaya aktual per solusi yang berhasil melonjak menjadi 5.000 dolar Amerika. Perbedaan dramatis dalam ekonomi dunia nyata ini jarang diungkapkan dalam pengumuman publik, menciptakan ekspektasi yang tidak realistis tentang biaya penerapan AI.
Situasi menjadi lebih kompleks ketika mempertimbangkan pengawasan manusia yang diperlukan selama operasi AI. Bahkan ketika ahli manusia tidak secara langsung melakukan intervensi, kehadiran dan pemantauan mereka mewakili biaya tambahan yang harus diperhitungkan dalam metrik kinerja yang sebenarnya.
Contoh Perhitungan Biaya:
- Biaya komputasi sistem AI per percobaan: $1.000 USD
- Tingkat keberhasilan: 20%
- Biaya aktual per solusi yang berhasil: $5.000 USD
- Biaya tersembunyi tambahan: Pengawasan manusia, verifikasi, kegagalan yang berkorelasi
Manipulasi Benchmark Mengancam Kemajuan Ilmiah
Tekanan untuk mencapai skor benchmark yang tinggi telah menciptakan lingkungan di mana optimisasi untuk tes tertentu mungkin mengorbankan kemampuan umum. Fenomena ini, terkait dengan Hukum Goodhart, menunjukkan bahwa ketika suatu ukuran menjadi target, itu berhenti menjadi ukuran yang baik.
Masalah dengan benchmark adalah bahwa mereka sangat berguna untuk peneliti yang jujur, tetapi sangat beracun jika digunakan untuk pemasaran, pengaruh, dll.
Tantangannya sangat akut karena sebagian besar benchmark publik kemungkinan sudah termasuk dalam dataset pelatihan melalui crawling web, membuat hampir tidak mungkin untuk membuat evaluasi yang benar-benar tidak terkontaminasi. Hal ini telah membuat beberapa peneliti mengadvokasi benchmark pribadi yang tidak dipublikasikan, meskipun ini datang dengan keterbatasan dan bias mereka sendiri.
Solusi yang Diusulkan:
- Evaluasi benchmark pribadi yang tidak dipublikasikan
- Pengungkapan wajib biaya komputasi dan tingkat kegagalan
- Protokol pelaporan standar untuk pencapaian AI
- Fokus pada metrik kinerja dunia nyata daripada benchmark yang sempit
Bergerak Menuju Standar Evaluasi Transparan
Seiring teknologi AI matang, komunitas mengakui kebutuhan akan protokol evaluasi yang terstandarisasi yang memerlukan pengungkapan penuh metodologi dan penggunaan sumber daya. Pergeseran ini mencerminkan evolusi yang terlihat dalam teknologi lain, di mana fokus awal pada pencapaian terobosan akhirnya memberikan jalan kepada pertimbangan praktis biaya, efisiensi, dan keandalan.
Jalan ke depan kemungkinan melibatkan kombinasi pendekatan: evaluasi pribadi yang dirancang dengan hati-hati, persyaratan pelaporan terstandarisasi untuk biaya komputasi, dan penekanan yang lebih besar pada kinerja dunia nyata daripada optimisasi benchmark yang sempit. Hanya melalui reformasi komprehensif seperti itu komunitas AI dapat memulihkan kepercayaan dalam klaim kinerja dan memungkinkan pengambilan keputusan yang terinformasi tentang penerapan AI.
Referensi: Postingan Mastodon