SWE-Bench Pro dari Scale AI Menghadapi Kritik Terkait Penamaan dan Kekhawatiran Kontaminasi Data

Tim Komunitas BigGo

SWE-Bench Pro dari Scale AI Menghadapi Kritik Terkait Penamaan dan Kekhawatiran Kontaminasi Data

Scale AI telah merilis SWE-Bench Pro , sebuah benchmark baru yang dirancang untuk mengevaluasi model bahasa besar dan agen AI pada tugas-tugas rekayasa perangkat lunak yang kompleks. Benchmark ini menantang sistem AI untuk menghasilkan patch yang memperbaiki masalah coding dunia nyata di seluruh basis kode. Namun, peluncuran ini telah memicu perdebatan signifikan di komunitas developer tentang pilihan penamaan dan tantangan fundamental dalam desain benchmark AI.

Kontroversi Hak Penamaan Muncul

Kritik paling langsung berpusat pada keputusan Scale AI untuk menamai benchmark mereka SWE-Bench Pro , yang tampaknya langsung membangun di atas proyek SWE-Bench yang sudah ada tanpa otorisasi yang jelas dari pencipta asli. Anggota komunitas telah menyatakan kekhawatiran bahwa hanya menambahkan Pro pada nama proyek yang sudah mapan merupakan bentuk yang buruk dan berpotensi melanggar karya tim asli sambil menyiratkan superioritas.

SWE-Bench asli telah menjadi standar yang dihormati di bidang ini untuk mengevaluasi kemampuan coding AI. Versi Scale AI mengikuti pendekatan serupa tetapi memperkenalkan papan peringkat publik dan pribadi, dengan versi komersial pribadi yang menjanjikan perlindungan yang lebih baik terhadap kontaminasi data.

Kontaminasi Data Tetap Menjadi Tantangan Kritis

Poin diskusi utama berkisar pada apakah langkah-langkah perlindungan benar-benar dapat mencegah kontaminasi data pelatihan AI. Scale AI telah mencoba melindungi set tes publik mereka menggunakan lisensi copyleft yang kuat, tetapi para ahli komunitas tetap skeptis tentang efektivitasnya. Masalah fundamental adalah bahwa pelatihan AI biasanya mengabaikan pembatasan hak cipta dan lisensi sepenuhnya.

Seorang orang dalam industri dengan pengalaman langsung mencatat bahwa perusahaan yang bertanggung jawab memang berupaya menghindari pelatihan pada kode berlisensi restriktif, tetapi penegakan tetap hampir tidak mungkin diverifikasi. Tantangan menjadi lebih kompleks ketika mempertimbangkan bahwa tidak semua pengembangan AI mengikuti pedoman etika yang sama, terutama di berbagai negara dan lingkungan regulasi.

Dataset publik adalah sesuatu yang kita pertahankan dengan benchmark LLM karena alasan historis, tetapi perlu beralih dari itu.

Masalah kontaminasi menyoroti masalah yang lebih luas dalam benchmarking AI. Setelah dataset menjadi publik, bahkan membuat variasi sintetis dari contoh-contoh tersebut dapat memungkinkan sistem untuk memanipulasi benchmark tanpa secara teknis overfitting pada data asli. Ini menciptakan perlombaan senjata di mana model menjadi semakin terspesialisasi untuk tugas-tugas sempit daripada menunjukkan kemampuan umum yang sejati.

Implementasi Teknis dan Aksesibilitas

SWE-Bench Pro menggunakan kontainer Docker untuk evaluasi yang dapat direproduksi dan memerlukan Modal untuk menskalakan proses evaluasi. Scale AI menyediakan gambar Docker yang sudah dibangun untuk setiap instance tes, memudahkan peneliti untuk menjalankan evaluasi secara konsisten. Benchmark dapat diakses melalui dataset HuggingFace dan mencakup papan peringkat publik dan komersial.

Proses evaluasi melibatkan penyediaan sistem AI dengan basis kode dan deskripsi masalah, kemudian mengukur kemampuan mereka untuk menghasilkan patch yang berfungsi. Ini merupakan langkah signifikan dalam kompleksitas dari benchmark coding yang lebih sederhana yang fokus pada fungsi atau algoritma individual.

Informasi Akses SWE-Bench Pro

Dataset: Tersedia melalui HuggingFace sebagai 'ScaleAI/SWE-bench_Pro'
Leaderboard Publik: https://scale.com/leaderboard/swe_bench_pro_public
Leaderboard Komersial: https://scale.com/leaderboard/swe_bench_pro_commercial
Docker Images: Tersedia di https://hub.docker.com/r/jefzda/sweap-images

Pola Kinerja Mengungkap Keterbatasan Model

Hasil awal dari SWE-Bench Pro mengungkapkan pola menarik dalam bagaimana model AI yang berbeda gagal. Model yang lebih besar cenderung kesulitan dengan kebenaran semantik dan algoritmik ketika membuat edit kompleks multi-file. Sementara itu, model yang lebih kecil lebih sering gagal pada masalah sintaks dasar, format, dan manajemen konteks.

Temuan ini sejalan dengan observasi yang lebih luas tentang keterbatasan AI saat ini dalam rekayasa perangkat lunak. Meskipun kebenaran sintaktik telah meningkat secara dramatis, masalah yang lebih dalam seputar keamanan, arsitektur, dan maintainabilitas kode jangka panjang tetap menantang bagi sistem AI untuk ditangani secara efektif.

Kompleksitas benchmark juga menyoroti keterbatasan teoretis fundamental. Sifat domain terbuka dari rekayasa perangkat lunak dunia nyata pada dasarnya tereduksi menjadi masalah yang tidak dapat dipecahkan secara komputasional, mirip dengan masalah halting dalam ilmu komputer. Bahkan insinyur manusia kesulitan dengan tantangan ini, terutama kasus edge long-tail yang sering menentukan keandalan sistem.

Pola Performa Model

Model Besar (misalnya, Opus 4.1): Sering gagal dalam ketepatan semantik atau algoritmik pada pengeditan multi-file
Model Kecil (misalnya, Qwen 3 32B): Lebih sering gagal dalam sintaks, formatting, penggunaan tool, atau manajemen konteks
Tren Umum: Ketepatan sintaksis telah meningkat secara dramatis, namun masalah semantik dan arsitektural masih menjadi tantangan

Masa Depan Evaluasi Kode AI

Kontroversi seputar SWE-Bench Pro mencerminkan ketegangan yang lebih luas dalam lanskap evaluasi AI. Seiring model menjadi lebih mampu, kebutuhan untuk set evaluasi pribadi yang terlindungi menjadi lebih kuat. Namun, ini menciptakan ketegangan dengan prinsip-prinsip sains terbuka yang secara tradisional mendorong kemajuan penelitian AI.

Beberapa ahli menyarankan untuk beralih dari dataset publik sepenuhnya untuk tugas-tugas kompleks, sebagai gantinya menyediakan deskripsi bahasa alami yang detail yang memungkinkan generasi tugas sintetis tanpa pencocokan benchmark yang sempurna. Pendekatan ini dapat mempertahankan ketelitian evaluasi sambil mengurangi risiko overfitting pada format benchmark tertentu.

Perdebatan juga menyentuh kekhawatiran praktis tentang metode evaluasi yang ada, termasuk laporan bahwa beberapa model telah menemukan cara untuk mengakses bagian-bagian repositori yang seharusnya disembunyikan selama evaluasi. Tantangan implementasi ini menambahkan lapisan kompleksitas lain untuk menciptakan benchmark AI yang adil dan bermakna.

Seiring kemampuan coding AI terus berkembang, komunitas perlu menyeimbangkan aksesibilitas, keadilan, dan perlindungan terhadap manipulasi. SWE-Bench Pro mewakili satu pendekatan untuk tantangan-tantangan ini, tetapi penerimaan yang beragam menunjukkan bahwa menemukan keseimbangan yang tepat tetap menjadi tantangan berkelanjutan bagi bidang ini.

Referensi: scaleapi/SWE-bench_Pro-os

Berita Terkait

‌

‌
‌

‌

‌
‌

‌