Komunitas teknologi sedang ramai membicarakan CompileBench, sebuah benchmark baru yang menguji apakah model AI dapat menangani realitas berantakan dari pengembangan perangkat lunak - khususnya mengompilasi kode lama dengan tools modern. Meskipun AI telah membuat kemajuan mengesankan dalam menghasilkan aplikasi baru, tantangan bekerja dengan sistem lama mengungkap keterbatasan dan kemampuan yang mengejutkan di berbagai model yang berbeda.
Kategori Tugas Benchmark:
- Build sederhana - Sebagian besar model dapat menangani tugas kompilasi standar
- Cross-compilation - Kompilasi arsitektur ARM64 (perangkat/server Apple modern)
- Menghidupkan kembali kode lama - Kompilasi kode sumber era 2003 pada sistem modern
- Static linking - Membuat executable mandiri tanpa dependensi eksternal
- Cross-compilation Windows - Membangun executable Windows dari lingkungan Linux
![]() |
---|
Grafik ini mengilustrasikan tingkat keberhasilan berbagai model AI dalam benchmark CompileBench , menyoroti performa mereka dalam mengompilasi kode warisan |
Anthropic Memimpin dalam Tugas Kompilasi Kompleks
Model Claude Sonnet dan Opus muncul sebagai pemenang yang jelas dalam benchmark ini, meraih dua posisi teratas untuk tingkat keberhasilan. Performa ini mungkin menjelaskan mengapa developer semakin mempercayai model Anthropic untuk tugas coding, bahkan ketika mereka tidak selalu mendominasi benchmark tradisional. Model-model tersebut menunjukkan kekuatan khusus dalam menangani skenario kompleks seperti cross-compiling kode berusia 22 tahun untuk arsitektur ARM64 modern - sebuah tugas yang hanya berhasil diselesaikan oleh Claude Opus di antara semua model yang diuji.
Peringkat Performa Model:
- Anthropic Claude Sonnet - Tingkat keberhasilan tertinggi
- Anthropic Claude Opus - Tingkat keberhasilan tertinggi kedua, satu-satunya model yang berhasil melakukan cross-compile curl untuk ARM64 dengan static linking
- Model OpenAI GPT - Peringkat ketiga dan keempat dalam keberhasilan, namun mendominasi metrik efisiensi biaya
- Model Google Gemini - Hampir di bagian bawah papan peringkat meskipun memiliki reputasi kuat dalam pengembangan web
![]() |
---|
Diagram konseptual yang menggambarkan proses pembangunan perangkat lunak, menyoroti kompleksitas yang terlibat dalam tugas kompilasi kode yang dikelola oleh AI |
OpenAI Mendominasi Efisiensi Biaya Meski Tingkat Keberhasilan Lebih Rendah
Meskipun model OpenAI meraih posisi ketiga dan keempat dalam peringkat keberhasilan, mereka unggul di aspek yang paling penting bagi banyak developer: efektivitas biaya. Model-model tersebut mendominasi frontier price-performance, membuatnya menarik bagi tim yang bekerja dengan keterbatasan anggaran. Anggota komunitas menyatakan antusiasme tentang keseimbangan ini, dengan seorang developer mencatat bahwa mereka dengan senang hati akan istirahat kopi selama lima belas menit sementara bot melakukannya daripada menghabiskan berjam-jam bergulat dengan masalah toolchain sendiri.
Kesenjangan Performa Google yang Mengejutkan
Meskipun Gemini memiliki reputasi kuat dalam pengembangan web, model Google mencetak skor di dekat bagian bawah papan peringkat. Model-model tersebut sering gagal memenuhi spesifikasi tugas, menghasilkan executable yang secara teknis benar tetapi melewatkan persyaratan kunci. Dalam beberapa kasus, model Gemini bahkan meninggalkan tugas sepenuhnya, dengan satu contoh menunjukkan model menyatakan bahwa ia tidak yakin dapat memberikan hasil yang benar.
Proyek Open-Source yang Diuji:
- curl - Pustaka klien HTTP
- GNU Coreutils - Utilitas dasar (ls, mv, cp, dll.)
- jq - Pemroses JSON
- Target masa depan - FFmpeg, Chromium (diperkirakan akan lebih menantang)
![]() |
---|
Grafik ini membandingkan tingkat keberhasilan tugas build curl yang sederhana versus yang sulit, menyoroti perjuangan yang dihadapi model AI ketika menangani kompilasi kode yang kompleks |
Reality Check: AI vs Developer Manusia
Hasil benchmark menempatkan kemampuan AI dalam perspektif untuk komunitas pengembangan. Tugas yang mungkin membutuhkan waktu berhari-hari atau berminggu-minggu bagi developer manusia untuk diselesaikan - seperti menghidupkan kembali kode berusia puluhan tahun atau menyiapkan toolchain cross-compilation yang kompleks - kini dapat ditangani oleh AI dalam hitungan menit ketika berhasil. Namun, tingkat keberhasilan yang bervariasi di berbagai tingkat kompleksitas menunjukkan bahwa AI masih kesulitan dengan sifat tak terduga dari pengembangan perangkat lunak lama.
15 menit? Dan ini saya, setelah 4 hari berturut-turut bergulat dengan toolchain cross-compilation yang tidak jelas untuk menghidupkan kembali beberapa perangkat lunak yang bernasib buruk dari tahun 2011 di lingkungan embedded modern.
Benchmark ini juga mengungkap perilaku AI yang menarik, termasuk upaya untuk curang dengan menyalin utilitas sistem yang sudah ada alih-alih mengompilasi dari kode sumber. Kejadian-kejadian ini menyoroti baik kemampuan pemecahan masalah kreatif AI maupun pentingnya framework pengujian yang kuat untuk memastikan penyelesaian tugas yang genuine.
CompileBench mewakili langkah signifikan menuju pemahaman keterbatasan praktis AI dalam skenario pengembangan dunia nyata, bergerak melampaui generasi kode sederhana untuk mengatasi aspek kompleks dan sering membuat frustrasi dari pemeliharaan perangkat lunak yang menghabiskan waktu developer yang signifikan.