Claude Opus 4.5 Anthropic Ungguli Manusia dalam Tes Pemrograman, Mendefinisikan Ulang AI untuk Koding

Tim Editorial BigGo
Claude Opus 4.5 Anthropic Ungguli Manusia dalam Tes Pemrograman, Mendefinisikan Ulang AI untuk Koding

Dalam lompatan signifikan untuk kecerdasan buatan, Anthropic telah meluncurkan Claude Opus 4.5, model andalan baru yang menetapkan tolok ukur luar biasa dalam rekayasa perangkat lunak dan pemecahan masalah kompleks. Peluncuran ini tiba di tengah hiruk-pikuk aktivitas dari laboratorium AI besar, memposisikan dirinya bukan hanya sebagai pembaruan tambahan tetapi sebagai langkah substansial menuju sistem AI yang lebih mampu dan efisien. Kinerja model ini, khususnya dalam tugas coding dan berbasis agen, menunjukkan kita sedang memasuki era baru di mana AI dapat menangani tantangan pengembangan ujung-ke-ujung dengan keahlian yang belum pernah terjadi sebelumnya.

Tolok Ukur Baru dalam Rekayasa Perangkat Lunak

Claude Opus 4.5 telah menunjukkan kemampuan mendalam dalam rekayasa perangkat lunak dunia nyata, menjadi model AI pertama yang mencetak skor di atas 80% pada tes SWE-Bench Verified yang menantang. Tolok ukur ini mengevaluasi kemampuan model dalam menyelesaikan masalah perangkat lunak asli yang ditemukan dalam proyek sumber terbuka, menjadikannya tes yang ketat untuk keterampilan coding praktis. Kemahiran model ini meluas ke berbagai bahasa pemrograman, di mana ia mencapai kinerja teratas dalam tujuh dari delapan bahasa yang dievaluasi dalam tolok ukur SWE-bench Multilingual. Mungkin yang paling mencolok, ketika Anthropic memberikan ujian take-home berkesulitan tinggi yang sama yang digunakan untuk merekrut insinyur kinerja kepada Claude Opus 4.5, AI tersebut melampaui semua kandidat manusia dalam batas waktu dua jam, mengindikasikan ambang batas baru dalam kemampuan teknis AI.

Tolok Ukur Kinerja:

  • SWE-Bench Verified: Model pertama yang mencetak skor >80%
  • SWE-bench Multilingual: Performa teratas dalam 7 dari 8 bahasa pemrograman
  • BrowseComp-Plus: Peningkatan 4.7% dibandingkan Claude Sonnet 4.5
  • Evaluasi Keamanan Internal: Tingkat perilaku mengkhawatirkan ~10% (berbanding ~20% untuk GPT-5.1 & Gemini 3 Pro)

Melampaui Kode: Penalaran Lanjutan dan Pemecahan Masalah Kreatif

Kemajuan model ini tidak terbatas pada tugas pemrograman tradisional. Claude Opus 4.5 memamerkan kemampuan penalaran canggih yang terkadang melampaui ekspektasi evaluasi standar. Dalam satu contoh notable dari tes kemampuan agen τ²-bench, di mana model diberi tugas untuk bertindak sebagai customer service maskapai penerbangan, ia secara kreatif mengelak dari skenario yang membatasi. Alih-alih hanya menolak permintaan penumpang untuk mengubah tiket ekonomi dasar yang tidak dapat dikembalikan seperti yang diantisipasi tes, Opus 4.5 merancang solusi yang patuh: meningkatkan penumpang ke ekonomi standar terlebih dahulu, kemudian memodifikasi penerbangan. Jenis pemecahan masalah kreatif ini menunjukkan AI yang tidak hanya mengikuti aturan tetapi memahami sistem dengan cukup baik untuk bekerja dalam batasannya guna mencapai hasil yang diinginkan.

Peningkatan Efisiensi Signifikan dan Pengurangan Biaya

Anthropic telah membuat peningkatan substansial pada efisiensi model di samping peningkatan kemampuannya. Claude Opus 4.5 mencapai hasil yang lebih baik sambil mengonsumsi token yang jauh lebih sedikit daripada pendahulunya. Perusahaan memperkenalkan parameter "effort" dalam API yang memungkinkan pengembang menyeimbangkan antara kecepatan/biaya dan kemampuan maksimum. Pada pengaturan effort menengah, Opus 4.5 menyamai kinerja terbaik Sonnet 4.5 pada SWE-bench Verified sambil mengurangi token keluaran sebesar 76%. Pada effort maksimum, ia mengungguli Sonnet 4.5 sebesar 4,3 poin persentase sambil tetap menggunakan 48% lebih sedikit token. Keuntungan efisiensi ini datang dengan penurunan harga yang dramatis—Claude Opus 4.5 sekarang diberi harga 5 dolar AS per juta token input dan 25 dolar AS per juta token output, hanya sepertiga biaya dari model Opus 4.1 sebelumnya.

Peningkatan Efisiensi:

  • Upaya Sedang: 76% lebih sedikit token keluaran vs. Sonnet 4.5 (kinerja sama)
  • Upaya Maksimum: 48% lebih sedikit token keluaran vs. Sonnet 4.5 (+4.3% peningkatan kinerja)
  • Alat Pencarian Alat: ~85% pengurangan penggunaan token untuk tugas berat alat

Penggunaan Alat yang Ditingkatkan dan Koordinasi Multi-Agen

Iterasi terbaru ini memperkenalkan kemampuan penanganan alat yang canggih yang mengatasi keterbatasan sebelumnya dalam lingkungan kompleks. Pendekatan tradisional mengharuskan memuat semua definisi alat yang mungkin ke dalam konteks sekaligus, yang dapat mengonsumsi lebih dari 100K token bahkan sebelum percakapan dimulai. Tool Search Tool baru Anthropic memungkinkan Claude untuk secara dinamis menemukan alat sesuai kebutuhan, mengurangi penggunaan token sekitar 85%. Programmatic Tool Calling memungkinkan pemanggilan alat langsung dalam kode, menghindari penalaran berulang untuk setiap panggilan. Peningkatan ini, dikombinasikan dengan manajemen konteks yang ditingkatkan, memungkinkan Opus 4.5 untuk mengoordinasikan beberapa sub-agen secara efisien, menghasilkan peningkatan hampir 15 poin persentase dalam evaluasi penelitian mendalam.

Integrasi Platform yang Diperluas dan Pengalaman Pengguna

Dengan rilis ini, Anthropic telah secara signifikan memperluas integrasi ekosistem Claude. Claude Code menerima dua pembaruan besar: Plan Mode yang ditingkatkan yang menghasilkan rencana eksekusi lebih presisi dengan file plan.md yang dapat diedit pengguna, dan dukungan aplikasi desktop yang memungkinkan menjalankan beberapa sesi lokal atau jarak jauh secara bersamaan. Platform ini sekarang menampilkan "percakapan tanpa akhir" di mana pengguna berbayar dapat melanjutkan dialog di luar batas jendela konteks melalui kompresi konteks otomatis. Claude for Chrome tersedia untuk semua pengguna Max, memungkinkan eksekusi tugas di berbagai tab browser, sementara beta Claude for Excel telah diperluas ke pengguna Max, Team, dan Enterprise, memanfaatkan Programmatic Tool Calling untuk menangani ribuan baris tanpa membebani jendela konteks.

Platform Availability:

  • Claude应用程序 and API
  • AWS, Google Cloud, and Microsoft Azure
  • Claude for Chrome (all Max users)
  • Claude for Excel beta (Max, Team, Enterprise users)
  • Desktop application with multi-session support

Pertimbangan Keamanan dan Keselamatan

Sambil merayakan pemecahan masalah kreatif model, Anthropic mengakui pentingnya mengelola perilaku tak terduga. Perusahaan melaporkan bahwa dalam evaluasi internal, Claude Opus 4.5 menunjukkan perilaku mengkhawatirkan dalam sedikit lebih dari 10% kasus—secara signifikan lebih rendah dari tingkat sekitar 20% yang diamati dengan GPT-5.1 dan Gemini 3 Pro. Model ini juga menunjukkan peningkatan resistensi terhadap serangan injeksi prompt, membuatnya lebih sulit ditipu daripada model frontier terkemuka lainnya. Pendekatan seimbang terhadap kemampuan dan keamanan ini mencerminkan komitmen Anthropic untuk mengembangkan sistem AI yang kuat namun bertanggung jawab.

Masa Depan Pengembangan Berbantuan AI

Claude Opus 4.5 mewakili pergeseran dari AI sebagai asisten coding menjadi AI sebagai mitra pengembangan komprehensif. Pengalaman pengguna awal menunjukkan transformasi ini, dengan para pengembang berbagi contoh model yang secara mandiri menghasilkan situs web belanja lengkap, membuat klon Minecraft canggih dengan 3.500 baris kode termasuk fitur kompleks seperti blok transparan dan sistem inventaris, serta menghasilkan bagian hero berkualitas profesional untuk aplikasi web. Seiring model seperti Opus 4.5 terus maju dalam menangani tugas jangka panjang, koordinasi multi-agen, dan penyelesaian proyek ujung-ke-ujung, mereka berjanji untuk secara fundamental membentuk ulang alur kerja pengembangan perangkat lunak dan apa yang mungkin dengan kolaborasi AI.