Claude Sonnet 4.5 Memicu Reaksi Beragam dari Developer Meski Klaim Benchmark Mengesankan

Tim Komunitas BigGo

Claude Sonnet 4.5 Memicu Reaksi Beragam dari Developer Meski Klaim Benchmark Mengesankan

Anthropic telah merilis Claude Sonnet 4.5 , dengan mengklaim bahwa ini adalah model coding terbaik di dunia dengan skor 77,2% pada evaluasi SWE-bench verified. Namun, feedback awal dari developer mengungkap gambaran kompleks yang tidak selalu sesuai dengan angka benchmark yang mengesankan.

Model baru ini mempertahankan harga yang sama dengan pendahulunya yaitu 3 dolar Amerika Serikat per juta prompt token, sambil memperkenalkan beberapa pembaruan produk termasuk Claude Code 2.0 dengan fitur checkpoint, ekstensi VS Code native, dan tool eksperimental Imagine with Claude yang menghasilkan software secara real-time.

Spesifikasi Utama Claude Sonnet 4.5:

Skor terverifikasi SWE-bench: 77,2% (naik dari 72,7% pada Sonnet 4)
Harga: $3 USD per juta token prompt (tidak berubah)
Skor sempurna pada benchmark matematika AIME
Mengklaim kemampuan operasi tanpa pengawasan selama 30+ jam
Harga sama dengan Claude Sonnet 4


Memperkenalkan Claude Sonnet 45, menampilkan kemampuan canggihnya dalam coding dan pengembangan AI

Performa Dunia Nyata Menunjukkan Hasil Beragam

Meski ada peningkatan benchmark, developer melaporkan pengalaman yang tidak konsisten dalam aplikasi praktis. Beberapa pengguna menemukan bahwa model ini unggul dalam kecepatan tetapi kesulitan dengan kualitas kode. Seorang developer yang menguji implementasi fuzzy search mencatat bahwa meskipun Sonnet 4.5 menyelesaikan tugas hanya dalam 3 menit dibandingkan dengan GPT-5-Codex yang membutuhkan 20 menit, hasil yang lebih cepat tersebut rusak dan dangkal dengan masalah autentikasi dan tidak ada test.

Diskusi komunitas mengungkap pola di mana model yang berbeda unggul dalam skenario yang berbeda. Pengguna melaporkan bahwa GPT-5-Codex cenderung menghasilkan kode yang lebih menyeluruh dan siap produksi dengan error handling dan test yang tepat, sementara Claude Sonnet 4.5 memprioritaskan kecepatan tetapi mungkin mengorbankan kedalaman dan keandalan.

Perbandingan Performa (Laporan Pengguna):

Kecepatan: Claude Sonnet 4.5 secara signifikan lebih cepat (3 menit vs 20 menit untuk tugas serupa)
Kualitas Kode: GPT-5-Codex dilaporkan lebih menyeluruh dengan penanganan error yang lebih baik
Pengujian: GPT-5-Codex secara otomatis menulis tes, Claude sering memerlukan prompting
Autentikasi: Beberapa pengguna melaporkan Claude membuat ulang logika autentikasi alih-alih menggunakan kembali pola yang sudah ada


Analisis komparatif skor perilaku yang tidak selaras di antara berbagai model coding, menggambarkan variasi kinerja yang dilaporkan oleh para developer

Manajemen Konteks dan Integrasi Workflow

Sebagian besar feedback developer berfokus pada kemampuan manajemen konteks. Kemampuan model untuk mempertahankan fokus selama sesi coding yang panjang tampak membaik, dengan Anthropic mengklaim bahwa model ini dapat bekerja tanpa pengawasan hingga 30 jam untuk tugas-tugas kompleks. Namun, beberapa pengguna melaporkan masalah dengan model yang kehilangan jejak konteks proyek atau membuat keputusan yang tidak konsisten saat bekerja dengan codebase besar.

Integrasi dengan workflow pengembangan juga menunjukkan hasil yang beragam. Sementara beberapa developer memuji sistem checkpoint baru dan peningkatan pemilihan terminal, yang lain mencatat bahwa model terkadang mengabaikan pola kode yang ada dan membuat ulang komponen yang sudah ada dalam proyek.

Fitur Baru dalam Claude Code 2.0:

Checkpoint untuk menyimpan progres dan fungsionalitas rollback
Ekstensi VS Code native
Fitur central editing dan memory fund untuk API
Code executor dan pembuatan file dalam percakapan
Ekstensi Chrome untuk admin tim
Claude Agent SDK untuk membangun agen kustom

Kesenjangan Benchmark vs Realitas

Ketidaksesuaian antara performa benchmark dan penggunaan dunia nyata telah menjadi tema berulang dalam diskusi komunitas. Beberapa developer menyatakan kekhawatiran bahwa perusahaan mungkin mengoptimalkan untuk skor benchmark daripada utilitas praktis. Pendekatan benchmarking to the test ini berpotensi menciptakan model yang unggul dalam evaluasi terkontrol tetapi kesulitan dengan sifat pengembangan software aktual yang berantakan dan bergantung pada konteks.

Benchmark SWE-bench verified, meskipun dirancang untuk mengurangi noise evaluasi, masih menghadapi keterbatasan dalam menangkap kompleksitas penuh pengembangan software profesional, termasuk proses code review, kolaborasi tim, dan pertimbangan maintainability jangka panjang.


Tingkat kemenangan dari berbagai model coding, menyoroti disparitas antara benchmark dan realitas dalam penilaian performa

Tekanan Harga dan Kompetisi

Biaya tetap menjadi faktor signifikan dalam adopsi model. Banyak developer menyebutkan beralih ke alternatif yang lebih cepat dan murah seperti Grok Code Fast untuk tugas-tugas rutin, menyimpan model premium untuk masalah kompleks. Harga 3 dolar Amerika Serikat per juta token, meskipun tidak berubah dari Sonnet 4 , terus dipandang mahal dibandingkan kompetitor, terutama untuk developer yang membayar dari kantong sendiri.

Saya akan mengambil 20 menit itu setiap saat, mengetahui bahwa pekerjaan yang telah dilakukan terasa seperti pekerjaan yang dilakukan oleh senior dev.

Tekanan harga ini telah menyebabkan pola penggunaan yang menarik di mana developer menggunakan beberapa model secara strategis - menggunakan opsi yang lebih cepat dan murah untuk pekerjaan awal dan model premium untuk penyempurnaan dan pemecahan masalah kompleks.

Peluncuran Claude Sonnet 4.5 mewakili kemajuan bertahap dalam bantuan coding AI, tetapi kesenjangan antara klaim marketing dan pengalaman developer tetap signifikan. Meskipun skor benchmark terus membaik, tantangan praktis kualitas kode, kesadaran konteks, dan efektivitas biaya menunjukkan bahwa gelar model coding terbaik mungkin sangat bergantung pada kasus penggunaan spesifik dan workflow developer individual.

Referensi: Introducing Claude Sonnet 4.5

Berita Terkait

‌

‌
‌

‌

‌
‌

‌