Anthropic's Claude Opus 4.5 Kalahkan Kinerja Manusia dalam Tes Teknik, Turunkan Biaya 67%

Tim Editorial BigGo
Anthropic's Claude Opus 4.5 Kalahkan Kinerja Manusia dalam Tes Teknik, Turunkan Biaya 67%

Anthropic telah meluncurkan Claude Opus 4.5, memposisikannya sebagai tolok ukur baru dalam kemampuan AI untuk pengkodean, penalaran kompleks, dan otomatisasi tugas dunia nyata. Peluncuran ini tidak hanya menunjukkan kemajuan teknis yang signifikan tetapi juga membuat AI berkinerja tinggi lebih terjangkau melalui pengurangan harga yang substansial, berpotensi mempercepat adopsi perusahaan.

Perbandingan Harga (per juta token)

Versi Model Biaya Input Biaya Output
Opus Sebelumnya USD 15 USD 75
Opus 4.5 USD 5 USD 25
Pengurangan harga: 67% untuk token input dan output

Terobosan Kinerja Besar dalam Evaluasi Teknis

Dalam penilaian internal yang ketat, Claude Opus 4.5 mencapai apa yang digambarkan Anthropic sebagai hasil yang bersejarah: mengungguli semua kandidat manusia dalam tes rumit yang dirancang untuk posisi teknik kinerja. Evaluasi berjangka dua jam, yang menilai kemampuan teknis dan penilaian di bawah tekanan, menyaksikan model ini mencetak skor lebih tinggi daripada peserta tes manusia mana pun dalam sejarah perusahaan. Kinerja ini telah memicu diskusi serius di dalam Anthropic tentang bagaimana AI akan mengubah profesi teknik, dengan tim dampak sosial perusahaan secara aktif mempelajari perubahan yang akan datang ini terhadap tenaga kerja.

Metrik Kinerja

  • Mengungguli semua kandidat manusia dalam tes kompetensi teknik
  • Pengurangan 76% dalam token keluaran dibandingkan Sonnet 4.5 pada pengaturan usaha menengah
  • Pengurangan 48% dalam token keluaran dibandingkan Sonnet 4.5 pada pengaturan usaha tinggi
  • Peningkatan 15 poin persentase dalam evaluasi penelitian mendalam
  • Peningkatan kemampuan visual, penalaran, dan matematika

Peningkatan Kemampuan Penalaran dan Pemecahan Masalah

Kemampuan penalaran lanjutan model ini sangat terlihat dalam tolok ukur τ2-bench, di mana Claude Opus 4.5 menunjukkan kreativitas pemecahan masalah yang tak terduga. Ketika ditugaskan untuk mensimulasikan agen layanan maskapai yang harus menolak perubahan pada tiket "ekonomi dasar" sesuai parameter tes, model ini justru mengidentifikasi solusi sah dalam kebijakan maskapai: menyarankan pelanggan untuk pertama kali meningkatkan kelas kursi mereka, lalu mengubah tanggal penerbangan. Pendekatan ini, meskipun secara teknis gagal memenuhi kriteria keberhasilan yang telah ditentukan tolok ukur, menunjukkan kemampuan model untuk menemukan solusi inovatif yang mematuhi aturan sekaligus memenuhi kebutuhan pelanggan—sebuah kemampuan yang digambarkan Anthropic sebagai memberikan "solusi yang berwawasan" yang dinilai berharga oleh pengguna dalam aplikasi dunia nyata.

Pengurangan Biaya dan Peningkatan Efisiensi yang Signifikan

Mungkin perubahan yang paling langsung berdampak bagi pengembang adalah penurunan harga dramatis untuk mengakses kemampuan tingkat Opus. Harga input telah diturunkan menjadi 5 dolar AS per juta token (turun dari 15 dolar AS), sementara biaya output sekarang menjadi 25 dolar AS per juta token (penurunan 67% dari sebelumnya 75 dolar AS). Di luar harga murni, model ini menunjukkan efisiensi yang ditingkatkan melalui pengurangan langkah eksekusi tugas dan lebih sedikit backtracking dalam proses penalaran, menghasilkan konsumsi token yang lebih rendah secara keseluruhan. Anthropic telah memperkenalkan parameter "usaha" baru yang memungkinkan pengembang menyeimbangkan kecepatan, biaya, dan kemampuan sesuai kebutuhan spesifik mereka.

Fitur Keamanan dan Keandalan Lanjutan

Anthropic mengklaim Claude Opus 4.5 mewakili model mereka yang paling selaras hingga saat ini, dengan perusahaan berspekulasi bahwa model ini memimpin industri dalam hal keselarasan di antara model-model frontier. Versi baru ini mencakup pertahanan yang diperkuat terhadap serangan injeksi prompt, memberikan perlindungan yang ditingkatkan terhadap instruksi menipu—sebuah peningkatan kritis bagi pelanggan perusahaan yang menggunakan AI dalam aplikasi yang sangat penting. Perusahaan mengakui bahwa kemampuan pemecahan masalah kreatif model, meskipun umumnya menguntungkan, berpotensi dieksploitasi untuk "peretasan imbalan" dalam konteks tertentu, membuat peningkatan keamanan ini menjadi sangat penting untuk penyebaran yang aman.

Ekspansi Integrasi Platform dan Alat Pengembang

Peluncuran ini disertai dengan pembaruan signifikan pada ekosistem pengembang Anthropic. Claude Code kini menampilkan Mode Rencana yang ditingkatkan yang dimulai dengan mengajukan pertanyaan klarifikasi sebelum menghasilkan file plan.md yang dapat diedit dan mengeksekusi tugas. Lingkungan pengembangan juga telah diperluas ke aplikasi desktop, mendukung beberapa sesi lokal dan jarak jauh secara simultan. Untuk aplikasi konsumen, Claude kini dapat secara otomatis merangkum konteks percakapan untuk mendukung dialog yang diperpanjang, sementara Claude untuk Chrome telah dibuka untuk semua pengguna Max dan Claude untuk Excel telah memperluas akses beta ke lebih banyak tingkatan perusahaan.

Ketersediaan Platform

  • Aplikasi dan API Anthropic
  • Platform cloud utama
  • Versi API: claude-opus-4-5-20251101
  • Claude untuk Chrome (semua pengguna Max)
  • Claude untuk Excel (akses beta yang diperluas)
  • Dukungan aplikasi desktop

Implikasi Lebih Luas untuk Pengembangan AI

Peluncuran ini menandakan pergeseran dalam cara perusahaan AI membedakan model mereka—beralih dari sekadar peningkatan kemampuan mentah menuju pola interaksi yang lebih canggih dan peningkatan efisiensi praktis. Kemampuan Claude Opus 4.5 untuk "menangani ambiguitas dan mempertimbangkan trade-off tanpa bimbingan," seperti yang dijelaskan Anthropic, mewakili frontier berikutnya dalam kegunaan AI. Dengan model ini sekarang tersedia melalui API Anthropic, aplikasi, dan platform cloud utama, organisasi dari semua ukuran dapat memanfaatkan kemampuan lanjutan ini, berpotensi mempercepat integrasi AI ke dalam operasi bisnis sehari-hari dan alur kerja pengembangan perangkat lunak.