Claude 4 Sonnet Mengungguli GPT-5 dalam Benchmark Coding Internal Microsoft

Tim Komunitas BigGo
Claude 4 Sonnet Mengungguli GPT-5 dalam Benchmark Coding Internal Microsoft

Microsoft telah membuat pilihan yang mengejutkan dalam pembaruan Visual Studio Code terbaru dengan memprioritaskan Claude 4 Sonnet milik Anthropic dibandingkan model GPT-5 dari OpenAI untuk tugas-tugas coding. Keputusan ini muncul setelah benchmark internal menunjukkan performa superior Claude dalam pekerjaan pengembangan, menandai pergeseran signifikan dalam strategi AI Microsoft meskipun memiliki kemitraan erat dengan OpenAI.

Pemilihan Model di Visual Studio Code:

  • Pengguna gratis: Pemilihan otomatis antara Claude Sonnet 4, GPT-5, GPT-5 mini
  • Pengguna berbayar: Utamanya Claude Sonnet 4
  • Pemilihan berdasarkan kriteria "performa optimal"
Pilihan ini mencerminkan navigasi strategis Microsoft melalui kemitraan dan pertimbangan finansial dalam teknologi AI
Pilihan ini mencerminkan navigasi strategis Microsoft melalui kemitraan dan pertimbangan finansial dalam teknologi AI

Perbandingan Performa Mengungkap Pemenang yang Jelas

Komunitas developer telah aktif mendiskusikan perbedaan performa antara model-model AI ini, dengan hasil yang beragam namun mengungkapkan fakta penting. Meskipun beberapa pengguna melaporkan kesuksesan dengan GPT-5, banyak developer menemukan bahwa Claude 4 Sonnet secara konsisten memberikan bantuan coding yang lebih baik. Kesenjangan performa tampak paling menonjol dalam tugas-tugas yang berfokus pada produktivitas seperti coding, pekerjaan spreadsheet, dan pembuatan laporan, di mana Claude tampaknya unggul dibandingkan pendekatan yang lebih umum dari GPT.

Namun, perbandingan ini tidak sepenuhnya berpihak pada satu sisi. GPT-5 mempertahankan keunggulan dalam efisiensi biaya dan penanganan context window untuk tugas perencanaan top-down yang kompleks. Beberapa developer mencatat bahwa GPT-5 telah meningkat secara signifikan dan kini menjadi pilihan default mereka, menunjukkan bahwa persaingan masih ketat.

Area Performa di Mana Claude Unggul:

  • Tugas coding dan pengembangan
  • Integrasi Excel dan PowerPoint
  • Pekerjaan spreadsheet
  • Pembuatan laporan
  • Aplikasi yang berfokus pada produktivitas
Persaingan yang sedang berlangsung antara model AI mencerminkan lanskap yang terus berkembang dalam bantuan coding dan produktivitas developer
Persaingan yang sedang berlangsung antara model AI mencerminkan lanskap yang terus berkembang dalam bantuan coding dan produktivitas developer

Kekhawatiran Pengalaman Pengguna dan Aksesibilitas

Selain performa mentah, masalah kegunaan praktis telah muncul sebagai faktor penting. Beberapa pengguna menghadapi kendala dengan sistem manajemen akun Anthropic, khususnya terkait verifikasi nomor telepon antara akun pribadi dan bisnis. Hal ini menciptakan hambatan bagi developer yang ingin menggunakan Claude di berbagai lingkungan kerja, bahkan ketika mereka bersedia membayar layanan tersebut.

Tantangan autentikasi ini menyoroti bagaimana superioritas teknis tidak selalu diterjemahkan menjadi adopsi pengguna yang mulus, terutama di lingkungan enterprise di mana developer membutuhkan akses fleksibel di berbagai konteks.

Masalah aksesibilitas dan keunggulan teknis  AI  menghadirkan tantangan dalam pengalaman pengguna dan adopsi
Masalah aksesibilitas dan keunggulan teknis AI menghadirkan tantangan dalam pengalaman pengguna dan adopsi

Implikasi Strategis untuk Microsoft

Pilihan Microsoft mencerminkan pendekatan pragmatis terhadap integrasi AI daripada loyalitas kepada satu mitra tertentu. Perusahaan tampaknya melakukan hedging dengan mengembangkan model AI sendiri sambil secara selektif memilih opsi terbaik yang tersedia untuk kasus penggunaan spesifik. Strategi ini masuk akal secara bisnis untuk Visual Studio Code, di mana performa coding secara langsung berdampak pada kepuasan pengguna dan produktivitas.

Claude mengalahkan telak semua GPT di GitHub Copilot (berdasarkan pengalaman saya).

Keputusan ini juga menunjukkan bahwa Microsoft memperlakukan Visual Studio Code sebagai platform yang memprioritaskan pengalaman pengguna daripada politik kemitraan. Dengan secara otomatis memilih model berkinerja terbaik untuk setiap tugas, Microsoft mempertahankan keunggulan kompetitifnya di pasar developer tools sambil menjaga opsi terbuka untuk kemitraan AI di masa depan.

Referensi: Microsoft favors Anthropic over OpenAl for Visual Studio Code