Masalah Kualitas Claude Menimpa 30% Pengguna Akibat Bug Infrastruktur, Bukan Pemotongan Biaya

Tim Komunitas BigGo

Masalah Kualitas Claude Menimpa 30% Pengguna Akibat Bug Infrastruktur, Bukan Pemotongan Biaya

Anthropic telah merilis postmortem teknis terperinci yang menjelaskan mengapa pengguna Claude mengalami penurunan kualitas respons antara Agustus dan September 2024. Perusahaan menghadapi kritik yang meningkat dari pengguna yang menduga adanya penurunan model yang disengaja untuk menghemat biaya, namun kenyataannya terbukti jauh lebih kompleks.

Tiga bug infrastruktur terpisah menciptakan badai sempurna masalah kualitas yang memengaruhi jutaan pengguna di berbagai platform. Masalah ini sangat membingungkan karena manifestasinya berbeda-beda tergantung pada platform perangkat keras mana yang melayani setiap permintaan, menciptakan pengalaman yang tidak konsisten sehingga diagnosis menjadi sangat menantang.


Sebuah laporan teknis dari Anthropic yang menjelaskan bug-bug yang mempengaruhi kualitas respons Claude

Kekacauan Routing Berdampak Paling Parah

Masalah paling luas berasal dari kesalahan routing context window yang dimulai pada 5 Agustus. Permintaan konteks pendek secara keliru dikirim ke server yang dikonfigurasi untuk konteks 200.000 token yang lebih panjang, awalnya memengaruhi kurang dari 1% permintaan. Namun, perubahan load balancing rutin pada 29 Agustus secara dramatis memperburuk situasi, mendorong tingkat kesalahan hingga hampir 7% dari semua permintaan.

Dampaknya sangat parah bagi pengguna Claude Code, dengan sekitar 30% mengalami setidaknya satu respons yang menurun kualitasnya. Sifat sticky dari sistem routing Anthropic memperburuk masalah - setelah permintaan pengguna mengenai server yang salah, pesan-pesan berikutnya kemungkinan akan mengikuti jalur bermasalah yang sama.

Diskusi komunitas mengungkapkan pengalaman yang beragam, dengan beberapa pengguna enterprise di Google Cloud Vertex AI melaporkan masalah minimal, sementara yang lain menghadapi degradasi signifikan. Disparitas dalam tingkat dampak di berbagai platform menjelaskan mengapa laporan pengguna tampak kontradiktif selama insiden berlangsung.

Statistik Dampak berdasarkan Platform:

Pengguna Claude Code : ~30% mengalami setidaknya satu respons yang menurun kualitasnya
AWS Trainium : Puncak 6,8% permintaan terpengaruh selama periode terburuk
Google Cloud Vertex AI : Kurang dari 0,0005% permintaan terpengaruh
Amazon Bedrock : Puncak 6,8% permintaan terpengaruh

Generasi Token Menjadi Kacau

Bug terpisah yang diperkenalkan pada 16 Agustus menyebabkan perilaku yang lebih aneh lagi. Optimisasi kinerja yang salah konfigurasi mulai memberikan probabilitas tinggi pada token yang sama sekali tidak tepat. Pengguna yang mengajukan pertanyaan dalam bahasa Inggris mungkin tiba-tiba melihat karakter Cina muncul di tengah respons, atau menerima kode yang penuh dengan kesalahan sintaks yang jelas.

Korupsi output ini memengaruhi beberapa varian Claude antara 29 Agustus dan 2 September, namun terbatas pada platform first-party Anthropic. Bug ini menunjukkan betapa kompleksnya proses pemilihan token sebenarnya - meskipun model AI yang mendasarinya tetap tidak berubah, perhitungan probabilitas yang salah dapat sepenuhnya menggagalkan respons.

Kronologi Masalah:

5 Agustus: Bug routing context window diperkenalkan (dampak 0,8%)
16 Agustus: Bug korupsi output disebarkan ke kernel TPU
28 Agustus: Bug kompiler XLA terekspos oleh peningkatan pemilihan token
29 Agustus: Perubahan load balancing memperburuk masalah routing hingga dampak 6,8%
2 September: Bug korupsi output dikembalikan
4-5 September: Perbaikan routing konteks disebarkan di seluruh platform
12 September: Solusi sementara kompiler XLA sepenuhnya dikembalikan

Bug Compiler Menciptakan Masalah Tak Terlihat

Masalah yang paling kompleks secara teknis melibatkan bug laten dalam compiler XLA Google untuk chip TPU. Ketika Anthropic menerapkan kode pemilihan token yang ditingkatkan pada 28 Agustus, hal itu secara tidak sengaja mengekspos cacat compiler tersembunyi ini. Bug tersebut menyebabkan sistem kadang-kadang menghilangkan token dengan probabilitas tertinggi dari pertimbangan sepenuhnya, yang mengarah pada pilihan kata yang tidak masuk akal.

Masalah compiler ini terbukti sangat rumit karena perilakunya berubah berdasarkan faktor yang tampaknya tidak terkait seperti ukuran batch dan pengaturan debugging. Prompt yang sama mungkin bekerja dengan sempurna pada suatu saat dan gagal pada saat berikutnya, membuat reproduksi hampir tidak mungkin.

Infrastruktur Teknis:

Platform perangkat keras: AWS Trainium , NVIDIA GPUs , Google TPUs
Distribusi: First-party API , Amazon Bedrock , Google Cloud Vertex AI
Jendela konteks: Konfigurasi standar dan 200.000 token
Pemilihan token: Pengambilan sampel top-k dengan algoritma perkiraan dan eksak

Tantangan Deteksi Menyoroti Masalah di Seluruh Industri

Perjuangan Anthropic untuk dengan cepat mengidentifikasi masalah-masalah ini mengungkapkan tantangan yang lebih luas dalam pemantauan sistem AI. Benchmark tradisional gagal menangkap degradasi yang dialami pengguna dalam penggunaan dunia nyata. Kontrol privasi yang membatasi akses engineer ke interaksi pengguna, meskipun melindungi data pengguna, juga memperlambat upaya debugging.

Aturan privasi/keamanan membatasi akses ke data pengguna nyata untuk debugging.

Ketergantungan perusahaan pada evaluasi otomatis terbukti tidak memadai ketika bug menciptakan masalah yang halus dan intermiten daripada kegagalan yang jelas. Kesenjangan deteksi ini berlangsung selama berminggu-minggu, di mana frustrasi pengguna meningkat dan teori konspirasi tentang penurunan yang disengaja menyebar di media sosial.

Bergerak Maju dengan Pemantauan yang Lebih Baik

Anthropic sedang mengimplementasikan evaluasi kualitas berkelanjutan pada sistem produksi dan mengembangkan alat baru untuk menganalisis umpan balik pengguna tanpa mengorbankan privasi. Perusahaan menekankan bahwa laporan pengguna tetap penting untuk mengidentifikasi masalah yang mungkin terlewat oleh sistem otomatis.

Insiden ini berfungsi sebagai pengingat bahwa bahkan sistem AI yang canggih bergantung pada infrastruktur kompleks yang dapat gagal dengan cara yang tidak terduga. Meskipun perbaikan teknis sekarang sudah tersedia, ujian sebenarnya adalah apakah pemantauan yang ditingkatkan Anthropic dapat menangkap masalah serupa sebelum berdampak pada pengguna dalam skala besar.

Referensi: A postmortem of three recent issues

Berita Terkait

‌

‌
‌

‌

‌
‌

‌