Seorang developer telah mengangkat kekhawatiran serius tentang stabilitas model bahasa OpenAI milik Azure , dengan mengklaim bahwa prompt yang identik menghasilkan hasil yang semakin buruk dari waktu ke waktu. Developer tersebut, yang telah menguji sistem mereka selama enam bulan menggunakan kondisi terkontrol, melaporkan bahwa performa model telah menurun secara signifikan tanpa ada perubahan pada kode atau prompt mereka.
Pengujian Sistematis Mengungkap Penurunan Performa
Developer tersebut menerapkan sistem pengujian yang ketat menggunakan pesan identik dengan pengaturan suhu nol untuk memastikan respons yang konsisten. Pendekatan ini secara teoritis seharusnya menghasilkan output yang hampir identik setiap kali. Namun, data mereka menunjukkan bahwa akurasi GPT-4o-mini telah memburuk secara nyata sejak peluncuran GPT-5 , sementara model GPT-5 yang lebih baru, meskipun awalnya berkinerja lebih baik, mengalami masalah kecepatan yang parah dengan waktu respons mencapai hingga 20 detik.
Diskusi komunitas mengungkapkan bahwa ini bukan kejadian yang terisolasi. Beberapa pengguna melaporkan pengalaman serupa di berbagai penyedia AI, termasuk Gemini milik Google dan Claude milik Anthropic . Beberapa developer bahkan harus melewatkan pembaruan model sepenuhnya karena versi yang lebih baru tidak dapat menyelesaikan tugas yang berhasil ditangani oleh versi sebelumnya.
Masalah Performa yang Dilaporkan:
- GPT-4o-mini : Akurasi menurun setelah peluncuran GPT-5
- Model GPT-5 : Akurasi lebih baik tetapi waktu respons hingga 20 detik
- Metode pengujian: Prompt identik dengan suhu 0 selama 6 bulan
- Pola degradasi konsisten diamati di berbagai penyedia AI
Perubahan Tersembunyi di Balik Layar
Beberapa penjelasan teknis telah muncul dari diskusi komunitas. Teori yang paling menonjol melibatkan kuantisasi - sebuah proses di mana model dikompres untuk mengurangi biaya komputasi, berpotensi mengorbankan akurasi. Meskipun OpenAI sebelumnya menyatakan bahwa mereka tidak mengubah bobot model setelah rilis, anggota komunitas menyarankan bahwa perubahan infrastruktur, filter keamanan tambahan, atau modifikasi prompt sistem dapat secara efektif mengubah perilaku model tanpa secara teknis mengubah model inti.
Tidak jujur bagi perusahaan untuk mengatakan mereka tidak mengubah model sambil melakukan optimisasi biaya yang merusak kecerdasan efektif model.
Lapisan keamanan tambahan Microsoft untuk model yang di-hosting di Azure juga dapat berkontribusi pada perbedaan performa dibandingkan dengan API langsung OpenAI . Lapisan pemrosesan Responsible AI ini, meskipun berharga untuk persyaratan keamanan perusahaan, dapat menimbulkan overhead atau filtering tambahan yang mempengaruhi kualitas output.
Penyebab Potensial yang Diidentifikasi oleh Komunitas:
- Kuantisasi: Kompresi model untuk mengurangi biaya komputasi
- Perubahan infrastruktur: Ketidakstabilan numerik dan bug komputasi
- Filter keamanan tambahan: Lapisan pemrosesan Responsible AI dari Microsoft
- Modifikasi prompt sistem: Penambahan persyaratan hukum dan bisnis
- Alokasi sumber daya: Daya komputasi yang lebih sedikit dialokasikan untuk model lama
Dorongan yang Berkembang Menuju Model Lokal
Degradasi kualitas yang dilaporkan mendorong beberapa developer untuk mempertimbangkan kembali deployment model lokal. Meskipun menjalankan model secara lokal sebelumnya dianggap mahal dan lambat, persepsi tentang pemotongan kemampuan model berbasis cloud membuat solusi self-hosted menjadi lebih menarik. Model lokal menawarkan kontrol penuh atas versi model dan menghilangkan kekhawatiran tentang perubahan yang tidak diungkapkan pada perilaku model.
Situasi ini menyoroti tantangan fundamental dalam industri AI: menyeimbangkan optimisasi biaya, persyaratan keamanan, dan konsistensi performa. Ketika perusahaan berusaha mengurangi biaya operasional sambil mempertahankan harga yang kompetitif, pengguna khawatir bahwa kualitas model menjadi variabel tersembunyi dalam persamaan ini.
Tanpa versioning yang transparan dan komunikasi yang jelas tentang perubahan infrastruktur, developer menghadapi ketidakpastian tentang stabilitas aplikasi bertenaga AI mereka. Kurangnya transparansi ini pada akhirnya dapat mendorong lebih banyak bisnis menuju alternatif open-source di mana perilaku model tetap dapat diprediksi dan dapat diaudit.
Referensi: The LLM Lobotomy.