GPT-OSS vs Qwen3: Pengujian Komunitas Mengungkap Kesenjangan Performa dalam Penggunaan Dunia Nyata

Tim Komunitas BigGo
GPT-OSS vs Qwen3: Pengujian Komunitas Mengungkap Kesenjangan Performa dalam Penggunaan Dunia Nyata

Peluncuran GPT-OSS telah memicu perdebatan sengit di komunitas AI tentang apakah kemajuan arsitektur atau kualitas data pelatihan lebih penting untuk performa model. Meskipun GPT-OSS membanggakan skor benchmark yang mengesankan dan penggunaan sumber daya yang efisien, pengujian dunia nyata oleh para pengembang mengungkap gambaran yang lebih kompleks ketika dibandingkan dengan model pesaing seperti Qwen3.

Performa Benchmark vs Penggunaan Dunia Nyata

Pengujian komunitas telah mengekspos kesenjangan signifikan antara pencapaian benchmark GPT-OSS dan aplikasi praktisnya. Pengguna melaporkan bahwa GPT-OSS tampak dioptimalkan khusus untuk benchmark penalaran, menghasilkan skor kuat dalam tes standar tetapi performa buruk dalam tugas sehari-hari. Seorang pengembang mencatat bahwa ketika diminta membuat teka-teki sederhana, GPT-OSS menghasilkan respons yang tidak masuk akal dan langsung memberikan jawaban untuk pertanyaannya sendiri.

Sebaliknya, model Qwen3 secara konsisten menunjukkan kepatuhan prompt yang lebih baik dan respons yang terdengar lebih alami di berbagai tugas. Model Qwen3 32 miliar parameter khususnya unggul dalam mengikuti instruksi dengan tepat, sementara GPT-OSS sering kesulitan dengan tugas percakapan dasar meskipun varian 120 miliar parameternya lebih besar.

Efisiensi Sumber Daya dan Kebutuhan Hardware

GPT-OSS memperkenalkan peningkatan efisiensi yang notable melalui arsitektur Mixture of Experts (MoE) dan kuantisasi MXFP4. Model 120 miliar parameter hanya mengaktifkan 5,1 miliar parameter per token, membuatnya lebih cepat dijalankan daripada model padat dengan kemampuan serupa. Ini memungkinkan model berjalan pada hardware konsumen yang seharusnya kesulitan dengan model sebesar itu.

Namun, performa dunia nyata bervariasi secara signifikan berdasarkan keterbatasan hardware. Pada GPU konsumen dengan VRAM terbatas, model padat seperti Qwen3 32B sering mengungguli GPT-OSS 120B baik dalam kecepatan maupun akurasi. Pengguna dengan kartu grafis RTX 5090 melaporkan Qwen3 32B mencapai 65 token per detik dibandingkan dengan 37 token per detik GPT-OSS 120B ketika CPU offloading diperlukan.

*MoE (Mixture of Experts): Arsitektur di mana hanya sebagian dari parameter model yang aktif untuk setiap input, meningkatkan efisiensi.*MXFP4: Metode kuantisasi menggunakan presisi 4-bit untuk bobot sambil mempertahankan presisi lebih tinggi untuk komponen lain.

Perbandingan Performa pada RTX 5090 (kuantisasi 4-bit):

  • GPT-OSS 120B: 37 token/detik (dengan offloading CPU)
  • Qwen3 32B: 65 token/detik
  • Qwen3 30B-A3B: 150 token/detik

Kekhawatiran Strategi Pelatihan

Komunitas telah mengajukan pertanyaan tentang metodologi pelatihan GPT-OSS, dengan banyak yang menduga mengikuti pendekatan data sintetis serupa dengan model Phi Microsoft. Strategi ini berfokus pada gaming benchmark spesifik daripada mengembangkan kemampuan umum, menghasilkan model yang unggul dalam tes tetapi gagal dalam aplikasi praktis.

Hal ini jelas dilatih melalui RL untuk berpikir dan menyelesaikan tugas untuk benchmark penalaran spesifik. Tidak ada yang lain.

Pengembang melaporkan bahwa GPT-OSS memerlukan konteks yang jauh lebih banyak dan prompting yang detail untuk menghasilkan hasil yang berguna, menunjukkan pelatihannya memprioritaskan performa benchmark sempit daripada aplikabilitas luas. Ini sangat kontras dengan pendekatan Qwen3 yang lebih seimbang, yang mempertahankan performa kuat di berbagai skenario dunia nyata.

Coding dan Tugas Teknis

Untuk aplikasi pemrograman, kesenjangan performa menjadi lebih jelas. Model Qwen3-Coder menunjukkan kemampuan tool-calling yang superior dan kepatuhan yang lebih baik terhadap persyaratan format kode. Pengguna yang menguji berbagai format pengeditan kode melaporkan bahwa Qwen3 jarang gagal dengan pengeditan berbasis diff, sementara GPT-OSS kesulitan dengan tugas serupa.

Model Qwen3-Coder 30B khususnya telah mengesankan pengembang dengan kemampuannya menangani workflow kompleks, termasuk mengenali proses yang berjalan, mengelola instance server, dan memberikan bantuan kontekstual yang menyaingi model komersial. Utilitas praktis ini telah membuatnya menjadi pilihan yang disukai untuk lingkungan pengembangan lokal.

Persyaratan Hardware:

  • GPT-OSS 20B: ~13GB RAM ( Ollama ), tidak muat dalam 10GB VRAM
  • Qwen3-Coder 30B-A3B: ~20GB RAM pada Mac 32GB
  • Qwen3 4B: Cocok untuk deployment lokal pada hardware konsumen

Implikasi Pasar

Temuan ini menyoroti perpecahan yang berkembang dalam pengembangan model AI antara optimisasi benchmark dan utilitas praktis. Sementara GPT-OSS menunjukkan bahwa skor mengesankan tidak selalu berarti kepuasan pengguna, kesuksesan Qwen3 menunjukkan bahwa pendekatan pelatihan seimbang mungkin lebih berharga untuk aplikasi dunia nyata.

Preferensi komunitas terhadap Qwen3 meskipun GPT-OSS memiliki jumlah parameter lebih besar dan pencapaian benchmark menunjukkan bahwa pengguna memprioritaskan keandalan dan kemampuan umum daripada metrik performa mentah. Tren ini mungkin mempengaruhi strategi pengembangan model masa depan saat perusahaan menyeimbangkan antara demonstrasi mengesankan dan utilitas praktis.

Referensi: From GPT-2 to GPT-NeoX: Analyzing the Architectural Advances