Qwen3-235B-A22B-Thinking-2507 Hadapi Pertanyaan Akurasi Benchmark Meski Klaim Performa Kuat

Tim Komunitas BigGo

Qwen3-235B-A22B-Thinking-2507 Hadapi Pertanyaan Akurasi Benchmark Meski Klaim Performa Kuat

Model AI terbaru Alibaba , Qwen3-235B-A22B-Thinking-2507 , telah memicu diskusi signifikan di komunitas AI, tidak hanya karena skor benchmark yang mengesankan, tetapi juga karena pertanyaan seputar akurasi beberapa hasil yang dilaporkan. Model ini merepresentasikan pembaruan besar pada kemampuan berpikir Qwen , menampilkan kemampuan penalaran yang ditingkatkan dan pemahaman konteks panjang hingga 362.144 token secara native.

Spesifikasi Model

Total Parameter: 235B (110B diaktifkan)
Arsitektur: Mixture-of-Experts dengan 128 ahli (8 diaktifkan)
Panjang Konteks: 362.144 token secara native
Layer: 94
Attention Heads: 60 untuk Q dan K, 6 untuk KV
Lisensi: Apache 2.0


Gambar ini mengilustrasikan kartu model untuk Qwen3-235B-A22B-Thinking-2507, menyoroti kemampuan penalaran canggih dan pemahaman konteks panjangnya

Diskrepansi Pelaporan Benchmark Menimbulkan Kekhawatiran

Kontroversi yang mencolok telah muncul terkait akurasi benchmark. Tim Qwen awalnya melaporkan skor 41,8% pada benchmark ARC-AGI untuk model non-thinking mereka, yang akan merepresentasikan pencapaian terobosan. Namun, ketika tim ARC secara independen menguji model yang sama, mereka menemukan skor hanya 11% - masih terhormat, tetapi secara dramatis berbeda dari klaim awal.

Diskrepansi ini telah membuat komunitas AI bingung, tanpa penjelasan yang jelas dari tim Qwen . Perbedaan ini sangat mencolok karena merepresentasikan varians empat kali lipat dalam performa yang dilaporkan, menimbulkan pertanyaan tentang metodologi pengujian dan proses verifikasi hasil.

Sorotan Kinerja Utama

GPQA: 80,3% (vs Claude3 Opus Thinking: 78,6%)
LiveCodeBench: 74,1% (skor tertinggi)
Arena Hard v1.2: 87,7%
IFEval: 97,8%
Kontroversi ARC-AGI: Awalnya dilaporkan 41,8%, diverifikasi secara independen pada 11%

Kemampuan Teknis dan Penerimaan Komunitas

Meskipun ada kontroversi benchmark, model ini menunjukkan spesifikasi teknis yang mengesankan. Model ini memiliki 235 miliar parameter total dengan 110 miliar yang diaktifkan, menggunakan arsitektur mixture-of-experts dengan 128 ahli (8 diaktifkan), dan mendukung mode thinking secara eksklusif. Model ini mendemonstrasikan performa yang kuat di berbagai tugas termasuk coding, matematika, dan tantangan penalaran.

Anggota komunitas telah mencatat posisi kompetitif model ini terhadap sistem AI terdepan lainnya. Jika hasil benchmark tahan terhadap pengawasan, ini akan merepresentasikan rasio kemampuan-terhadap-parameter yang luar biasa, terutama untuk model open-source yang dirilis di bawah lisensi Apache 2.0 .

Implementasi Praktis dan Optimisasi

Komunitas pengembangan AI telah dengan cepat bergerak untuk membuat model ini dapat diakses untuk inferensi lokal. Teknik kuantisasi khusus sedang dikembangkan untuk menjalankan model pada perangkat keras konsumen, dengan berbagai tingkat kompresi tersedia untuk menyeimbangkan performa dan kebutuhan memori.

Perangkat keras dan biaya diasumsikan kira-kira kelas desktop. Jika Anda memiliki rig gaming dengan RTX 4090 dan RAM 128GB, Anda dapat menjalankan ini jika memilih quant yang tepat.

Untuk deployment enterprise, model ini memerlukan sumber daya komputasi yang signifikan, dengan rekomendasi untuk perangkat keras H200 atau B200 untuk throughput optimal ketika memproses jejak penalaran yang besar dan konteks input yang substansial.

Persyaratan Perangkat Keras

Minimum untuk Inferensi Lokal: RTX 4090 dengan RAM 128GB (dengan kuantisasi)
Deployment Enterprise: Perangkat keras H200 atau B200 direkomendasikan
Rekomendasi Panjang Konteks: >131,072 token untuk penalaran optimal
Panjang Output: 32,768 token (standar), 81,920 token (tugas kompleks)

Lanskap Kompetitif dan Implikasi Strategis

Rilis ini menyoroti kompetisi yang sedang berlangsung antara laboratorium AI China dan Barat. Pengamat komunitas mencatat bahwa perusahaan China seperti Alibaba terus merilis model open-source besar sementara perusahaan Amerika cenderung fokus pada ukuran yang lebih kecil dan lebih viable secara komersial atau menjaga model terbesar mereka tetap proprietary.

Perbedaan strategis ini mencerminkan model bisnis dan lingkungan regulasi yang bervariasi. Laboratorium China tampaknya menggunakan rilis open-source sebagai strategi kompetitif, berpotensi mengganggu model pendapatan berbasis inferensi dari perusahaan AI Barat sambil membangun pengaruh teknologi secara global.

Klaim performa model ini, jika diverifikasi, akan memposisikannya secara kompetitif melawan sistem proprietary seperti Gemini 2.5 Pro dan GPT-4 , menjadikannya pilihan menarik bagi organisasi yang mencari kemampuan AI yang kuat tanpa vendor lock-in atau pembatasan penggunaan.

Referensi: Qwen3-235B-A22B-Thinking-2507

Berita Terkait

‌

‌
‌

‌

‌
‌

‌