DeepSeek-V3.1 Menunjukkan Peningkatan Benchmark yang Kuat Namun Menghadapi Masalah Format Tool dan Kekhawatiran Harga

Tim Komunitas BigGo

DeepSeek-V3.1 Menunjukkan Peningkatan Benchmark yang Kuat Namun Menghadapi Masalah Format Tool dan Kekhawatiran Harga

DeepSeek telah merilis model AI terbaru mereka, DeepSeek-V3.1 , yang menandai apa yang perusahaan sebut sebagai langkah pertama kami menuju era agen. Model reasoning hibrid ini memperkenalkan mode berpikir dan non-berpikir dalam satu sistem, menjanjikan pemrosesan yang lebih cepat dan kemampuan agen yang lebih kuat. Namun, pengalaman pengguna awal menunjukkan penerimaan yang beragam, dengan peningkatan benchmark yang mengesankan terkalahkan oleh tantangan implementasi praktis.

Spesifikasi dan Pembaruan Model

Model Dasar: Pelatihan lanjutan 840B token untuk ekstensi konteks panjang
Fitur Baru: Mode Hybrid Think/Non-Think melalui tombol " DeepThink "
Dukungan API: Kompatibilitas format API Anthropic
Function Calling: Strict Function Calling dalam Beta API
Open Source: Tersedia di Hugging Face (versi Base dan Chat)
Tokenizer: Konfigurasi tokenizer yang diperbarui dan template chat

Peningkatan Performa Signifikan di Seluruh Benchmark Utama

Model baru ini menunjukkan peningkatan substansial di berbagai metrik evaluasi. Pada tes SWE-bench Verified , DeepSeek-V3.1 mencapai skor 66,0, secara signifikan mengungguli pendahulunya V3-0324 (45,4) dan model R1-0528 (44,6). Peningkatan ini meluas ke tugas coding multibahasa dan operasi terminal, di mana model ini mencetak skor 54,5 pada SWE-bench Multilingual dan 31,3 pada Terminal-Bench . Hasil ini memposisikan model tersebut secara kompetitif di antara alternatif open-weight, meskipun diskusi komunitas mencatat bahwa model ini masih tertinggal dari model proprietary seperti GPT-5 dan Claude 4 pada benchmark tertentu.

Perbandingan Performa Benchmark DeepSeek-V3.1

Benchmark	DeepSeek-V3.1	DeepSeek-V3-0324	DeepSeek-R1-0528
SWE-bench Verified	66.0	45.4	44.6
SWE-bench Multilingual	54.5	29.3	30.5
Terminal-Bench	31.3	13.3	5.7
Browsecomp	30.0	-	8.9
xbench-DeepSearch	71.2	-	55.0

Inkonsistensi Format Tool Menciptakan Tantangan Integrasi

Meskipun ada peningkatan performa, developer melaporkan masalah kompatibilitas yang membuat frustasi dengan fungsi pemanggilan tool. Model ini secara tidak konsisten beralih antara standar format yang berbeda, terkadang menggunakan tag bergaya XML dan di lain waktu menggunakan sistem delimiter khusus alih-alih format JSON standar. Ketidakpastian ini memaksa developer untuk membangun dukungan untuk berbagai format dalam aplikasi mereka, menciptakan kompleksitas tambahan yang tidak diperlukan oleh model pesaing seperti Claude dan GPT-5 .

Terkadang model ini akan secara acak menghasilkan sesuatu seperti ini di dalam tubuh teks... Memintanya untuk menggunakan format yang benar tampaknya tidak berhasil.


Ikhtisar Rilis API DeepSeek-V31 , menyoroti pembaruan utama dan potensi tantangan integrasi alat

Strategi Harga Menimbulkan Pertanyaan Aksesibilitas

Struktur harga model ini telah memicu perdebatan tentang efektivitas biaya. Dengan biaya input mulai dari 0,07 dolar Amerika Serikat per juta token untuk cache hit hingga 0,56 dolar Amerika Serikat untuk cache miss, dan harga output sebesar 1,68 dolar Amerika Serikat per juta token, beberapa pengguna menyatakan kekhawatiran tentang keterjangkauan. Perubahan harga berlaku efektif mulai 5 September 2025, pukul 16:00 UTC , memberikan waktu bagi pengguna untuk mengevaluasi rasio biaya-manfaat terhadap peningkatan performa.

Struktur Harga API (Berlaku 5 September 2025, 16:00 UTC)

Harga Input:
- Cache hit: $0,07 USD / 1M token
- Cache miss: $0,56 USD / 1M token
Harga Output: $1,68 USD / 1M token
Panjang Konteks: 128K token untuk kedua mode
Endpoint API:
- deepseek-chat → mode non-thinking
- deepseek-reasoner → mode thinking

Kompetisi dari Model Alternatif

Diskusi komunitas menyoroti persaingan kuat dari rilis terbaru lainnya, khususnya model Qwen3 235B 2507 Reasoning , yang beberapa pengguna lebih suka untuk skenario deployment lokal. Ketersediaan alternatif efisien yang dapat berjalan pada perangkat keras konsumen dengan RAM 24-32 GB menyediakan opsi menarik bagi developer yang mencari solusi hemat biaya tanpa bergantung pada layanan API .

Rilis ini mewakili kemajuan teknis yang notable dalam kemampuan reasoning AI , tetapi adopsi praktis mungkin bergantung pada penyelesaian masalah integrasi tool dan menunjukkan nilai yang jelas pada tingkat harga yang diumumkan. Seperti yang dicatat oleh satu anggota komunitas, pengujian dunia nyata sering memberikan wawasan yang lebih baik daripada skor benchmark saja.

Referensi: DeepSeek-V3.1 Release

Berita Terkait

‌

‌
‌

‌

‌
‌

‌