DeepSeek-V3.1-Terminus Merespons Masukan Pengguna dengan Perbaikan Konsistensi Bahasa dan Peningkatan Performa Agen

Tim Komunitas BigGo

DeepSeek-V3.1-Terminus Merespons Masukan Pengguna dengan Perbaikan Konsistensi Bahasa dan Peningkatan Performa Agen

DeepSeek telah merilis V3.1-Terminus, versi terbaru dari model bahasa mereka yang secara langsung merespons masukan komunitas tentang rilis V3.1 sebelumnya. Pembaruan ini berfokus pada perbaikan masalah pencampuran bahasa dan peningkatan kemampuan agen, sambil mempertahankan performa kompetitif di berbagai tolok ukur.

Peningkatan Utama dalam V3.1-Terminus:

Konsistensi Bahasa: Menghilangkan pencampuran bahasa Mandarin/Inggris dan masalah karakter acak
Performa Agen: Meningkatkan kemampuan Code Agent dan Search Agent
Peningkatan Benchmark: Perbaikan signifikan dalam tugas berbasis agen dan penalaran kompleks
Ketersediaan: Akses melalui aplikasi, web, API dengan bobot open-source di Hugging Face
Lisensi: Lisensi MIT yang memungkinkan penggunaan komersial


Gambar ini menyoroti perbandingan performa antara model DeepSeek V31 dan V31-Terminus, menekankan pembaruan dan peningkatan yang dibuat dalam versi terbaru

Masalah Konsistensi Bahasa Akhirnya Diperbaiki

Salah satu peningkatan paling signifikan dalam V3.1-Terminus mengatasi masalah pencampuran bahasa yang menjengkelkan yang mengganggu versi sebelumnya. Pengguna mengalami penyisipan karakter acak dan perpindahan yang tidak diinginkan antara teks bahasa Mandarin dan Inggris selama percakapan. Komunitas telah vokal tentang masalah ini, dengan banyak yang merasa masalah tersebut cukup mengganggu hingga beralih ke model alternatif meskipun performa tolok ukur V3.1 yang kuat.

Versi baru ini menjanjikan keluaran bahasa yang lebih bersih dan konsisten, yang seharusnya membuatnya lebih dapat diandalkan untuk aplikasi praktis di mana kualitas teks sama pentingnya dengan kemampuan teknis.

Peningkatan Performa Agen untuk Tugas Dunia Nyata

V3.1-Terminus menunjukkan peningkatan yang mencolok dalam tugas berbasis agen, khususnya dalam skenario pembuatan kode dan penjelajahan web. Model ini menunjukkan peningkatan signifikan dalam beberapa tolok ukur praktis, termasuk lompatan dari 30,0 ke 38,5 pada BrowseComp dan peningkatan dalam tugas rekayasa perangkat lunak seperti SWE Verified dan SWE-bench Multilingual.

Peningkatan agen ini mengatasi kekhawatiran komunitas lainnya tentang kemampuan model untuk menangani tugas kompleks multi-langkah yang memerlukan penggunaan alat dan interaksi eksternal.

Perbandingan Performa: DeepSeek-V3.1 vs V3.1-Terminus

Benchmark	V3.1	V3.1-Terminus	Perubahan
Tugas Penalaran
MMLU-Pro	84.8	85.0	+0.2
GPQA-Diamond	80.1	80.7	+0.6
Humanity's Last Exam	15.9	21.7	+5.8
Tugas Agen
BrowseComp	30.0	38.5	+8.5
SimpleQA	93.4	96.8	+3.4
SWE Verified	66.0	68.4	+2.4
Terminal-bench	31.3	36.7	+5.4

Penerimaan Komunitas dan Kekhawatiran yang Berkelanjutan

Meskipun pembaruan mengatasi masalah teknis utama, beberapa anggota komunitas tetap berhati-hati terhadap kecenderungan model untuk membuat asumsi tentang masukan pengguna. Pengguna telah melaporkan kejadian di mana model mengabaikan detail spesifik atau mengoreksi permintaan pengguna berdasarkan apa yang dianggapnya wajar, daripada mengikuti instruksi dengan tepat.

Saya mencoba V3.1 tetapi itu membuat saya gila karena mengabaikan bagian dari masukan pengguna, yang tidak pernah dilakukan R1.

Model ini sekarang tersedia melalui aplikasi DeepSeek, antarmuka web, dan API, dengan bobot sumber terbuka dirilis di Hugging Face di bawah lisensi MIT. Pendekatan lisensi ini melanjutkan komitmen DeepSeek untuk membuat model mereka dapat diakses untuk penggunaan penelitian dan komersial.

Meskipun ada peningkatan, komunitas AI terus memperdebatkan trade-off antara performa tolok ukur dan kegunaan praktis, dengan beberapa pengguna lebih memilih model lama yang mungkin skornya lebih rendah pada tes tetapi berperilaku lebih dapat diprediksi dalam skenario dunia nyata.

Referensi: DeepSeek-V3.1-Terminus

Berita Terkait

‌

‌
‌

‌

‌
‌

‌