DeepSeek-V3.1-Terminus Merespons Masukan Pengguna dengan Perbaikan Konsistensi Bahasa dan Peningkatan Performa Agen

Tim Komunitas BigGo
DeepSeek-V3.1-Terminus Merespons Masukan Pengguna dengan Perbaikan Konsistensi Bahasa dan Peningkatan Performa Agen

DeepSeek telah merilis V3.1-Terminus, versi terbaru dari model bahasa mereka yang secara langsung merespons masukan komunitas tentang rilis V3.1 sebelumnya. Pembaruan ini berfokus pada perbaikan masalah pencampuran bahasa dan peningkatan kemampuan agen, sambil mempertahankan performa kompetitif di berbagai tolok ukur.

Peningkatan Utama dalam V3.1-Terminus:

  • Konsistensi Bahasa: Menghilangkan pencampuran bahasa Mandarin/Inggris dan masalah karakter acak
  • Performa Agen: Meningkatkan kemampuan Code Agent dan Search Agent
  • Peningkatan Benchmark: Perbaikan signifikan dalam tugas berbasis agen dan penalaran kompleks
  • Ketersediaan: Akses melalui aplikasi, web, API dengan bobot open-source di Hugging Face
  • Lisensi: Lisensi MIT yang memungkinkan penggunaan komersial
Gambar ini menyoroti perbandingan performa antara model DeepSeek V31 dan V31-Terminus, menekankan pembaruan dan peningkatan yang dibuat dalam versi terbaru
Gambar ini menyoroti perbandingan performa antara model DeepSeek V31 dan V31-Terminus, menekankan pembaruan dan peningkatan yang dibuat dalam versi terbaru

Masalah Konsistensi Bahasa Akhirnya Diperbaiki

Salah satu peningkatan paling signifikan dalam V3.1-Terminus mengatasi masalah pencampuran bahasa yang menjengkelkan yang mengganggu versi sebelumnya. Pengguna mengalami penyisipan karakter acak dan perpindahan yang tidak diinginkan antara teks bahasa Mandarin dan Inggris selama percakapan. Komunitas telah vokal tentang masalah ini, dengan banyak yang merasa masalah tersebut cukup mengganggu hingga beralih ke model alternatif meskipun performa tolok ukur V3.1 yang kuat.

Versi baru ini menjanjikan keluaran bahasa yang lebih bersih dan konsisten, yang seharusnya membuatnya lebih dapat diandalkan untuk aplikasi praktis di mana kualitas teks sama pentingnya dengan kemampuan teknis.

Peningkatan Performa Agen untuk Tugas Dunia Nyata

V3.1-Terminus menunjukkan peningkatan yang mencolok dalam tugas berbasis agen, khususnya dalam skenario pembuatan kode dan penjelajahan web. Model ini menunjukkan peningkatan signifikan dalam beberapa tolok ukur praktis, termasuk lompatan dari 30,0 ke 38,5 pada BrowseComp dan peningkatan dalam tugas rekayasa perangkat lunak seperti SWE Verified dan SWE-bench Multilingual.

Peningkatan agen ini mengatasi kekhawatiran komunitas lainnya tentang kemampuan model untuk menangani tugas kompleks multi-langkah yang memerlukan penggunaan alat dan interaksi eksternal.

Perbandingan Performa: DeepSeek-V3.1 vs V3.1-Terminus

Benchmark V3.1 V3.1-Terminus Perubahan
Tugas Penalaran
MMLU-Pro 84.8 85.0 +0.2
GPQA-Diamond 80.1 80.7 +0.6
Humanity's Last Exam 15.9 21.7 +5.8
Tugas Agen
BrowseComp 30.0 38.5 +8.5
SimpleQA 93.4 96.8 +3.4
SWE Verified 66.0 68.4 +2.4
Terminal-bench 31.3 36.7 +5.4

Penerimaan Komunitas dan Kekhawatiran yang Berkelanjutan

Meskipun pembaruan mengatasi masalah teknis utama, beberapa anggota komunitas tetap berhati-hati terhadap kecenderungan model untuk membuat asumsi tentang masukan pengguna. Pengguna telah melaporkan kejadian di mana model mengabaikan detail spesifik atau mengoreksi permintaan pengguna berdasarkan apa yang dianggapnya wajar, daripada mengikuti instruksi dengan tepat.

Saya mencoba V3.1 tetapi itu membuat saya gila karena mengabaikan bagian dari masukan pengguna, yang tidak pernah dilakukan R1.

Model ini sekarang tersedia melalui aplikasi DeepSeek, antarmuka web, dan API, dengan bobot sumber terbuka dirilis di Hugging Face di bawah lisensi MIT. Pendekatan lisensi ini melanjutkan komitmen DeepSeek untuk membuat model mereka dapat diakses untuk penggunaan penelitian dan komersial.

Meskipun ada peningkatan, komunitas AI terus memperdebatkan trade-off antara performa tolok ukur dan kegunaan praktis, dengan beberapa pengguna lebih memilih model lama yang mungkin skornya lebih rendah pada tes tetapi berperilaku lebih dapat diprediksi dalam skenario dunia nyata.

Referensi: DeepSeek-V3.1-Terminus