DeepSeek telah merilis V3.2-Exp, sebuah model AI eksperimental yang menciptakan kehebohan signifikan di komunitas teknologi karena berhasil mencapai sesuatu yang banyak orang anggap sulit: mengurangi biaya secara dramatis sambil menjaga performa tetap stabil. Model ini memperkenalkan DeepSeek Sparse Attention (DSA), pendekatan baru yang membuat pemrosesan urutan teks panjang menjadi jauh lebih efisien.
Penurunan Harga Dramatis Melanjutkan Tren Industri
Peluncuran ini hadir dengan penurunan harga API yang substansial sebesar 50%, menurunkan biaya menjadi 0,28 dolar Amerika Serikat per juta token input dan 0,42 dolar Amerika Serikat per juta token output. Penetapan harga yang agresif ini telah menarik perhatian para developer yang telah melacak penurunan cepat dalam biaya inferensi AI. Komunitas sangat antusias dengan tren ini, dengan beberapa pihak mencatat bahwa harga inferensi telah turun 10 kali lipat per tahun menurut studi terbaru.
Yang membuat penurunan harga ini sangat patut diperhatikan adalah bahwa ini bukan hanya langkah promosi sementara. Pengurangan biaya ini berasal dari perbaikan teknis yang nyata dalam arsitektur model, khususnya mekanisme sparse attention yang mengurangi kebutuhan komputasi selama inferensi.
Perbandingan Harga API
- Harga baru V3.2-Exp : $0.28/M token input, $0.42/M token output
- Mewakili pengurangan harga 50% dari versi sebelumnya
- Harga cache hit: $0.028/M token
Inovasi Teknis Mendorong Peningkatan Efisiensi
Bintang dari V3.2-Exp adalah sistem DeepSeek Sparse Attention, yang merepresentasikan langkah maju yang signifikan dalam membuat model AI lebih efisien. Tidak seperti mekanisme attention tradisional yang memproses setiap bagian input secara sama, sparse attention memfokuskan sumber daya komputasi pada bagian yang paling relevan dari urutan teks panjang.
Inovasi ini sangat berharga untuk aplikasi yang melibatkan dokumen besar, percakapan yang diperpanjang, atau tugas coding yang kompleks. Model ini mempertahankan kualitas output yang hampir identik dibandingkan dengan pendahulunya sambil menggunakan sumber daya komputasi yang jauh lebih sedikit.
Sparse attention: Teknik yang secara selektif fokus pada bagian yang relevan dari data input daripada memproses semuanya secara sama, mengurangi overhead komputasi.
Spesifikasi Teknis
- Arsitektur: DeepSeek Sparse Attention (DSA)
- Lisensi: MIT License
- Platform yang didukung: HuggingFace , SGLang , VLLM
- Kernel yang tersedia: TileLang (penelitian), CUDA (performa tinggi)
- Dukungan Docker : Beberapa varian untuk perangkat keras yang berbeda ( H200 , M1350 , NPUs )
Performa Benchmark Tetap Kompetitif
Meskipun fokus pada efisiensi, V3.2-Exp mempertahankan posisinya di berbagai metrik performa. Dalam tugas reasoning tanpa penggunaan tool, model ini menyamai atau sedikit melampaui pendahulunya di sebagian besar area. Untuk tantangan coding, model ini mencapai rating Codeforces sebesar 2121, naik dari 2046 pada versi sebelumnya.
Model ini juga menunjukkan peningkatan dalam beberapa skenario penggunaan tool agentic, dengan peningkatan yang notable dalam tugas browsing dan mempertahankan performa yang kuat dalam benchmark software engineering. Konsistensi ini di berbagai tugas yang beragam menunjukkan bahwa peningkatan efisiensi tidak mengorbankan kemampuan.
Tolok Ukur Kinerja Utama
Tolok Ukur | V3.1-Terminus | V3.2-Exp |
---|---|---|
MMLU-Pro | 85.0 | 85.0 |
AIME 2025 | 88.4 | 89.3 |
Codeforces | 2046 | 2121 |
SimpleQA | 96.8 | 97.1 |
BrowseComp | 38.5 | 40.1 |
Komitmen Open Source Memperkuat Ekosistem
DeepSeek melanjutkan komitmennya terhadap pengembangan open source dengan merilis model di bawah MIT License dan menyediakan detail implementasi yang komprehensif. Perusahaan telah menyediakan baik TileLang kernels yang berfokus pada penelitian maupun CUDA kernels berperforma tinggi melalui berbagai repositori.
Pendekatan ini mendapat pujian dari komunitas developer, yang menghargai akses terhadap bobot model dan detail implementasi yang mendasarinya. Ketersediaan berbagai opsi inferensi, termasuk dukungan HuggingFace, SGLang, dan VLLM, membuat model ini dapat diakses oleh berbagai jenis pengguna dan skenario deployment.
Peluncuran V3.2-Exp merepresentasikan lebih dari sekadar pembaruan model lainnya. Ini mendemonstrasikan bahwa industri AI dapat terus memberikan rasio harga-performa yang lebih baik melalui inovasi teknis yang nyata daripada hanya meningkatkan skala hardware. Saat komunitas terus mengeksplorasi kemampuan mekanisme sparse attention, rilis eksperimental ini mungkin akan menunjukkan jalan menuju masa depan sistem AI yang efisien.
Referensi: DeepSeek-V3.2-Exp