Dalam langkah yang terus membentuk kembali lanskap kompetitif model bahasa besar, laboratorium kecerdasan buatan asal Tiongkok, DeepSeek, secara bersamaan merilis dua model baru yang kuat. Diumumkan pada 1 Desember, DeepSeek-V3.2 dan rekan khususnya, DeepSeek-V3.2-Speciale, mewakili lompatan signifikan dalam kemampuan penalaran dan utilitas praktis untuk kecerdasan buatan sumber terbuka. Peluncuran ini, yang bertepatan dengan konferensi bergengsi NeurIPS 2025, telah memicu diskusi di komunitas penelitian kecerdasan buatan global, karena model-model tersebut menunjukkan kinerja yang menyaingi penawaran terbaru dari raksasa industri OpenAI dan Google DeepMind. Analisis ini menyelami inovasi teknis, hasil tolok ukur, dan implikasi strategis dari rilis terbaru DeepSeek.
Rilis Strategi Ganda untuk Kebutuhan Berbeda
Strategi DeepSeek dengan peluncuran ini jelas terbagi dua, menargetkan baik kegunaan sehari-hari maupun puncak kekuatan penalaran mentah. Model standar DeepSeek-V3.2 diposisikan sebagai kuda pekerja yang seimbang, dirancang untuk penggunaan harian yang efisien dalam skenario tanya jawab dan tugas Agen umum. Tujuannya adalah memberikan penalaran yang kuat tanpa biaya komputasi berlebihan atau waktu tunggu pengguna yang lama. Sebaliknya, DeepSeek-V3.2-Speciale adalah model spesialis "pemikiran-panjang". Model ini menghilangkan batasan pada kedalaman penalaran untuk mendorong batas pemecahan masalah kompleks, khususnya unggul dalam pembuktian matematika, verifikasi logika, dan kompetisi pemrograman. Pendekatan ganda ini memungkinkan DeepSeek melayani spektrum pengguna yang luas, dari pengembang yang membangun aplikasi hingga peneliti yang menangani tantangan terdepan.
Perbandingan Model: Seri DeepSeek-V3.2
| Fitur | DeepSeek-V3.2 | DeepSeek-V3.2-Speciale |
|---|---|---|
| Fokus Utama | Kinerja seimbang untuk penggunaan sehari-hari | Penalaran ekstrem, eksplorasi batas kemampuan |
| Inovasi Kunci | DSA (DeepSeek Sparse Attention) untuk efisiensi | Peningkatan pemikiran panjang, pembuktian teorema Math-V2 |
| Patokan Kinerja yang Dilaporkan | Setara dengan GPT-5, sedikit di bawah Gemini 3.0 Pro | Kinerja setara dengan Gemini 3.0 Pro |
| Penggunaan Agen/Alat | Dukungan penuh, dengan pemikiran terintegrasi | Tidak didukung (hanya untuk penelitian) |
| Klaim Kompetisi | N/A | Medali emas di IMO 2025, CMO 2025, ICPC 2025, IOI 2025 |
| Ketersediaan Saat Ini | Web/App/API Resmi | API sementara untuk evaluasi penelitian/komunitas |
| Contoh Biaya | ~USD 0.0032 untuk ~8k token (T&J kompleks) | Konsumsi token lebih tinggi, tetapi biaya per token rendah |
Kinerja Tolok Ukur: Menutup Kesenjangan dengan Pemimpin
Klaim kinerjanya sangat berani. Menurut laporan teknis DeepSeek dan tolok ukur pendampingnya, model V3.2 mencapai kinerja penalaran setara dengan GPT-5 milik OpenAI, meskipun sedikit tertinggal di belakang Gemini 3.0 Pro milik Google. Namun, V3.2-Speciale dilaporkan menyamai kinerja Gemini 3.0 Pro pada tolok ukur penalaran arus utama. Yang lebih mencolok, versi Speciale diklaim telah meraih kinerja tingkat medali emas dalam kompetisi akademik elit, termasuk Olimpiade Matematika Internasional (IMO 2025) dan Olimpiade Informatika Internasional (IOI 2025), dengan skor ICPC-nya dilaporkan setara dengan finis kedua manusia. Hasil ini, jika diverifikasi secara independen, menandakan bahwa model sumber terbuka tingkat atas tidak lagi hanya mengejar model berpemilik, tetapi mencapai kesetaraan nyata dalam domain spesifik berisiko tinggi.
Inovasi Arsitektur: Mesin Efisiensi DSA
Kemajuan teknis inti yang memungkinkan kinerja V3.2 adalah adopsi formal DeepSeek Sparse Attention (DSA). Mekanisme perhatian tradisional menderita peningkatan biaya komputasi kuadratik seiring pertumbuhan panjang input, membuat pemrosesan konteks panjang menjadi sangat mahal. DSA mengatasi ini dengan memperkenalkan "pengindeks kilat" yang memilih hanya token historis paling relevan untuk setiap kueri baru, secara drastis mengurangi kompleksitas. Hasilnya adalah model yang mempertahankan kinerja sambil memotong biaya inferensi pada urutan panjang. Tolok ukur menunjukkan bahwa pada panjang konteks 128 ribu token, biaya pengisian awal V3.2 turun menjadi sekitar 0,2 dolar AS per juta token dari 0,7 dolar AS untuk pendahulunya, dengan pengurangan serupa dalam biaya dekode. Keuntungan efisiensi ini sangat penting untuk penyebaran dan skalabilitas dunia nyata.
Klaim Kinerja & Efisiensi
- Pengurangan Biaya Penalaran (DSA): Pada panjang konteks 128k, biaya pra-pengisian berkurang dari ~USD 0,7 menjadi ~USD 0,2 per juta token dibandingkan dengan V3.1-Terminus. Biaya dekode berkurang dari ~USD 2,4 menjadi ~USD 0,8 per juta token.
- Investasi Pasca-Pelatihan: Anggaran komputasi pelatihan Reinforcement Learning (RL) melebihi 10% dari total biaya pra-pelatihan.
- Data Pelatihan Agen: Dilatih pada pipeline sintetis yang menghasilkan 1.827 lingkungan dan lebih dari 85.000 prompt kompleks.
- Catatan Efisiensi Token: Model mungkin memerlukan keluaran yang lebih panjang (lebih banyak token) untuk menyamai kualitas model closed-source terkemuka, tetapi dengan total biaya yang jauh lebih rendah.
Investasi Besar dalam Pasca-Pelatihan
Makalah teknis DeepSeek menyoroti pergeseran strategi yang signifikan: investasi besar dalam pembelajaran penguatan selama fase pasca-pelatihan. Perusahaan menyatakan bahwa anggaran komputasi untuk pelatihan pembelajaran penguatan melebihi 10% dari total biaya pra-pelatihan, tingkat investasi yang digambarkan sebagai "langka di dunia sumber terbuka." Fase "bimbingan" intensif ini, yang mencakup pelatihan khusus pada matematika, pemrograman, dan tugas agen, dikreditkan dengan membuka kemampuan lanjutan model-model tersebut. Pendekatan ini mengatasi kelemahan historis model sumber terbuka, yang sering memiliki pelatihan dasar yang solid tetapi kurang penyetelan halus yang berfokus pada ujian seperti rekan-rekan tertutupnya.
Terobosan dalam Kemampuan Agen dan Penggunaan Alat
Mungkin peningkatan yang paling signifikan secara praktis dalam V3.2 adalah peningkatan fungsionalitas Agen-nya. Ini adalah model pertama DeepSeek yang mengintegrasikan "pemikiran" dengan penggunaan alat secara mulus. Sebelumnya, ketika model memanggil alat eksternal, rantai penalaran internalnya dibuang, memaksanya untuk memulai dari awal ketika alat mengembalikan hasil. V3.2 memodifikasi logika ini, melestarikan konteks penalaran sepanjang interaksi penggunaan alat dan hanya mengatur ulang ketika kueri pengguna baru tiba. Hal ini mengarah pada pemecahan masalah multi-langkah yang lebih koheren dan efisien. Untuk melatih kemampuan ini, DeepSeek mengembangkan pipa sintetis baru, menghasilkan lebih dari 1.800 lingkungan berorientasi tugas dan 85.000 perintah kompleks, yang memungkinkan pelatihan yang dapat diskalakan dalam skenario interaktif yang beragam.
Keterbatasan yang Diakui dan Persamaan Biaya-Kinerja
Dalam tampilan transparansi yang menyegarkan, laporan teknis DeepSeek secara terbuka membahas keterbatasan model-model tersebut. Tantangan utama adalah efisiensi token: kedua model baru sering perlu menghasilkan jejak penalaran yang lebih panjang (menggunakan lebih banyak token) untuk mencapai kualitas keluaran yang sebanding dengan model tertutup terkemuka seperti Gemini 3.0 Pro. Ini terutama berlaku untuk versi Speciale, yang dioptimalkan untuk kedalaman daripada keringkasan. Namun, kelemahan ini diimbangi oleh penetapan harga agresif DeepSeek. Sebuah uji komparatif yang dikutip dalam satu laporan menunjukkan bahwa sementara menjawab pertanyaan kompleks membutuhkan sekitar 60% lebih banyak token dari DeepSeek-V3.2-Speciale dibandingkan dari Gemini 3.0 Pro, total biayanya jauh lebih rendah—sekitar 0,0032 dolar AS versus 0,06 dolar AS. Rasio harga-kinerja yang menarik ini bisa menjadi pembeda utama bagi pengembang dan perusahaan yang sensitif terhadap biaya.
Dampak Lebih Luas pada Ekosistem Kecerdasan Buatan
Rilis konsisten dan cepat DeepSeek—ini adalah peluncuran model kesembilan tahun ini—merupakan contoh pendekatan pengembangan kecerdasan buatan yang terbuka dan gesit, berbeda dengan siklus rilis yang lebih lambat dan lebih dijaga dari laboratorium utama AS. Seri V3.2 memperkuat tren bahwa model sumber terbuka Tiongkok bukan hanya alternatif yang layak, tetapi menjadi pemimpin dalam inovasi algoritmik, khususnya di area seperti efisiensi model. Seperti dicatat oleh analis, persaingan ini menguntungkan seluruh bidang dengan mendemokratisasi akses ke kemampuan mutakhir dan mendorong semua pemain menuju efisiensi dan utilitas yang lebih besar. Sementara model "R2" yang dinantikan masih ditunggu, peluncuran V3.2 membuatnya jelas bahwa DeepSeek adalah kekuatan yang tangguh dan persisten, memastikan bahwa perlombaan supremasi kecerdasan buatan pada 2026 akan lebih dinamis dan beragam dari sebelumnya.
