Model AI MiMo-V2-Flash Xiaomi Menjadi Open-Source, Janjikan Performa Unggulan dengan Biaya yang Jauh Lebih Murah

Tim Editorial BigGo

Model AI MiMo-V2-Flash Xiaomi Menjadi Open-Source, Janjikan Performa Unggulan dengan Biaya yang Jauh Lebih Murah

Dalam langkah signifikan di tengah persaingan ketat lanskap AI, raksasa teknologi China Xiaomi secara resmi meluncurkan dan membuka sumber model bahasa besar terbarunya, MiMo-V2-Flash. Diumumkan pada Konferensi Mitra Ekosistem Manusia-Mobil-Rumah Xiaomi 2025, model ini diposisikan sebagai alternatif berkinerja tinggi dan hemat biaya dari penawaran open-source terkemuka, dengan skor benchmark yang mengesankan dan arsitektur yang dirancang secara radikal untuk kecepatan.

Kontestan Baru di Arena Open-Source

MiMo-V2-Flash dari Xiaomi memasuki bidang yang ramai dengan proposisi berani: menyamai kemampuan model kelas atas seperti DeepSeek-V3.2 dan Kimi-K2 sambil secara dramatis mengurangi biaya operasional. Model ini menggunakan arsitektur Mixture of Experts (MoE) dengan total 309 miliar parameter, di mana 15 miliar di antaranya aktif selama inferensi. Pilihan desain ini adalah kunci efisiensinya, memungkinkannya memberikan penalaran kompleks tanpa beban komputasi dari mengaktifkan seluruh set parameternya untuk setiap tugas. Di bawah lisensi MIT yang permisif, bobot dasar model kini tersedia di Hugging Face, mengundang pengembang dan peneliti untuk bereksperimen dan membangun di atasnya.

Spesifikasi Model & Harga

Arsitektur: Mixture of Experts (MoE)
Total Parameter: 309 Miliar
Parameter Aktif: 15 Miliar
Jendela Konteks: 256k token
Kecepatan Inferensi: ~150 token/detik
Harga: USD 0.1 per juta token (input), USD 0.3 per juta token (output)
Lisensi: MIT (sumber terbuka)

Dirancang untuk Kecepatan dan Keterjangkauan

Inovasi inti dari MiMo-V2-Flash terletak pada optimisasi arsitekturnya, yang menargetkan dua tujuan ganda: kecepatan inferensi yang sangat tinggi dan biaya rendah. Xiaomi mengklaim model ini mencapai kecepatan generasi 150 token per detik. Yang lebih mencolok, model ini mendorong harga inferensi AI turun menjadi USD 0,1 per juta token untuk input dan USD 0,3 per juta token untuk output, menetapkan tolok ukur baru untuk keterjangkauan. Hal ini dicapai melalui dua teknologi kunci. Pertama, mekanisme perhatian sliding window hibrida secara drastis mengurangi memori yang diperlukan untuk memproses konteks panjang dengan faktor hampir enam, sementara masih mendukung jendela konteks 256k token. Kedua, modul prediksi multi-token asli (MTP) memungkinkan model memprediksi beberapa token masa depan secara paralel, mempercepat inferensi sebanyak 2 hingga 2,6 kali.

Inovasi Teknis Inti

Perhatian Jendela Geser Hibrida: Menggunakan rasio 5:1 dari lapisan perhatian jendela geser (128 token) ke perhatian global, mengurangi memori cache KV hingga ~6x.
Prediksi Multi-Token (MTP): Secara native memprediksi rata-rata 2,8-3,6 token secara paralel, mempercepat inferensi sebesar 2,0-2,6x.
Distilasi Kebijakan Online Multi-Guru (MOPD): Metode pelatihan yang diklaim 50x lebih efisien secara komputasi daripada pipeline RL tradisional.

Performa Benchmark dan Kemampuan

Hasil benchmark awal menggambarkan model yang sangat mampu, khususnya di domain teknis. Dalam pemrograman, MiMo-V2-Flash mencetak skor 73,4% pada tes SWE-bench Verified, yang melibatkan perbaikan bug perangkat lunak dunia nyata—hasil yang dilaporkan melampaui semua model open-source lainnya dan mendekati kinerja sistem closed-source canggih. Model ini juga berkinerja kuat dalam tes matematika dan pengetahuan ilmiah, menempati peringkat dua teratas di antara model open-source. Di luar benchmark mentah, model ini dilengkapi untuk aplikasi praktis, mendukung pemikiran mendalam, pencarian web, dan interaksi agen multi-putaran yang kompleks. Kinerjanya dalam tugas berbasis agen, seperti simulasi komunikasi dan ritel, lebih lanjut menunjukkan kemampuannya untuk memahami dan menjalankan operasi logis multi-langkah.

Skor Tolok Ukur Utama

SWE-bench Verified (Perbaikan Kode/Bug): 73,4%
SWE-Bench Multilingual: 71,7%
Tolok Ukur Agen (τ²-Bench): Komunikasi: 95,3 Ritel: 79,5 Penerbangan: 66,0 BrowseComp Search Agent: 45,4 (58,3 dengan manajemen konteks)

Pendekatan Baru dalam Pelatihan Model

Laporan teknis Xiaomi menyoroti metodologi pelatihan yang tidak konvensional dan efisien yang dijuluki Multi-Teacher Online Policy Distillation (MOPD). Pendekatan ini bergerak menjauh dari pipeline tradisional yang mahal secara komputasi, yaitu fine-tuning terawasi diikuti oleh pembelajaran penguatan. Sebagai gantinya, model siswa (MiMo-V2-Flash) menghasilkan outputnya sendiri, dan beberapa model guru ahli memberikan umpan balik per-token yang padat. Metode ini diklaim 50 kali lebih efisien secara komputasi, memungkinkan model siswa belajar dengan cepat dan mencapai kinerja puncak guru dengan sumber daya yang jauh lebih sedikit. Kerangka kerja ini juga memungkinkan siklus saling memperkuat di mana siswa yang mahir nantinya dapat menjadi guru untuk iterasi model berikutnya.

Posisi untuk Masa Depan Agen AI

Eksekutif Xiaomi, termasuk Presiden Lu Weibing dan kepala MiMo yang baru diangkat Luo Fuli, membingkai rilis ini sebagai lebih dari sekadar model lain. Mereka menggambarkan MiMo-V2-Flash sebagai "fondasi bahasa baru untuk era Agen," menekankan perannya dalam membangun sistem yang tidak hanya mensimulasikan bahasa tetapi memahami dan berinteraksi dengan dunia. Jendela konteks panjang model dan kemampuan integrasinya dengan alat pengembang seperti Claude Code dan Cursor ditujukan untuk menjadikannya asisten praktis sehari-hari untuk pengkodean dan otomatisasi tugas kompleks. Dengan API model yang saat ini ditawarkan secara gratis untuk waktu terbatas, Xiaomi jelas bertujuan untuk adopsi cepat dan umpan balik komunitas untuk mendorong evolusinya di ruang AI yang bergerak cepat.

Berita Terkait

‌

‌
‌

‌

‌
‌

‌