MiniMax telah merilis model M1 mereka, sebuah model reasoning dengan 456 miliar parameter yang memicu diskusi sengit tentang apa yang sebenarnya dibutuhkan untuk menjalankan AI canggih secara lokal. Meskipun perusahaan mengklaim ini adalah model reasoning hybrid-attention open-weight pertama di dunia, komunitas lebih fokus pada pertanyaan praktis: apakah Anda benar-benar membutuhkan setup seperempat juta dollar untuk menggunakannya?
Spesifikasi Utama MiniMax-M1
- Total Parameter: 456 miliar
- Parameter Aktif: 45,9 miliar per token (arsitektur MoE)
- Panjang Konteks: 1 juta token (8x lebih besar dari DeepSeek R1)
- Arsitektur: Hybrid attention (87,5% linear + 12,5% softmax)
- Biaya Pelatihan: $534.700 USD untuk bagian RL (512 GPU H800, 3 minggu)
- Klaim Efisiensi: 25% dari FLOPs DeepSeek R1 pada generasi 100K token
Perdebatan 250 Ribu Dollar AS vs 8,5 Ribu Dollar AS
Rekomendasi hardware awal menyarankan pengguna memerlukan 8x GPU H200 dengan memori 141GB, dengan total sekitar 250.000 dollar AS. Harga yang mencengangkan ini langsung menarik perhatian komunitas, tetapi tidak semua orang setuju bahwa ini diperlukan. Beberapa pengguna berargumen bahwa Mac Studio dengan memori 512GB, yang berharga sekitar 8.500 dollar AS, dapat menangani model tersebut dengan baik menggunakan teknik kuantisasi yang tepat.
Perbedaan pendapat berpusat pada kuantisasi model - sebuah teknik yang mengurangi presisi bobot model untuk menghemat memori. Sementara beberapa anggota komunitas melaporkan bahwa kuantisasi Q8 mempertahankan performa yang hampir identik dan Q4 menunjukkan penurunan kualitas yang terukur namun dapat diterima, yang lain tetap skeptis tentang model yang dikuantisasi berat dapat berkinerja sebaik rekan-rekan mereka dengan presisi penuh.
Perbandingan Kebutuhan Hardware
Setup | Biaya (USD) | Memori | Kasus Penggunaan |
---|---|---|---|
8x H200 GPUs | $250,000 | 141GB masing-masing | Inferensi presisi penuh |
Mac Studio | $8,500 | 512GB unified | Inferensi terkuantisasi |
Opsi kuantisasi | - | Q8: ~tidak ada kehilangan kualitas, Q4: kehilangan terukur namun dapat diterima | Deployment yang hemat biaya |
Lightning Attention dan Klaim Efisiensi
Pendekatan teknis MiniMax menggabungkan apa yang mereka sebut lightning attention dengan arsitektur hybrid Mixture-of-Experts. Model ini menggunakan 87,5% linear attention dan 12,5% traditional softmax attention, yang diklaim perusahaan memungkinkan scaling yang efisien selama inference. Mereka melaporkan bahwa model mereka hanya mengonsumsi 25% dari operasi komputasi dibandingkan dengan DeepSeek R1 saat menghasilkan 100.000 token.
Model ini mendukung panjang konteks yang mengesankan yaitu 1 juta token - delapan kali lebih besar dari jendela konteks DeepSeek R1. Kemampuan konteks yang diperluas ini, dikombinasikan dengan mekanisme attention mereka, memposisikan model untuk tugas-tugas kompleks yang memerlukan pemrosesan input ekstensif.
Linear attention: Mekanisme attention yang disederhanakan yang menggunakan memory bank berukuran tetap alih-alih menghitung attention di semua token sebelumnya, membuatnya lebih efisien untuk urutan yang panjang.
Biaya Training dan Pertanyaan Geografis
Mungkin yang paling menarik adalah klaim MiniMax tentang melatih bagian reinforcement learning hanya dengan biaya 534.700 dollar AS menggunakan 512 GPU H800 selama tiga minggu. Biaya training yang relatif sederhana ini telah menimbulkan keheranan di komunitas, dengan beberapa orang bertanya-tanya tentang infrastruktur dan metode yang digunakan untuk mencapai efisiensi tersebut.
Identitas geografis perusahaan juga menjadi titik diskusi. Meskipun profil LinkedIn mereka mencantumkan Singapura sebagai basis mereka, dan mereka mengoperasikan operasi internasional melalui entitas Singapura, perusahaan inti tampaknya berbasis di Shanghai. Ambiguitas geografis ini, dikombinasikan dengan pencapaian teknis mereka yang mengesankan dan rencana IPO yang akan datang di Hong Kong, telah menambahkan lapisan intrik lain pada cerita mereka.
Sorotan Performa vs Kompetitor
Kategori | MiniMax-M1-80K | DeepSeek-R1-0528 | Qwen3-235B |
---|---|---|---|
AIME 2024 | 86.0 | 91.4 | 85.7 |
SWE-bench Verified | 56.0 | 57.6 | 34.4 |
Long Context (128k) | 73.4 | 51.5 | 27.7 |
TAU-bench (airline) | 62.0 | 53.5 | 34.7 |
Cetak tebal menunjukkan performa terbaik dalam kategori
Reality Check Performa
Terlepas dari perdebatan biaya hardware, performa benchmark MiniMax-M1 menceritakan kisah yang beragam. Meskipun unggul dalam tugas konteks panjang dan menunjukkan performa yang kuat dalam benchmark software engineering seperti SWE-bench Verified, ia tertinggal dari kompetitor seperti DeepSeek-R1-0528 di beberapa area kunci termasuk matematika dan tugas reasoning umum.
Kekuatan model tampaknya terletak pada aplikasi khusus daripada reasoning tujuan umum, yang mungkin menjelaskan mengapa perdebatan kebutuhan hardware sangat penting - pengguna ingin tahu apakah investasi tersebut sepadan untuk kasus penggunaan spesifik mereka.
Saat komunitas AI terus mendorong ke arah deployment model lokal, MiniMax-M1 mewakili baik janji maupun tantangan praktis dalam menjalankan sistem AI canggih di luar lingkungan cloud. Apakah memerlukan anggaran data center atau dapat berjalan pada hardware konsumen kelas atas mungkin pada akhirnya akan menentukan adopsi dunia nyata.
Referensi: MiniMax-M1