MiniMax Merilis Model AI M1 Open-Source dengan 456 Miliar Parameter dengan Biaya Pelatihan 200x Lebih Rendah dari GPT-4

Tim Editorial BigGo

MiniMax Merilis Model AI M1 Open-Source dengan 456 Miliar Parameter dengan Biaya Pelatihan 200x Lebih Rendah dari GPT-4

Perusahaan AI Tiongkok MiniMax telah mengungkap apa yang diklaim sebagai model penalaran arsitektur campuran skala besar open-source pertama di dunia, yang berpotensi mengganggu ekonomi pengembangan kecerdasan buatan. Model M1 merupakan tantangan signifikan bagi pemain mapan seperti OpenAI dan Anthropic, menjanjikan performa yang sebanding dengan biaya yang jauh lebih rendah.


Perbandingan kinerja benchmark MiniMax M1 terhadap model-model AI terdepan lainnya

Ekonomi Pelatihan yang Revolusioner

Klaim paling mencolok MiniMax berpusat pada efisiensi pelatihan. Perusahaan melaporkan hanya menghabiskan 534.700 dolar Amerika Serikat untuk sumber daya komputasi pusat data untuk melatih M1, menggunakan 512 GPU H800 selama tiga minggu. Angka ini mewakili sekitar 200 kali lebih sedikit dari perkiraan biaya pelatihan untuk GPT-4 milik OpenAI, yang menurut para ahli industri melebihi 100 juta dolar Amerika Serikat. Jika diverifikasi, ekonomi ini dapat mengubah lanskap kompetitif untuk pengembangan AI secara fundamental, terutama berdampak pada perusahaan yang didanai besar yang telah menginvestasikan ratusan miliar dalam pengembangan model.

Spesifikasi Model MiniMax M1

Parameter: 456 miliar total, 45,9 miliar diaktifkan per token
Arsitektur: Mixture-of-Experts (MoE) dengan Lightning Attention
Context Window: 1 juta token input, 80.000 token output
Biaya Pelatihan: USD $534.700 (512 GPU H800, 3 minggu)
Efisiensi Pelatihan: ~200x lebih murah dari estimasi GPT-4

Spesifikasi Teknis dan Arsitektur

Model M1 memiliki 456 miliar parameter dengan arsitektur mixture-of-experts (MoE) yang mengaktifkan 45,9 miliar parameter per token. Kemampuan unggulannya mencakup dukungan asli untuk input konteks 1 juta token, menyamai Gemini 2.5 Pro milik Google dan mewakili delapan kali kapasitas DeepSeek-R1. Model ini juga mendukung output penalaran terpanjang di industri sebesar 80.000 token, yang dimungkinkan oleh mekanisme Lightning Attention milik MiniMax.

Benchmark Performa dan Posisi Kompetitif

Di 17 dataset evaluasi standar industri, M1 menunjukkan kekuatan khusus dalam rekayasa perangkat lunak, pemrosesan konteks panjang, dan skenario penggunaan alat. Dalam tes SWE-bench Verified, MiniMax-M1-40k dan M1-80k mencapai skor 55,6% dan 56,0% masing-masing, sedikit tertinggal dari 57,6% DeepSeek-R1 tetapi secara signifikan mengungguli model open-source lainnya. Model ini unggul dalam penggunaan alat agen, memimpin semua model open-source dalam tes TAU-bench industri penerbangan dan menyamai DeepSeek-R1 dalam skenario ritel.

Perbandingan Tolok Ukur Performa

Model	SWE-bench Verified	Context Window	Biaya Pelatihan
MiniMax M1-40k	55.6%	1M token	USD $534,700
MiniMax M1-80k	56.0%	1M token	USD $534,700
DeepSeek-R1	57.6%	64k token	Tidak diungkapkan
GPT-4	Tidak disebutkan	200k token	>USD $100M (perkiraan)

Keunggulan Efisiensi Komputasi

Mekanisme Lightning Attention memberikan penghematan komputasi yang substansial selama inferensi. Ketika menghasilkan 80.000 token, M1 hanya memerlukan sekitar 30% dari sumber daya komputasi yang dibutuhkan oleh DeepSeek-R1. Efisiensi ini meluas ke pemrosesan konteks panjang, di mana M1 hanya mengonsumsi 25% dari operasi floating-point yang diperlukan oleh model pesaing untuk tugas generasi 100.000 token.

Strategi Harga dan Akses Pasar

MiniMax menawarkan M1 melalui struktur harga bertingkat yang mengalahkan pesaing di segmen tertentu. Untuk panjang input 0-32k, perusahaan mengenakan tarif 0,8 yuan Tiongkok per juta token input dan 8 yuan Tiongkok per juta token output. Tingkat 32k-128k berharga 1,2 yuan Tiongkok dan 16 yuan Tiongkok masing-masing, sementara tingkat premium 128k-1M mengenakan tarif 2,4 yuan Tiongkok dan 24 yuan Tiongkok per juta token. Model tetap gratis untuk penggunaan tanpa batas melalui aplikasi dan platform web MiniMax.

Struktur Harga API MiniMax M1

Panjang Input	Harga Input	Harga Output
0-32k token	CNY ¥0.8/M token	CNY ¥8/M token
32k-128k token	CNY ¥1.2/M token	CNY ¥16/M token
128k-1M token	CNY ¥2.4/M token	CNY ¥24/M token

Akses gratis tanpa batas tersedia melalui aplikasi dan platform web MiniMax


Struktur harga untuk model generasi teks MiniMax M1

Inovasi Teknis dan Metodologi Pelatihan

MiniMax mengembangkan algoritma CISPO (Clipped Importance Sampling Policy Optimization), yang diklaim perusahaan konvergen dua kali lebih cepat dari pendekatan pembelajaran penguatan pesaing termasuk DAPO milik ByteDance dan GRPO milik DeepSeek. Kemajuan algoritmik ini, dikombinasikan dengan desain arsitektur campuran, memungkinkan proses pelatihan yang sangat efisien yang melebihi ekspektasi awal perusahaan sebesar satu orde magnitudo.

Pertimbangan Geopolitik dan Keamanan

Seperti model AI Tiongkok lainnya, M1 menghadapi pengawasan terkait privasi data dan sensor konten. Model ini mematuhi persyaratan sensor pemerintah Tiongkok, berpotensi menghasilkan respons yang selaras dengan posisi Partai Komunis Tiongkok pada topik sensitif. Ketika diuji pada pertanyaan tentang kerja paksa Uyghur di Xinjiang, model menyangkal praktik tersebut ada, menyoroti kendala geopolitik yang mempengaruhi pengembangan AI Tiongkok.

Dampak Pasar dan Respons Industri

Pengumuman ini mengikuti pola perusahaan AI Tiongkok yang menantang asumsi Barat tentang biaya pengembangan, mirip dengan rilis R1 DeepSeek yang menyebabkan saham Nvidia turun 17% dalam satu hari. Namun, dampak pasar M1 masih harus dilihat, karena verifikasi independen dari klaim performa MiniMax masih tertunda. Jadwal pengumuman lima hari perusahaan menunjukkan perkembangan tambahan akan datang, berpotensi memperkuat tekanan kompetitif pada penyedia AI mapan.

Berita Terkait

‌

‌
‌

‌

‌
‌

‌