Biaya Hardware Cerebras Dikritik Keras saat Komunitas Mempertanyakan Harga 135 Juta Dolar AS untuk Hosting Model AI

Tim Komunitas BigGo
Biaya Hardware Cerebras Dikritik Keras saat Komunitas Mempertanyakan Harga 135 Juta Dolar AS untuk Hosting Model AI

Komunitas teknologi sedang ramai dengan perdebatan sengit tentang ekonomi hardware Cerebras Systems menyusul pengumuman perusahaan tentang hosting Qwen3-235B dengan kecepatan yang belum pernah ada sebelumnya. Sementara Cerebras membanggakan performa 1.500 token per detik, para developer sedang menghitung angka-angka yang menggambarkan keprihatinan tentang biaya yang mendasarinya.

Spesifikasi Teknis

  • Model: Qwen3-235B dengan dukungan konteks 131K
  • Performa: 1.500 token per detik
  • Kebutuhan Memori: ~2TB untuk presisi fp16 penuh
  • Cerebras SRAM per chip: 44GB
  • Harga: $0,60 per juta token input, $1,20 per juta token output

Analisis Biaya Hardware Memicu Kekhawatiran Besar

Anggota komunitas telah menghitung bahwa menjalankan Qwen3-235B dengan konteks penuh 131K akan memerlukan investasi hardware yang sangat besar. Satu analisis terperinci menunjukkan bahwa menyimpan model dalam SRAM akan membutuhkan 45 chip Cerebras dengan harga 3 juta dolar AS masing-masing, dengan total 135 juta dolar AS. Sebaliknya, dua sistem NVIDIA DGX B200 dengan memori 2,8TB dapat menangani beban kerja yang sama dengan biaya sekitar 1 juta dolar AS - perbedaan biaya yang mencengangkan sebesar 135 kali lipat.

Namun, perwakilan Cerebras telah menolak perhitungan ini, dengan pejabat perusahaan menyatakan bahwa angka 3 juta dolar AS per chip sangat salah. Perusahaan belum memberikan detail harga yang sebenarnya, membiarkan komunitas berspekulasi tentang biaya riil.

SRAM (Static Random Access Memory) adalah memori on-chip ultra-cepat yang memungkinkan akses data yang cepat tetapi jauh lebih mahal daripada jenis memori tradisional.

Perbandingan Biaya Hardware

  • Solusi Cerebras : 45 chip × $3M USD = $135M USD (dibantah oleh perusahaan)
  • Alternatif NVIDIA : 2× sistem DGX B200 = $1M USD
  • Selisih Biaya: 135x lebih mahal untuk pendekatan Cerebras

Perdebatan Arsitektur Memori Semakin Intensif

Diskusi telah berkembang menjadi pembahasan teknis mendalam tentang arsitektur memori. Beberapa anggota komunitas berargumen bahwa Cerebras tidak perlu menyimpan seluruh model dalam SRAM, melainkan menggunakan sistem MemoryX mereka untuk streaming data dari memori bandwidth tinggi eksternal. Pendekatan ini akan secara signifikan mengurangi kebutuhan hardware sambil mempertahankan keunggulan kecepatan.

Para kritikus menunjukkan bahwa jika Cerebras bergantung pada memori eksternal seperti pengaturan GPU tradisional, keunggulan fundamental dari pendekatan wafer-scale mereka akan berkurang. Manfaat inti dari memori on-chip yang masif akan hilang jika sistem sering mengakses penyimpanan off-chip.

Pertanyaan Kuantisasi Tetap Tidak Terjawab

Kekhawatiran besar lainnya berpusat pada kuantisasi model - proses mengurangi kebutuhan memori dengan menggunakan angka presisi yang lebih rendah. Sistem AI modern biasanya menggunakan 6-8 bit per bobot alih-alih presisi penuh 16-bit, secara dramatis memotong kebutuhan memori tanpa kehilangan kualitas yang terlihat.

Tidak ada alasan untuk menjalankan model untuk inferensi pada fp16 statis, format kuantisasi modern secara dinamis menetapkan presisi pada lapisan yang membutuhkannya, rata-rata 6bpw praktis tidak dapat dibedakan dari presisi penuh.

Cerebras belum mengungkapkan metode kuantisasi apa yang mereka gunakan untuk Qwen3-235B, membiarkan developer tidak yakin tentang kebutuhan hardware yang sebenarnya dan apakah klaim performa didasarkan pada model yang dioptimalkan atau presisi penuh.

Dampak Kuantisasi terhadap Memori

  • Presisi penuh (fp16): 100% penggunaan memori
  • Kuantisasi 8-bit: ~50% pengurangan memori
  • Kuantisasi 6-bit: ~62,5% pengurangan memori
  • Presisi campuran modern: Bervariasi berdasarkan tingkat kepentingan layer

Pemeriksaan Realitas Pasar

Meskipun ada pencapaian teknis, banyak developer mempertanyakan proposisi nilai praktis. Kecepatan ekstrem mungkin hanya masuk akal untuk aplikasi khusus seperti perdagangan frekuensi tinggi atau analisis keuangan real-time, di mana milidetik lebih penting daripada biaya.

Untuk alur kerja pengembangan yang khas, komunitas tampak terbagi antara kegembiraan tentang respons AI yang hampir instan dan skeptisisme tentang membayar harga premium untuk peningkatan kecepatan. Perdebatan ini mencerminkan pertanyaan yang lebih luas tentang apakah investasi infrastruktur AI saat ini berkelanjutan atau mewakili gelembung teknologi lainnya.

Kontroversi ini menyoroti bagaimana bahkan pencapaian teknis yang mengesankan dapat menghadapi pengawasan ketika ekonomi yang mendasarinya tidak selaras dengan ekspektasi pasar. Saat biaya infrastruktur AI terus meningkat, perusahaan seperti Cerebras harus menyeimbangkan performa mutakhir dengan keterjangkauan praktis.

Referensi: Cerebras Launches Qwen3-235B: World's Fastest Frontier Al Model with Full 131K Context Support