Sebuah implementasi open-source dari model bahasa besar DeepSeek telah memicu diskusi intens tentang biaya sebenarnya dari AI inference dan margin keuntungan yang berpotensi sangat besar yang mungkin dinikmati oleh penyedia komersial. Implementasi ini, yang dibangun menggunakan SGLang pada 96 GPU H100 , mencapai performa yang hampir menyamai sistem DeepSeek resmi sambil mengungkap biaya operasional yang secara dramatis lebih rendah dari yang dikenakan sebagian besar penyedia kepada pelanggan.
Metrik Performa
- Throughput input: 52.300 token per detik per node
- Throughput output: 22.300 token per detik per node
- Total sistem: 96 H100 GPU di 12 node
- Panjang sequence input: 2.000 token
![]() |
---|
Slide ini mengilustrasikan penerapan model bahasa DeepSeek, menampilkan arsitekturnya dan teknik-teknik canggih yang digunakan untuk performa optimal pada beberapa GPU |
Analisis Biaya Mengekspos Kesenjangan Harga Industri
Komunitas telah ramai dengan perhitungan yang menggambarkan gambaran mencolok dari bisnis AI inference. Implementasi open-source ini berjalan dengan biaya sekitar 0,20 dolar Amerika per juta token output, yang kira-kira seperlima dari biaya API resmi DeepSeek . Lebih mengejutkan lagi adalah perbandingan dengan penyedia lain, di mana beberapa anggota komunitas menemukan biaya implementasi ini 10 kali lebih murah dari opsi termurah yang tersedia di platform seperti OpenRouter .
Ketika pengguna menggali matematikanya menggunakan harga cloud, mereka menemukan bahwa bahkan dengan memperhitungkan tarif on-demand AWS untuk instance H100 , biaya komputasi sebenarnya mencapai sekitar 2-4,70 dolar Amerika per juta token. Namun, tim menggunakan hosting Atlas Cloud dengan tarif 1,80 dolar Amerika per H100 per jam, menurunkan biaya menjadi sekitar 0,92-2,15 dolar Amerika per juta token. Ini menunjukkan bahwa penyedia AI besar bisa beroperasi dengan margin yang substansial.
GPU H100 adalah unit pemrosesan grafis kelas atas yang dirancang khusus untuk beban kerja AI dan tugas machine learning.
Perbandingan Biaya (per juta token output)
- Implementasi open-source: $0.20 USD
- API resmi DeepSeek : ~$1.00 USD (5x lebih mahal)
- Opsi termurah OpenRouter : ~$2.00 USD (10x lebih mahal)
- Biaya terhitung AWS H100 : $2.00-4.70 USD
- Biaya terhitung Atlas Cloud : $0.92-2.15 USD
![]() |
---|
Grafik batang ini membandingkan manfaat performa Token-Based Optimization selama fase prefill dan decode, menyoroti aspek efisiensi biaya yang dibahas dalam artikel |
Tantangan Utilisasi di Dunia Nyata
Meskipun angka mentahnya terlihat mengesankan, pengamat industri berpengalaman telah menunjukkan peringatan penting yang mempengaruhi profitabilitas di dunia nyata. Tantangan terbesar adalah mencapai utilisasi GPU yang konsisten di lingkungan produksi.
Utilisasi GPU mencapai 10-20%. Sekarang, jika Anda adalah perusahaan besar yang menghabiskan banyak uang untuk melatih model baru, Anda bisa membayangkan memasukkan RL inference atau pelatihan model untuk terjadi di jam-jam sepi ini, memaksimalkan utilisasi.
Realitas menjalankan layanan inference mencakup beberapa biaya tersembunyi. Perusahaan biasanya membutuhkan kontrak GPU multi-tahun daripada harga on-demand, harus merencanakan penggunaan puncak yang bisa 2-3 kali lebih tinggi dari rata-rata, dan menghadapi pembatasan regional yang mencegah load balancing global. Faktor-faktor ini dapat secara signifikan menggerogoti margin yang tampaknya besar tersebut.
![]() |
---|
Diagram timeline ini menggambarkan interaksi detail antara Prefill Server dan Decode Server , menyoroti tantangan operasional dalam mencapai utilisasi GPU yang efisien dalam inferensi AI |
Inovasi Teknis di Balik Performa
Implementasi ini mencapai hasil yang mengesankan melalui beberapa inovasi kunci. Tim memisahkan fase prefill dan decode dari inferensi model bahasa, memungkinkan masing-masing dioptimalkan secara independen. Mereka juga mengimplementasikan paralelisme expert skala besar untuk menangani arsitektur Mixture of Experts DeepSeek secara efisien.
Sistem ini memproses 52.300 token input dan 22.300 token output per detik per node, mewakili implementasi open-source pertama yang hampir menyamai performa DeepSeek resmi pada skala ini. Pencapaian ini memerlukan manajemen memori yang canggih dan optimisasi komunikasi di seluruh cluster 12-node.
Prefill dan decode adalah dua fase dari generasi teks AI - prefill memproses prompt input, sementara decode menghasilkan token baru satu per satu.
Arsitektur Teknis
- Disagregasi Prefill-Decode: Memisahkan fase prefill yang intensif komputasi dari fase decode yang intensif memori
- Expert Parallelism (EP): Mendistribusikan bobot Mixture of Experts ke beberapa perangkat
- Data Parallelism (DP): Digunakan untuk lapisan attention, dense FFN, dan LM head
- Integrasi DeepEP: Mendukung mode normal dispatch (prefill) dan low-latency dispatch (decode)
- Transfer RDMA: Menggunakan Remote Direct Memory Access untuk transfer data yang efisien antar node
Implikasi Industri
Sifat open-source dari implementasi ini dapat mengubah dinamika kompetitif di pasar AI inference. Dengan membuat teknologi serving berperforma tinggi tersedia secara gratis, ini menurunkan hambatan bagi pendatang baru dan memberikan tekanan pada penyedia yang ada untuk membenarkan harga mereka.
Namun, kompleksitas teknis yang terlibat tidak boleh diremehkan. Berhasil menerapkan sistem seperti ini memerlukan keahlian mendalam dalam komputasi terdistribusi, optimisasi GPU, dan manajemen infrastruktur skala besar. Bagi banyak organisasi, membayar tarif premium untuk layanan terkelola mungkin masih masuk akal secara ekonomi meskipun ada perbedaan biaya yang jelas.
Diskusi ini telah menyoroti bagaimana pasar AI inference masih berkembang dengan cepat. Seiring tersedianya implementasi yang lebih efisien dan biaya hardware terus berkembang, kita dapat mengharapkan tekanan berkelanjutan pada harga di seluruh industri.
Referensi: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs