Nvidia Memperkenalkan GPU Rubin CPX untuk Inferensi AI Konteks Panjang dengan Peningkatan Performa 6,5 Kali Lipat

Tim Editorial BigGo

Nvidia Memperkenalkan GPU Rubin CPX untuk Inferensi AI Konteks Panjang dengan Peningkatan Performa 6,5 Kali Lipat

Nvidia telah memperkenalkan pendekatan terobosan dalam pemrosesan AI dengan peluncuran GPU Rubin CPX , yang secara khusus dirancang untuk menangani fase pemrosesan konteks yang intensif komputasi pada aplikasi AI konteks panjang. Ini menandai langkah pertama di industri menuju disagregasi beban kerja inferensi AI di seluruh perangkat keras khusus, yang berpotensi memerlukan dua GPU bekerja secara tandem untuk mencapai performa dan profitabilitas maksimum.

Mengatasi Tantangan Konteks Panjang

Rubin CPX menargetkan aplikasi yang memerlukan lebih dari satu juta token konteks input, mengatasi hambatan kritis dalam pemrosesan AI. Aplikasi saat ini kesulitan dengan konteks yang sangat panjang, seperti memproses 100.000 baris kode atau analisis video multi-frame, di mana pengguna sering menunggu 5-10 menit untuk token pertama muncul. Aplikasi pemrosesan video menghadapi penundaan yang lebih lama yaitu 10-20 detik atau lebih, yang menjelaskan mengapa LLM video biasanya terbatas pada klip pendek saat ini.

Spesifikasi Teknis dan Performa

Rubin CPX menghadirkan kekuatan komputasi 30 petaFLOPs NVFP4 yang dipasangkan dengan memori GDDR7 128 GB. Nvidia mengklaim chip tersebut mencapai performa hingga 6,5 kali lebih baik dibandingkan GB300 Blackwell Ultra yang akan datang untuk aplikasi dengan panjang konteks besar. Penggunaan GDDR7 alih-alih memori HBM yang mahal membuat solusi ini lebih hemat biaya sambil tetap menyediakan bandwidth yang diperlukan untuk tugas pemrosesan konteks.

Spesifikasi Teknis Rubin CPX

Daya Komputasi: 30 petaFLOPs NVFP4
Memori: 128 GB GDDR7
Performa vs Blackwell Ultra: Hingga 6,5x lebih cepat untuk aplikasi konteks panjang
Panjang Konteks: Dioptimalkan untuk lebih dari 1 juta token

Konfigurasi Deployment dan Skalabilitas

Nvidia berencana menawarkan Rubin CPX dalam dua konfigurasi utama. Rak unggulan Vera Rubin NVL144 CPX mengintegrasikan 144 GPU Rubin CPX , 144 GPU Rubin standar, dan 36 CPU Vera , menghadirkan performa komputasi NVFP4 gabungan sebesar 8 exaFLOPs. Ini merepresentasikan peningkatan 7,5 kali lipat dibandingkan sistem Blackwell Ultra . Untuk pelanggan yang sudah ada, Nvidia akan menawarkan rak CPX terpisah yang dapat ditambahkan ke instalasi Rubin saat ini, meningkatkan performa dari 5 exaFLOPs menjadi 8 exaFLOPs sambil mendukung hingga 150TB memori GDDR7 cepat.

Konfigurasi Rack Vera Rubin NVL144 CPX

144 GPU Rubin CPX
144 GPU Rubin
36 CPU Vera
Total Komputasi: 8 exaFLOPs NVFP4
Dukungan Memori: Hingga 150TB GDDR7
Peningkatan Performa: 7,5x dibandingkan Blackwell Ultra

Dampak Ekonomi dan Proyeksi ROI

Menurut proyeksi Nvidia , investasi 3 juta dolar Amerika dalam sistem GB200 NVL72 dapat menghasilkan pendapatan token sebesar 30 juta dolar Amerika. Perusahaan memperkirakan bahwa bahkan dengan kompetisi gratis, GB200 NVL72 dapat meningkatkan keuntungan token hampir empat kali lipat. Penambahan teknologi CPX diharapkan dapat lebih meningkatkan pengembalian ini, dengan Nvidia mengklaim return on investment 30 hingga 50 kali lipat untuk platform baru tersebut.

Proyeksi Ekonomi

Investasi GB200 NVL72 : USD 3 juta
Proyeksi Pendapatan Token: USD 30 juta
ROI untuk Platform Baru: 30x hingga 50x
Peningkatan Performa dengan Divisi GPU Cerdas: 3x dengan biaya/energi yang sama

Aplikasi Pasar dan Outlook Masa Depan

Nvidia telah mengidentifikasi coding program besar dan pemrosesan video sebagai aplikasi utama yang memerlukan konteks jutaan token. Perusahaan memperkirakan bahwa sekitar 20% aplikasi AI saat ini mengalami penundaan signifikan menunggu generasi token pertama. Rubin CPX diharapkan tersedia dalam tahun depan, dengan roadmap yang diperbarui diperpanjang hingga arsitektur Feynman pada tahun 2028. Langkah strategis ini memposisikan Nvidia untuk mempertahankan keunggulan kompetitifnya di pasar perangkat keras AI sambil berpotensi memaksa kompetitor seperti Google dan AMD untuk mengembangkan solusi khusus serupa.

Berita Terkait

‌

‌
‌

‌

‌
‌

‌