Huawei dan Zhongke Hongyun Luncurkan Solusi Akselerasi Inferensi AI, Potong Waktu Respons Lebih dari 50%

Tim Editorial BigGo
Huawei dan Zhongke Hongyun Luncurkan Solusi Akselerasi Inferensi AI, Potong Waktu Respons Lebih dari 50%

Dalam langkah signifikan untuk mengatasi hambatan komputasi model bahasa besar (LLM), Huawei Data Storage dan Zhongke Hongyun secara bersama meluncurkan solusi akselerasi inferensi AI baru. Diumumkan pada 23 Desember 2025, kolaborasi ini bertujuan untuk menangani latensi tinggi dan ketidakefisienan sumber daya yang sering dikaitkan dengan pemrosesan prompt konteks panjang, sebuah tantangan umum dalam aplikasi AI perusahaan. Solusi ini menjanjikan kemampuan inferensi AI yang lebih cerdas, cepat, dan lebih mudah diakses langsung ke operasi bisnis.

Fusi Penyimpanan dan Komputasi untuk AI yang Dioptimalkan

Inti dari solusi bersama ini adalah integrasi mendalam dari sistem penyimpanan OceanStor A-series milik Huawei dengan platform cloud internet komputasi cerdas HyperCN milik Zhongke Hongyun. Kemitraan ini menciptakan jaringan data dan komputasi terpadu yang dirancang khusus untuk beban kerja AI. Dengan menggunakan penyimpanan Huawei sebagai fondasi data berkinerja tinggi, sistem dapat mengelola jumlah data masif yang dihasilkan selama inferensi AI dengan lebih efisien, sementara HyperCN menyediakan lapisan orkestrasi untuk mengelola sumber daya komputasi yang beragam.

Inovasi Kunci yang Mendorong Peningkatan Kinerja

Solusi ini memperkenalkan beberapa kemajuan teknis untuk mempercepat inferensi. Fitur utama adalah teknologi UCM (Unified Cache Management) milik Huawei, yang dengan cerdas mempertahankan KV Cache—komponen kritis untuk inferensi LLM—langsung ke penyimpanan OceanStor. "Memori inferensi" ini mencegah perhitungan berulang untuk prompt yang sama, secara signifikan mempercepat respons berikutnya. Lebih lanjut, integrasi algoritma seperti Prefix Cache dan akselerasi sparse GSA secara khusus menargetkan dan mengurangi waktu-ke-token-pertama (TTFT), penundaan awal yang dialami pengguna saat menanyai sebuah model.

Kesesuaian Teknis & Fitur:

  • Perangkat Keras AI yang Didukung: GPU NVIDIA, Huawei Ascend, Cambricon.
  • Kerangka Kerja yang Didukung: MindSpore, vLLM, SGLang.
  • Teknologi Inti: Huawei UCM untuk persistensi KV Cache, Prefix Cache, Akselerasi Sparse GSA.
  • Integrasi Platform: Orkestrasi berbasis Kubernetes dengan penyimpanan Huawei OceanStor A-series.

Menghasilkan Hasil Terukur dalam Tes Dunia Nyata

Menurut tolok ukur kinerja yang dirilis oleh perusahaan, solusi ini memberikan peningkatan substansial. Dalam skenario tanya jawab cerdas standar, waktu-ke-token-pertama berkurang 57,5%. Manfaatnya meningkat seiring dengan panjang konteks: dalam tes penalaran dokumen panjang dengan panjang urutan 39.000 token, solusi ini mencapai peningkatan 86% dalam kemampuan pemrosesan bersamaan dan peningkatan 36% dalam throughput inferensi keseluruhan. Metrik ini diterjemahkan menjadi asisten AI yang lebih responsif dan kemampuan untuk memproses dokumen kompleks jauh lebih cepat.

Peningkatan Kinerja yang Dilaporkan:

  • Waktu ke Token Pertama (TTFT) dalam Tanya Jawab: Berkurang 57,5%.
  • Penalaran Dokumen Panjang (39K token): Kapabilitas konkuren: Meningkat 86%. Throughput inferensi: Meningkat 36%.

Dirancang untuk Penyebaran Heterogen dan Siap Perusahaan

Mengakui lanskap perangkat keras AI yang beragam, solusi ini dibangun untuk fleksibilitas. Ini mendukung dan dapat mengorkestrasi campuran akselerator AI dari NVIDIA, Ascend milik Huawei sendiri, dan Cambricon. Ini juga kompatibel dengan kerangka kerja AI utama seperti MindSpore, vLLM, dan SGLang, serta terintegrasi mulus dengan Kubernetes untuk penyebaran berbasis kontainer. Pendekatan agnostik ini memungkinkan perusahaan untuk memanfaatkan investasi infrastruktur yang ada. Platform ini juga mencakup rantai alat AI lengkap, meliputi manajemen data, pengembangan model, pelatihan, dan inferensi, memfasilitasi manajemen terpusat aset AI.

Status Saat Ini: Solusi bersama sedang dalam fase penerapan pilot, dengan penyebaran yang sedang berlangsung di sektor energi & kelistrikan, manufaktur cerdas, dan laboratorium nasional.

Program Percontohan Tandai Aplikasi Industri yang Luas

Solusi Huawei-Zhongke Hongyun bukan sekadar penawaran teoretis. Ini telah memasuki fase aplikasi percontohan di beberapa sektor industri kunci, termasuk energi dan kelistrikan, manufaktur cerdas, dan penelitian laboratorium nasional. Penyebaran awal ini sangat penting untuk memvalidasi kinerja solusi dalam lingkungan dunia nyata yang menuntut dan untuk menyempurnakan kemampuannya sebelum rilis pasar yang lebih luas. Langkah ini memposisikan penawaran bersama sebagai alat praktis untuk mempercepat adopsi AI di industri yang sangat penting.