Dalam langkah berani untuk memperkuat dominasinya di arena perangkat keras AI, Nvidia dilaporkan merencanakan arsitektur GPU revolusioner dengan kode nama "Feynman" untuk tahun 2028. Analisis yang bocor menunjukkan chip tersebut akan menggabungkan teknologi penumpukan 3D mutakhir dengan perangkat keras inferensi AI khusus, yang bertujuan untuk menaklukkan batas efisiensi komputasi berikutnya. Artikel ini menyelami detail teknis, manfaat potensial, dan tantangan signifikan dari proyek ambisius ini, yang disusun dari spekulasi ahli dan laporan industri terkini.
Spesifikasi & Detail Desain yang Dilaporkan:
- Nama Kode: Feynman
- Target Peluncuran: 2028
- Teknologi Kunci: Penumpukan chiplet 3D menggunakan TSMC SoIC
- Die Komputasi: Proses TSMC A16 (1.6nm), berisi Tensor cores & logika kontrol.
- Die Bertumpuk: Berisi teknologi Groq LPU dan kumpulan SRAM besar.
- Inspirasi Desain: Pendekatan kemasan prosesor AMD X3D.
- Dinamai Dari: Richard Feynman, fisikawan pemenang Hadiah Nobel.
Konsep Inti: Arsitektur Hybrid Bertumpuk 3D
Menurut analisis oleh ahli GPU AGF di X, GPU Feynman diperkirakan akan mengadopsi desain chiplet 3D yang radikal, terinspirasi oleh prosesor X3D AMD yang sukses. Rencananya melibatkan penggunaan teknologi ikatan hybrid SoIC (System on Integrated Chips) canggih milik TSMC. Dalam konfigurasi ini, die komputasi utama, yang menampung Tensor core dan logika kontrol, akan dibuat pada node proses A16 (1,6nm) masa depan TSMC. Yang penting, die terpisah yang berisi kumpulan besar SRAM dan teknologi LPU (Language Processing Unit) Groq akan ditumpuk langsung di atasnya. Integrasi vertikal ini memanfaatkan fitur "backside power delivery" node A16, membebaskan permukaan atas chip untuk interkoneksi berdensitas ultra-tinggi dan latensi rendah antara lapisan logika dan memori.
Kekuatan Pendorong di Balik Penumpukan
Motivasi untuk desain kompleks ini berasal dari batasan fisik mendasar dalam penskalaan semikonduktor. Seiring ukuran transistor mengecil, sel SRAM tidak menyusut seefisien transistor logika. Memproduksi chip monolitik dengan jumlah SRAM yang sangat besar pada node mutakhir yang mahal seperti 1,6nm akan sangat tidak ekonomis dan boros terhadap real estat silikon premium. Dengan memisahkan blok LPU/SRAM yang padat memori ke dalam die-nya sendiri—yang berpotensi menggunakan proses yang lebih hemat biaya atau khusus—Nvidia dapat mengoptimalkan kinerja dan biaya. Pendekatan ini selaras dengan pergeseran industri yang lebih luas menuju desain berbasis chiplet, yang mencampur dan mencocokkan berbagai teknologi silikon dalam satu paket.
Potensi Keunggulan:
- Kinerja: Latensi ultra-rendah antara komputasi dan memori untuk inferensi AI.
- Efisiensi Biaya: Menghindari pembuatan SRAM berukuran besar pada node manufaktur termutakhir yang mahal.
- Spesialisasi: Menggabungkan kekuatan GPU serbaguna Nvidia dengan perangkat keras inferensi deterministik Groq.
Integrasi LPU Groq: Langkah Strategis Berisiko
Integrasi teknologi dari Groq, sebuah startup chip AI yang terkenal, adalah aspek yang sangat menarik dari rumor ini. LPU Groq dirancang untuk eksekusi "deterministik", artinya ia menjalankan model inferensi AI dengan latensi yang dapat diprediksi dan sangat rendah, sebuah kontras yang mencolok dengan pendekatan GPU tradisional yang lebih umum dan bergantung pada penjadwal. Dengan menyematkan teknologi ini, Nvidia bertujuan untuk merebut pasar inferensi AI berkinerja tinggi, menawarkan efisiensi terbaik di kelasnya untuk model bahasa besar dan beban kerja serupa. Ini mewakili pengakuan strategis bahwa perangkat keras khusus mungkin diperlukan untuk mempertahankan keunggulan di domain komputasi bernilai tinggi tertentu.
Kendala Teknis yang Tangguh untuk Diatasi
Meskipun peningkatan kinerja teoretisnya substansial, jalan menuju GPU Feynman yang berfungsi dipenuhi tantangan teknis. Masalah utama adalah manajemen termal. Menumpuk die LPU/SRAM yang boros daya di atas die komputasi yang sudah padat dan panas menciptakan masalah kepadatan termal yang tangguh. Menghilangkan panas ini secara efektif tanpa mencapai batas thermal throttling akan memerlukan terobosan dalam solusi pengemasan dan pendinginan. Tantangan yang bahkan lebih kompleks terletak pada perangkat lunak. Kekaisaran Nvidia dibangun di atas ekosistem CUDA yang fleksibel dan diabstraksi. LPU Groq, dengan model eksekusi tetapnya, mewakili paradigma pemrograman yang fundamentally berbeda. Menyelaraskan kedua dunia ini—mempertahankan kompatibilitas CUDA penuh sambil membuka kunci kinerja unik LPU—digambarkan oleh analis sebagai "keajaiban teknik" yang harus dipecahkan oleh tim perangkat lunak Nvidia.
Tantangan Utama:
- Manajemen Termal: Disipasi panas dalam konfigurasi bertumpuk 3D.
- Integrasi Perangkat Lunak: Menggabungkan model eksekusi LPU deterministik Groq dengan ekosistem CUDA fleksibel Nvidia.
Implikasi Pasar dan Jalan Menuju 2028
Jika berhasil diwujudkan, arsitektur Feynman dapat mewakili pergeseran paradigma, mengaburkan batas antara GPU tujuan umum dan akselerator AI khusus. Ini akan menandakan niat Nvidia untuk tidak hanya bersaing tetapi juga mengasimilasi pendekatan inovatif dari seluruh industri. Namun, dengan target peluncuran yang diklaim pada tahun 2028, ini tetap merupakan peta jalan jangka panjang. Lanskap semikonduktor dapat berubah secara dramatis dalam tiga tahun, dan kebocoran ini kemungkinan mewakili salah satu dari beberapa jalur eksplorasi yang sedang diselidiki Nvidia. Kelayakan akhir proyek ini akan bergantung pada kemampuan mengatasi hambatan integrasi termal dan perangkat lunak yang curam, membuktikan bahwa di dunia chip canggih, terkadang jalan paling langsung untuk kinerja yang lebih besar adalah dengan membangun ke atas.
