AI Agents Menavigasi Labirin Kompatibilitas ARM PyTorch pada Perangkat Keras NVIDIA

Tim Komunitas BigGo
AI Agents Menavigasi Labirin Kompatibilitas ARM PyTorch pada Perangkat Keras NVIDIA

Dalam dunia pengembangan AI yang berkembang pesat, sebuah eksperimen baru-baru ini memicu diskusi intens tentang kemampuan dan batasan asisten coding AI ketika menghadapi tantangan kompatibilitas perangkat keras di dunia nyata. Ketika developer Simon Willison menugaskan Claude Code untuk menjalankan DeepSeek-OCR pada perangkat NVIDIA Spark, komunitas menyaksikan dengan penuh ketertarikan saat AI tersebut menavigasi salah satu sakit kepala paling persisten dalam machine learning: kompatibilitas PyTorch dan CUDA pada arsitektur non-standar.

Eksperimen ini mengungkapkan baik kemampuan pemecahan masalah yang mengesankan dari asisten AI modern maupun tantangan berkelanjutan yang dihadapi developer ketika bekerja dengan perangkat keras mutakhir. Seperti yang dicatat seorang komentator, ini merepresentasikan pergeseran dalam bagaimana developer mendekati tugas instalasi dan konfigurasi yang kompleks.

Tantangan Kompatibilitas Arsitektur ARM

Hambatan teknis inti muncul ketika Claude Code menemukan bahwa GPU GB10 pada NVIDIA Spark membutuhkan CUDA compute capability sm_121, sementara PyTorch 2.5.1 yang terpasang sebelumnya hanya mendukung hingga sm_90a. Kesenjangan kompatibilitas ini adalah frustrasi umum bagi developer yang bekerja dengan sistem berbasis ARM, di mana paket yang sudah dibangun sebelumnya sering tertinggal di belakang kemampuan perangkat keras. Upaya awal AI tersebut gagal dengan pesan error yang familiar: CUDA error: no kernel image is available for execution on the device.

Pengalaman ini beresonansi mendalam dengan komunitas developer. Seperti yang dibagikan seorang komentator, Saya baru saja menyelesaikan instalasi unsloth pada kotak Thor untuk beberapa finetuning, ini seperti maraton build yang panjang. Perjuangan untuk menemukan build PyTorch yang sesuai untuk perangkat ARM NVIDIA tampaknya adalah masalah yang luas, dengan developer mengungkapkan keheranan bahwa NVIDIA tidak menyediakan pre-build yang lebih didukung untuk perangkat keras mereka sendiri.

Ada orang-orang yang tidak terhambat menunggu input eksternal untuk menyelesaikan tugas seperti ini, yang saya pikir adalah perbandingan yang dimaksudkan. Ada tingkat intuisi yang tidak dimiliki oleh developer junior dan LLM, tetapi dimiliki oleh developer senior.

Masalah Kompatibilitas PyTorch pada NVIDIA Spark

Komponen Persyaratan Dukungan yang Tersedia Masalah
Kemampuan Komputasi GPU sm_121 (GPU GB10) sm_90a (PyTorch 2.5.1) Tidak ada kernel image yang tersedia
Solusi PyTorch 2.9.0 CUDA 12.8/12.9/13.0 ARM64 wheels Kompatibilitas parsial dengan peringatan

Solusi: Berburu Wheel yang Sulit Ditemukan

Terobosan datang ketika Willison meminta Claude untuk mencari versi PyTorch alternatif dengan wheel ARM CUDA. AI tersebut menemukan bahwa PyTorch 2.9.0 memiliki wheel ARM64 yang kompatibel dengan CUDA 12.8, 12.9, dan 13.0, memberikan kompatibilitas yang cukup untuk membuat GPU GB10 bekerja meskipun ada peringatan tentang kemampuan maksimum yang didukung. Solusi ini, meskipun efektif, menyoroti investigasi manual yang masih diperlukan untuk tugas-tugas semacam itu.

Tanggapan komunitas terhadap solusi ini beragam. Beberapa melihatnya sebagai demonstrasi pemecahan masalah AI yang mengesankan, sementara yang lain mempertanyakan apakah menemukan wheel pre-build yang lebih baru merepresentasikan pencapaian teknis yang sesungguhnya. Compute well spent... finding out to download a version and hardware appropriate wheel, ujar seorang komentator dengan sarkasme. Namun yang lain membantah bahwa developer manusia menghabiskan banyak waktu untuk pemecahan masalah serupa.

Melampaui Wheel: Pendekatan Alternatif Muncul

Diskusi dengan cepat berkembang melampaui solusi langsung untuk mempertimbangkan pertanyaan arsitektur yang lebih luas. Beberapa komentator menyarankan bahwa ONNX (Open Neural Network Exchange) mungkin memberikan solusi yang lebih elegan untuk tantangan kompatibilitas ini. Keindahannya adalah bahwa akselerator AI/perangkat keras yang mendasari benar-benar diabstraksikan, jelas seorang developer. Ada penyedia eksekusi ONNX CoreML... Tidak perlu lagi berjuang dengan cuda:0 yang dikodekan keras di mana-mana.

Perspektif ini menyoroti pergeseran yang sedang berlangsung dalam ekosistem ML menuju format model yang lebih portabel yang dapat menghindari dependency hell yang sering dikaitkan dengan kombinasi PyTorch dan CUDA. Namun, seperti yang dicatat komentator lain, proses konversi dari PyTorch ke ONNX masih sering membutuhkan intervensi manual kecuali berurusan dengan model yang sangat populer.

Paradigma Kolaborasi Manusia-AI

Apa yang membuat eksperimen ini sangat menarik adalah bagaimana hal itu menunjukkan hubungan yang berkembang antara intuisi manusia dan eksekusi AI. Intervensi krusial Willison—menyarankan pencarian versi PyTorch alternatif—memamerkan bagaimana pengalaman manusia tetap penting untuk memandu AI melalui ruang masalah yang kompleks. AI dapat mengeksekusi pencarian dan instalasi setelah diarahkan ke jalur yang benar, tetapi membutuhkan intuisi manusia untuk mengenali bahwa wheel alternatif mungkin ada.

Dinamika ini mengarah pada perbandingan antara asisten AI dan developer manusia. Ini bukan developer junior, ini hanya developer yang selamanya berada di minggu pertama mereka di pekerjaan baru, amati seorang komentator. Yang cukup terampil, pula! Diskusi mengungkapkan bahwa sementara AI dapat menangani eksekusi dan dokumentasi dengan sangat baik, pengawasan manusia tetap penting untuk arahan strategis dan mengenali kapan pendekatan konvensional perlu dipertimbangkan kembali.

Perbandingan Performa Prompt OCR DeepSeek

  • Prompt OCR Gratis: Pemrosesan 24 detik, output teks bersih, 2257 token
  • Prompt Markdown: Pemrosesan 39 detik, markdown terformat dengan koordinat parsial
  • Prompt Grounding: Pemrosesan 58 detik, teks dengan koordinat bounding box lengkap
  • Prompt Terperinci: Pemrosesan 1 detik, deskripsi gambar (<300 token)

Pertanyaan Perangkat Keras: Apakah Spark Layak Dapat Masalah?

Menariknya, percakapan juga beralih ke apakah NVIDIA Spark sendiri adalah alat yang tepat untuk eksperimen semacam itu. Beberapa komentator menyatakan skeptisisme tentang proposisi nilai perangkat tersebut. Untuk inference mungkin juga mendapatkan strix halo dengan setengah harga, sarankan seorang developer, sementara yang lain memperingatkan bahwa itu juga akan tidak didukung setelah beberapa tahun.

Debat perangkat keras ini menggarisbawahi bagaimana ekosistem pengembangan AI masih menavigasi pertukaran antara perangkat edge khusus dan perangkat keras yang lebih umum. Tantangan kompatibilitas yang dialami dengan Spark merepresentasikan rasa sakit tumbuh industri yang lebih luas karena beban kerja AI bergerak melampaui pusat data tradisional ke lingkungan komputasi edge yang beragam.

Eksperimen ini akhirnya berhasil, dengan Claude Code tidak hanya membuat DeepSeek-OCR berjalan tetapi juga menghasilkan dokumentasi ekstensif yang membandingkan prompt OCR yang berbeda dan karakteristik kinerjanya. Seluruh proses memakan waktu di bawah 40 menit dengan intervensi manusia minimal, menunjukkan bahwa asisten coding AI menjadi semakin mampu menangani tantangan pengembangan dunia nyata—bahkan jika mereka sesekali membutuhkan dorongan ke arah yang benar.

Seiring alat-alat matang dan ekosistem mengembangkan solusi yang lebih baik untuk abstraksi perangkat keras, kita mungkin melihat lebih sedikit perjuangan kompatibilitas ini. Tetapi untuk saat ini, kombinasi intuisi manusia dan eksekusi AI tampaknya menjadi pendekatan paling efektif untuk menavigasi lanskap kompleks pengembangan AI modern.

Referensi: Getting DeepSeek-OCR working on an NVIDIA Spark via brute force using Claude Code