Dalam dunia pembangunan AI yang berkembang pesat, satu eksperimen baru-baru ini telah mencetuskan perbincangan hangat mengenai keupayaan dan batasan pembantu pengekodan AI apabila berhadapan dengan cabaran keserasian perkakasan dunia sebenar. Apabila pemaju Simon Willison memberikan tugas kepada Claude Code untuk menjalankan DeepSeek-OCR pada peranti NVIDIA Spark, komuniti memerhati dengan penuh minat apabila AI tersebut mengemudi salah satu sakit kepala berterusan dalam pembelajaran mesin: keserasian PyTorch dan CUDA pada seni bina bukan standard.
Eksperimen ini mendedahkan kedua-dua keupayaan penyelesaian masalah yang mengagumkan daripada pembantu AI moden dan cabaran berterusan yang dihadapi oleh pemaju apabila bekerja dengan perkakasan canggih. Seperti yang dinyatakan oleh seorang pengulas, ini mewakili perubahan dalam cara pemaju mendekati tugas pemasangan dan konfigurasi yang kompleks.
Cabaran Keserasian Seni Bina ARM
Halangan teknikal teras timbul apabila Claude Code mendapati bahawa GPU GB10 NVIDIA Spark memerlukan keupayaan pengiraan CUDA sm_121, manakala PyTorch 2.5.1 yang telah diprapasang hanya menyokong sehingga sm_90a. Jurang keserasian ini adalah kekecewaan biasa bagi pemaju yang bekerja dengan sistem berasaskan ARM, di mana pakej pra-dibina selalunya ketinggalan di belakang keupayaan perkakasan. Percubaan awal AI itu gagal dengan mesej ralat yang biasa: Ralat CUDA: tiada imej kernel tersedia untuk pelaksanaan pada peranti.
Pengalaman ini mendapat sambutan mendalam dalam komuniti pemaju. Seperti yang dikongsi oleh seorang pengulas, Saya baru sahaja selesai memasang unsloth pada kotak Thor untuk beberapa penalaan halus, ia adalah maraton pembinaan yang panjang. Perjuangan untuk mencari binaan PyTorch yang sesuai untuk peranti ARM NVIDIA nampaknya merupakan isu yang meluas, dengan pemaju menyatakan kejutan bahawa NVIDIA tidak menyediakan pra-binaan yang lebih disokong untuk perkakasan mereka sendiri.
Terdapat orang yang tidak terhalang menunggu input luaran untuk menyelesaikan tugas seperti ini, yang saya fikir adalah perbandingan yang dimaksudkan. Terdapat tahap intuisi yang tidak dimiliki oleh pemaju junior dan LLM yang dimiliki oleh pemaju kanan.
Isu Keserasian PyTorch pada NVIDIA Spark
Komponen | Keperluan | Sokongan yang Tersedia | Isu |
---|---|---|---|
Keupayaan Pengkomputeran GPU | sm_121 (GPU GB10) | sm_90a (PyTorch 2.5.1) | Tiada imej kernel tersedia |
Penyelesaian | PyTorch 2.9.0 | Roda CUDA 12.8/12.9/13.0 ARM64 | Keserasian separa dengan amaran |
Penyelesaian: Memburu Roda yang Sukar Ditemui
Kejayaan datang apabila Willison meminta Claude untuk mencari versi PyTorch alternatif dengan roda ARM CUDA. AI itu menemui bahawa PyTorch 2.9.0 mempunyai roda ARM64 yang serasi dengan CUDA 12.8, 12.9, dan 13.0, memberikan keserasian yang cukup untuk membuat GPU GB10 berfungsi walaupun terdapat amaran tentang keupayaan sokongan maksimum. Penyelesaian ini, walaupun berkesan, menyerlahkan siasatan manual yang masih diperlukan untuk tugas sedemikian.
Tindak balas komuniti terhadap penyelesaian ini adalah berbeza-beza. Ada yang melihatnya sebagai demonstrasi penyelesaian masalah AI yang mengagumkan, manakala yang lain mempersoalkan sama ada mencari roda pra-dibina yang lebih baru mewakili pencapaian teknikal yang sebenar. Pengiraan yang dilaburkan dengan baik... untuk mengetahui cara memuat turun roda versi dan perkakasan yang sesuai, seorang pengulas berkata dengan sarkastik. Namun yang lain membalas bahawa pemaju manusia menghabiskan banyak masa untuk penyelesaian masalah yang serupa.
Melampaui Roda: Pendekatan Alternatif Muncul
Perbincangan itu dengan pantas berkembang melebihi penyelesaian segera untuk mempertimbangkan soalan seni bina yang lebih luas. Beberapa pengulas mencadangkan bahawa ONNX (Open Neural Network Exchange) mungkin memberikan penyelesaian yang lebih elegan untuk cabaran keserasian ini. Keindahannya ialah pemecut/kepintaran buatan asas diabstraksikan sepenuhnya, jelas seorang pemaju. Terdapat penyedia pelaksanaan CoreML ONNX... Tiada lagi bergelut dengan cuda:0 yang dikodkan keras di mana-mana sahaja.
Perspektif ini menyerlahkan pergeseran berterusan dalam ekosistem ML ke arah format model yang lebih mudah alih yang boleh mengelakkan neraka kebergantungan sering dikaitkan dengan gabungan PyTorch dan CUDA. Walau bagaimanapun, seperti yang dinyatakan oleh pengulas lain, proses penukaran dari PyTorch ke ONNX masih sering memerlukan campur tangan manual melainkan berurusan dengan model yang sangat popular.
Paradigma Kerjasama Manusia-AI
Apa yang membuatkan eksperimen ini amat menarik adalah bagaimana ia menunjukkan hubungan yang berkembang antara intuisi manusia dan pelaksanaan AI. Campur tangan penting Willison—mencadangkan carian untuk versi PyTorch alternatif—memaparkan bagaimana pengalaman manusia kekal penting untuk membimbing AI melalui ruang masalah yang kompleks. AI boleh melaksanakan carian dan pemasangan sekali diarahkan ke arah yang betul, tetapi memerlukan intuisi manusia untuk mengenali bahawa roda alternatif mungkin wujud.
Dinamik ini membawa kepada perbandingan antara pembantu AI dan pemaju manusia. Ia bukan pemaju junior, ia hanyalah pemaju yang kekal dalam minggu pertama mereka di pekerjaan baru, seorang pengulas memerhati. Yang agak mahir, pada itu! Perbincangan mendedahkan bahawa walaupun AI boleh mengendalikan pelaksanaan dan dokumentasi dengan luar biasa, pengawasan manusia kekal penting untuk arah strategik dan mengenali bila pendekatan konvensional perlu dipertimbangkan semula.
Perbandingan Prestasi Prompt DeepSeek-OCR
- Free OCR Prompt: 24s pemprosesan, output teks bersih, 2257 token
- Markdown Prompt: 39s pemprosesan, markdown berformat dengan koordinat separa
- Grounding Prompt: 58s pemprosesan, teks dengan koordinat kotak sempadan penuh
- Detailed Prompt: 1s pemprosesan, penerangan imej (<300 token)
Soalan Perkakasan: Adakah Spark Bernilai Kesusahan?
Menariknya, perbualan juga beralih kepada sama ada NVIDIA Spark itu sendiri adalah alat yang betul untuk eksperimen sedemikian. Sesetengah pengulas menyatakan keraguan tentang proposisi nilai peranti tersebut. Untuk inferens mungkin juga mendapatkan strix halo dengan separuh harga, cadangkan seorang pemaju, manakala yang lain memberi amaran bahawa ia juga akan tidak disokong selepas beberapa tahun.
Debat perkakasan ini menggariskan bagaimana ekosistem pembangunan AI masih mengemudi pertukaran antara peranti tepi khusus dan perkakasan tujuan umum yang lebih luas. Cabaran keserasian yang dialami dengan Spark mewakili kesakitan membesar industri yang lebih luas apabila beban kerja AI bergerak melepasi pusat data tradisional ke persekitaran pengkomputeran tepi yang pelbagai.
Eksperimen itu akhirnya berjaya, dengan Claude Code bukan sahaja berjaya menjalankan DeepSeek-OCR tetapi juga menghasilkan dokumentasi meluas yang membandingkan prompt OCR yang berbeza dan ciri prestasi mereka. Keseluruhan proses mengambil masa di bawah 40 minit dengan campur tangan manusia yang minimum, menunjukkan bahawa pembantu pengekodan AI menjadi semakin berkebolehan untuk mengendalikan cabaran pembangunan dunia sebenar—walaupun mereka kadang-kadang memerlukan dorongan ke arah yang betul.
Apabila alat matang dan ekosistem membangunkan penyelesaian yang lebih baik untuk abstraksi perkakasan, kita mungkin melihat kurang pergolakan keserasian ini. Tetapi buat masa ini, gabungan intuisi manusia dan pelaksanaan AI nampaknya merupakan pendekatan yang paling berkesan untuk mengemudi landskap pembangunan AI moden yang kompleks.
Rujukan: Mendapatkan DeepSeek-OCR berfungsi pada NVIDIA Spark melalui kekerasan menggunakan Claude Code