OLLM Membolehkan Model 80B Parameter pada GPU Pengguna 8GB, Tetapi Pengguna Apple Silicon Ketinggalan

Pasukan Komuniti BigGo
OLLM Membolehkan Model 80B Parameter pada GPU Pengguna 8GB, Tetapi Pengguna Apple Silicon Ketinggalan

Sebuah perpustakaan Python baharu yang dipanggil OLLM sedang membuat gelombang dalam komuniti AI dengan membolehkan pengguna menjalankan model bahasa yang besar pada perkakasan bajet. Alat ini membolehkan menjalankan model dengan sehingga 80 bilion parameter pada GPU pengguna dengan hanya 8GB memori - sesuatu yang biasanya memerlukan perkakasan gred perusahaan yang berharga beribu-ribu dolar Amerika Syarikat.

Perbandingan Penggunaan Memori OLLM pada 8GB NVIDIA 3060 Ti:

Model Saiz Model Panjang Konteks VRAM Asas VRAM GPU OLLM Penggunaan Cakera OLLM
qwen3-next-80B 160 GB 10k token ~170 GB ~5.4 GB 162 GB
gpt-oss-20B 13 GB 10k token ~40 GB ~7.3 GB 15 GB
Llama3-8B-chat 16 GB 100k token ~71 GB ~6.6 GB 69 GB
Tangkapan skrin repositori GitHub OLLM, mempamerkan fail-fail projek dan butiran mengenai keupayaannya
Tangkapan skrin repositori GitHub OLLM, mempamerkan fail-fail projek dan butiran mengenai keupayaannya

Kebimbangan Keserasian Apple Silicon Muncul

Walaupun OLLM menunjukkan hasil yang mengagumkan pada GPU NVIDIA , pengguna Apple Silicon mendapati diri mereka dikecualikan daripada kejayaan ini. Perbincangan komuniti mendedahkan bahawa pengguna Mac dengan cip siri-M tidak dapat memanfaatkan keupayaan pemindahan cakera OLLM , memaksa mereka bergantung pada model terkuantiti tradisional yang muat sepenuhnya dalam RAM . Batasan ini amat mengecewakan bagi pengguna dengan 32GB RAM yang berharap menggunakan pemindahan SSD OLLM untuk menjalankan model yang lebih besar semasa kecemasan atau tugas khas.

Keadaan ini menyerlahkan jurang yang semakin meluas dalam kebolehcapaian AI antara ekosistem perkakasan NVIDIA dan Apple . Walaupun pengguna Mac masih boleh menjalankan model besar menggunakan versi yang dioptimumkan MLX pada kelajuan yang baik (sekitar 30-40 token sesaat), mereka terlepas inovasi utama OLLM untuk menjalankan model yang melebihi kapasiti RAM sistem mereka.

Keserasian Perkakasan:

  • Disokong: NVIDIA Ampere ( RTX 30xx , A30 , A4000 , A10 ), Ada Lovelace ( RTX 40xx , L4 ), Hopper ( H100 )
  • Sokongan Terhad: Cip siri- M Apple Silicon (memerlukan model yang dioptimumkan untuk MLX , tiada pemindahan cakera)
  • Prestasi: qwen3-next-80B mencapai 1 token/2 saat pada perkakasan pengguna

Pertukaran Prestasi Mencetuskan Perdebatan

OLLM mencapai kecekapan memorinya melalui teknik pemindahan yang agresif, menyimpan berat model dan cache perhatian pada storan SSD dan bukannya menyimpan segala-galanya dalam memori GPU . Walau bagaimanapun, pendekatan ini datang dengan penalti kelajuan yang ketara. Model Qwen3-Next 80 bilion parameter berjalan pada hanya 1 token setiap 2 saat - kadar yang menyebabkan sesetengah pengguna mempersoalkan sama ada GPU memberikan sebarang kelebihan bermakna berbanding pemprosesan CPU pada kelajuan sedemikian.

CPU jauh lebih perlahan daripada GPU . Anda sebenarnya boleh menggunakan kedua-duanya dengan memindahkan beberapa lapisan ke CPU ... Ia lebih pantas untuk memuatkan dari RAM daripada dari SSD .

Pendekatan hibrid perpustakaan ini membolehkan pengguna menyimpan beberapa lapisan dalam memori CPU untuk akses yang lebih pantas sambil memindahkan yang lain ke cakera, menyediakan jalan tengah antara kelajuan dan penggunaan memori.

Ciri-ciri Teknikal OLLM:

  • Pemuatan pemberat lapisan demi lapisan dari SSD ke GPU
  • Pemindahan cache KV ke storan cakera tanpa kuantisasi
  • Pelaksanaan FlashAttention-2 dengan softmax dalam talian
  • Pemprosesan MLP berketul untuk lapisan perantaraan yang besar
  • Pengedaran lapisan hibrid CPU/GPU untuk pengoptimuman kelajuan
  • Sokongan untuk ketepatan fp16/bf16 tanpa kuantisasi

Aplikasi Model Difusi Masih Tidak Jelas

Selain model bahasa, ahli komuniti sedang meneroka sama ada teknik OLLM boleh memberi manfaat kepada aplikasi AI lain seperti penjanaan imej. Walaupun konsep teras pemuatan berat lapisan demi lapisan secara teorinya boleh digunakan untuk model difusi, seni bina yang berbeza bermakna kod asas semasa tidak akan berfungsi secara langsung. Ini mewakili peluang yang belum diterokai untuk mengembangkan inferens AI yang cekap memori melampaui penjanaan teks.

Keluaran ini menunjukkan bagaimana kejuruteraan kreatif boleh mendemokrasikan akses kepada model AI terdepan, walaupun batasan khusus platform terus memecah-belahkan pengalaman pengguna merentasi ekosistem perkakasan yang berbeza.

Rujukan: OLLM: LLM Inference for Large-Context Offline Workloads