Pelancaran Wan2.2, sebuah model AI penjanaan video yang canggih, telah mencetuskan minat komuniti yang ketara bukan sahaja kerana keupayaan teknikalnya, tetapi kerana betapa cepatnya pembangun telah menjadikannya boleh diakses oleh pengguna dengan persediaan perkakasan yang sederhana. Walaupun pelancaran rasmi menyasarkan sistem mewah, projek komuniti telah pun muncul untuk membawa teknologi ini kepada pengguna harian.
![]() |
---|
Analisis perbandingan metrik pengkomputeran untuk pelbagai model penjanaan video, menekankan peningkatan dalam kecekapan |
Keperluan GPU Turun ke Tahap Pengguna
Perkembangan yang paling menarik datang daripada usaha pengoptimuman komuniti yang telah mengurangkan keperluan perkakasan secara dramatik. Projek Wan2GP telah berjaya menyesuaikan model untuk berjalan pada kad grafik dengan VRAM serendah 6GB, menjadikannya boleh diakses oleh pengguna dengan perkakasan lama atau mesra bajet. Ini mewakili satu kejayaan yang ketara, kerana model asal direka untuk sistem dengan 24GB hingga 80GB VRAM.
Pencapaian pengoptimuman melangkaui sekadar pengurangan memori. Pembangun komuniti telah mencipta teknik pecutan yang mengurangkan masa pemprosesan daripada lebih 30 langkah kepada hanya 4-8 langkah sambil mengekalkan kualiti video. Ini bermakna pengguna boleh menjana video dalam beberapa minit berbanding berjam-jam pada perkakasan pengguna.
VRAM (Video Random Access Memory) ialah memori khusus pada kad grafik yang digunakan untuk memproses data visual.
Perbandingan Keperluan Perkakasan
Konfigurasi | VRAM Diperlukan | Prestasi |
---|---|---|
Rasmi Wan2.2 TOI-5B | 24GB ( RTX 4090 ) | Penjanaan video 720p |
Model Rasmi Kelas Tinggi | 80GB+ | Resolusi penuh, pemprosesan terpantas |
Komuniti Wan2GP | Minimum 6GB | Dioptimumkan untuk GPU bajet |
Prestasi RTX 5090 | Kelas tinggi | 3-4 minit setiap video + 2-3 minit peningkatan skala |
![]() |
---|
Perbandingan prestasi pelbagai model penjanaan video, mempamerkan kemajuan dalam kebolehcapaian dan kecekapan |
Prestasi Berbeza-beza Merentas Peringkat Perkakasan
Ujian dunia sebenar mendedahkan corak prestasi yang menarik merentas konfigurasi GPU yang berbeza. Pengguna dengan kad mewah seperti RTX 5090 melaporkan menjana video dalam 3-4 minit, dengan peningkatan tambahan kepada resolusi 4K mengambil masa 2-3 minit lagi. Walau bagaimanapun, komuniti telah menunjukkan bahawa pengguna dengan perkakasan yang kurang berkuasa pun boleh mengambil bahagian dalam penjanaan video AI melalui pelbagai teknik pengoptimuman.
Fleksibiliti model dalam menyokong penjanaan teks-ke-video dan imej-ke-video dalam satu rangka kerja telah menarik perhatian penyelidik dan pencipta kandungan. Keupayaan untuk menjana video 720p pada 24 bingkai sesaat pada perkakasan pengguna menandakan pencapaian penting untuk penjanaan video AI yang boleh diakses.
Seni Bina Teknikal Memacu Kecekapan
Wan2.2 memperkenalkan seni bina Mixture-of-Experts (MoE) yang disesuaikan khusus untuk penjanaan video. Sistem ini menggunakan dua model khusus: satu tertumpu pada susun atur peringkat awal dan satu lagi untuk pemurnian butiran. Walaupun jumlah parameter mencapai 2.7 bilion, hanya 1.6 bilion parameter yang aktif semasa setiap langkah pemprosesan, mengekalkan keperluan pengiraan yang boleh diurus.
Model ini juga menggabungkan teknik mampatan canggih, mencapai nisbah sehingga 64:1 sambil mengekalkan kualiti video. Mampatan ini, digabungkan dengan pengoptimuman komuniti, membolehkan pengurangan dramatik dalam keperluan perkakasan yang telah menjadikan teknologi ini boleh diakses oleh khalayak yang lebih luas.
Spesifikasi Model
- Jumlah Parameter: 2.7B (seni bina MoE)
- Parameter Aktif: 1.6B setiap langkah pemprosesan
- Output Video: Sehingga 720p pada 24fps
- Nisbah Mampatan: Sehingga 64:1
- Langkah Pemprosesan: Dikurangkan daripada 30+ kepada 4-8 langkah (pengoptimuman komuniti)
- Tugas yang Disokong: Teks-ke-Video, Imej-ke-Video, Teks-ke-Imej-ke-Video
Integrasi Komuniti Mempercepatkan Penggunaan
Integrasi pantas Wan2.2 ke dalam platform popular seperti ComfyUI telah mempercepatkan penggunaan di kalangan pencipta kandungan dan pembangun. Kemas kini harian dan sumbangan komuniti telah mengembangkan keupayaan model melampaui pelancaran asal, menambah ciri seperti terminologi media profesional dan ketepatan yang diperbaiki untuk tindakan kompleks.
Terdapat ramai orang yang tertumpu pada prestasi, pelbagai kaedah, sama seperti terdapat ramai orang yang tertumpu pada isu bukan prestasi seperti penalaan halus yang menambah aspek yang kurang pada model.
Pendekatan pembangunan yang dipacu komuniti ini telah mencipta ekosistem di mana pengguna boleh mengakses bukan sahaja model asas, tetapi banyak varian khusus yang dioptimumkan untuk kes penggunaan dan konfigurasi perkakasan yang berbeza.
Penambahbaikan kebolehaksesan mewakili trend yang lebih luas dalam pembangunan AI, di mana pengoptimuman komuniti sering menjadikan teknologi canggih tersedia kepada pengguna jauh melampaui khalayak sasaran asal. Apabila keperluan perkakasan terus menurun melalui usaha komuniti, penjanaan video AI sedang beralih daripada alat khusus kepada teknologi yang boleh diakses oleh pencipta harian.
Rujukan: Wan2.2