Sebuah projek bapa-anak perempuan baru-baru ini untuk mencipta animasi bertemakan Minecraft selama satu minit menggunakan alat AI telah mencetuskan perbincangan mengenai kos sebenar dan halangan teknikal di sebalik teknologi video generatif yang kelihatan mudah diakses. Projek ini, yang mengubah satu foto Kate berusia 7 tahun menjadi cerita animasi yang lengkap, memerlukan 20 jam kerja dan mendedahkan beberapa pengajaran penting tentang keupayaan penjanaan video AI semasa.
Pecahan Garis Masa Projek:
- Papan cerita: 1 jam
- Pembinaan aliran kerja: 4 jam
- Pemprosesan: 15 jam (pada 2x GPU H100 )
- Pemilihan hasil: 1 jam
- Jumlah: 20 jam
Kos Sebenar Penjanaan Video AI
Walaupun projek ini kelihatan kos efektif pada permukaannya, perbincangan komuniti dengan cepat menyerlahkan satu kesilapan ketara dalam pelaporan kos. Pencipta menyebut hanya membelanjakan 3 Euro untuk akses API bagi penciptaan papan cerita, tetapi gagal mengambil kira sumber pengkomputeran yang besar yang diperlukan. Projek ini menggunakan 15 jam GPU pada pemproses H100 berteknologi tinggi, yang biasanya akan menelan kos beratus atau beribu-ribu dolar dalam perkhidmatan awan komersial. Pencipta kemudiannya menjelaskan bahawa beliau mempunyai akses percuma kepada kluster H100, menjadikan projek ini boleh dilaksanakan dari segi kewangan hanya kerana akses istimewa kepada perkakasan mahal.
Pendedahan ini menggariskan isu biasa dalam pameran projek AI di mana kos pengkomputeran sebenar kekal tersembunyi, mewujudkan jangkaan yang tidak realistik untuk pengguna biasa yang mesti membayar kadar pasaran untuk masa GPU.
Alat AI Yang Digunakan:
- Flux Kontext: Konsistensi watak dan penciptaan papan cerita (3 EUR melalui API)
- Wan Video FLF2V-148: Penjanaan video dari bingkai pertama/terakhir
- Florence: Penerangan dan analisis imej
- DeepSeek R1-Distill-Llama-70B: Penjanaan gesaan untuk peralihan video
- Self Forcing: Pengoptimuman kelajuan (tidak serasi dengan model yang dipilih)
Isu Keserasian Teknikal Melanda Ciri-Ciri Canggih
Projek ini menghadapi cabaran teknikal yang ketara, terutamanya dengan alat pengoptimuman kelajuan. Self Forcing, satu teknik yang boleh mempercepatkan penjanaan video sehingga 5 kali ganda, terbukti tidak serasi dengan model FLF2V-148 yang dipilih. Ini memaksa pencipta untuk memilih antara masa penjanaan yang lebih pantas dan keupayaan model tertentu, akhirnya mengakibatkan masa rendering yang lebih lama.
Walau bagaimanapun, maklum balas komuniti mengenai Self Forcing masih bercampur-campur. Sesetengah pengguna melaporkan peningkatan kualiti yang dramatik, manakala yang lain memberi amaran terhadap penggunaannya untuk adegan kompleks, mencatatkan kemerosotan kualiti yang ketara untuk apa-apa yang melebihi tindakan mudah.
Spesifikasi Teknikal:
- Panjang video: 1 minit (13 adegan, ~5 saat setiap satu)
- Variasi rendering: 4-8 setiap adegan
- Keperluan GPU: perkakasan kelas H100
- Peningkatan kelajuan dengan Self Forcing: Sehingga 5x (apabila serasi)
- Kadar bingkai: 16fps, 81 bingkai setiap klip 5 saat
Penglibatan Kanak-Kanak dan Aliran Kerja Kreatif
Walaupun terdapat halangan teknikal, aspek kolaboratif terbukti berjaya. Peserta muda menunjukkan keghairahan khusus untuk papan cerita dengan Flux Kontext dan memilih klip video terbaik daripada pelbagai variasi yang dijana. Ini mencerminkan pengalaman daripada projek video AI ibu bapa-anak yang lain, walaupun rentang perhatian berbeza dengan ketara di kalangan pengguna muda.
Aliran kerja menggabungkan pelbagai alat AI: Flux Kontext untuk reka bentuk watak yang konsisten merentas bingkai papan cerita, Florence untuk penerangan imej, dan DeepSeek untuk menjana gesaan peralihan antara bingkai utama. Pendekatan berbilang alat ini, walaupun berkesan, menambah kerumitan dan titik kegagalan yang berpotensi.
Kebimbangan Komuniti Mengenai Kualiti Kandungan
Projek ini juga telah menarik kritikan daripada sesetengah ahli komuniti yang melihat kandungan yang dijana AI sedemikian sebagai mengambil jalan pintas mengatasi kerja kreatif tulen. Ini mencerminkan perdebatan yang lebih luas mengenai nilai dan keaslian projek kreatif yang dibantu AI, terutamanya apabila dipamerkan sebagai pencapaian teknikal dan bukannya usaha artistik.
Perbincangan ini menyerlahkan ketegangan berterusan antara proses kreatif tradisional dan penjanaan kandungan yang dipercepatkan AI, dengan persoalan sama ada alat sedemikian meningkatkan atau menggantikan kreativiti manusia kekal menjadi kontroversi dalam komuniti teknologi.
Nota: H100 merujuk kepada GPU pusat data berteknologi tinggi NVIDIA yang direka untuk beban kerja AI, biasanya berharga 25,000-40,000 dolar Amerika Syarikat seunit.
Rujukan: Short Animation with Wan Video, Flux Kontext, and DeepSeek