Keluaran terkini Ovi, sebuah model AI sumber terbuka yang mampu menjana klip video dan audio segerak selama 5 saat daripada petunjuk teks atau imej, telah mencetuskan perbincangan hangat tentang masa depan penciptaan video. Memandangkan teknologi ini menunjukkan keupayaan yang mengejutkan—menghasilkan kandungan beresolusi tinggi walaupun dilatih dengan data beresolusi rendah—komuniti sedang bergelut dengan implikasi terhadap pembikin filem, landskap persaingan, dan hakikat ekspresi kreatif.
Cabaran Sumber Terbuka kepada Gergasi Teknologi
Kemunculan model sumber terbuka yang berkemampuan seperti Ovi mewakili perubahan signifikan dalam ruang penjanaan video AI. Dibina atas asas seperti Wan 2.2 untuk video dan MMAudio untuk pemprosesan audio, projek berasaskan komuniti ini menunjukkan bahawa penjanaan video berkualiti tinggi bukanlah eksklusif kepada makmal korporat yang mempunyai dana besar. Keupayaan model untuk berjalan pada perkakasan pengguna seperti RTX 5090 dengan 32GB VRAM, atau melalui sewaan awan yang berharga bawah 0.50 dolar AS sejam, menjadikan penciptaan video canggih boleh diakses oleh pencipta individu dan bukan hanya studio utama.
Sungguh menyenangkan menyaksikan model terbuka yang fleksibel menunjukkan prestasi yang kukuh menentang pesaing tertutup yang mempunyai dana besar seperti OpenAI dan Runway.
Kebolehcapaian ini mewujudkan tekanan baharu kepada pemain mapan. Walaupun syarikat seperti OpenAI dan Google terus memajukan model proprietari dengan keupayaan yang mengagumkan, kemajuan pantas alternatif terbuka mencadangkan jurang mungkin menutup lebih cepat daripada jangkaan.
Keupayaan Teknikal dan Aplikasi Kreatif
Spesifikasi teknikal Ovi mendedahkan kedua-dua keupayaan dan batasan semasa. Model ini menjana video 5 saat pada 24 bingkai sesaat dalam pelbagai nisbah aspek, dengan kekuatan khusus dalam mengendalikan resolusi lebih tinggi daripada yang digunakan untuk latihannya. Keupayaan penskalaan ini mengekalkan konsistensi temporal dan spatial, membolehkan output seperti resolusi 1280×704 dan 1344×704 daripada data latihan 720×720.
Proses kreatif melibatkan pemformatan petunjuk khusus, menggunakan tag seperti <SPEECH>
untuk dialog dan <AUDIODESCRIPTION>
untuk kesan bunyi. Pendekatan berstruktur ini membolehkan pencipta memandu elemen visual dan audio secara serentak, walaupun output semasa masih menunjukkan artifak yang meletakkannya dalam apa yang digambarkan pengulas sebagai lembah aneh—hampir realistik tetapi tidak cukup meyakinkan untuk secara konsisten memperdaya persepsi manusia.
Spesifikasi Model Ovi
- Panjang Video: 5 saat
- Kadar Bingkai: 24 FPS
- Resolusi Latihan: 720×720
- Resolusi Output: Menyokong sehingga 960×960 dan pelbagai nisbah aspek (16:9, 1:1, 7:16)
- Pilihan Input: Teks sahaja atau teks+imej bersyarat
- Integrasi Audio: Penjanaan pertuturan dan kesan bunyi yang disegerakkan
- Keperluan Perkakasan: Berfungsi pada GPU pengguna seperti RTX 5090 (32GB VRAM)
Masa Depan Pembikinan Filem dan Penciptaan Kandungan
Mungkin perbincangan paling hangat berkisar tentang bagaimana teknologi ini mungkin mengubah hiburan. Sesetengah membayangkan masa depan terdekat di mana individu boleh mencipta filem pendek canggih dari bilik bawah tanah mereka, manakala yang lain kekal skeptikal tentang kandungan terjana AI yang akan mencapai penerimaan arus perdana.
Debat ini mendedahkan perbezaan generasi dalam cara orang melihat kreativiti AI. Sesetengah berhujah bahawa penentangan terhadap seni AI akan pudar apabila generasi muda yang membesar dengan teknologi ini menjadi penonton utama. Yang lain menegaskan bahawa mengetahui kandungan dihasilkan secara algoritma pada asasnya melemahkan nilai artistiknya, tanpa mengira kualiti teknikal.
Batasan semasa mengenai konsistensi watak merentas adegan dan penceritaan visual yang koheren kekal sebagai halangan signifikan. Seperti yang dinyatakan seorang pengulas, Untuk mempunyai watak yang sama, memakai pakaian yang sama, melawati persekitaran semula, dengan pencahayaan dan pemprosesan pasca yang sama adalah sangat berbeza daripada menjana klip terpencil. Cabaran kesinambungan ini mencadangkan bahawa filem panjang terjana AI masih jauh, walaupun format lebih pendek mungkin tiba lebih awal.
Batasan Semasa yang Diperhatikan oleh Komuniti
- Isu ketekalan watak merentas adegan
- Artifak visual sekali-sekala (contohnya, anggota badan tambahan dalam kandungan yang dijana)
- Kesan "lembah luar biasa" dalam representasi manusia
- Terhad kepada segmen video pendek (5 saat)
- Cabaran kesepaduan antara adegan berturut-turut
Implikasi Etika dan Industri
Kebolehcapaian teknologi ini menimbulkan persoalan penting tentang keaslian dan pemilikan kreatif. Keupayaan menjana kandungan video yang meyakinkan dengan mudah boleh mempercepatkan kebimbangan tentang maklumat salah, sambil pada masa yang sama mendemokrasikan ekspresi kreatif. Ketegangan antara kemungkinan ini mencerminkan perbualan masyarakat yang lebih luas tentang peranan AI dalam industri kreatif.
Bagi pembikin filem profesional, penjanaan video AI mungkin menjadi alat lain dalam saluran pengeluaran dan bukan pengganti kreativiti manusia. Seperti CGI dalam dekad sebelumnya, pelaksanaan paling berjaya mungkin akan menggabungkan keupayaan AI dengan arahan artistik manusia dan bukan menggantikannya sepenuhnya.
Kemajuan pesat model penjanaan video sumber terbuka seperti Ovi menandakan detik penting untuk teknologi kreatif. Walaupun batasan teknikal kekal, pendemokrasian alat penciptaan video canggih nampaknya tidak dapat dielakkan. Perbualan berterusan ini mendedahkan kedua-dua keseronokan tentang kemungkinan kreatif baharu dan kebimbangan tentang bagaimana teknologi ini mungkin membentuk semula hiburan, keaslian, dan ekspresi artistik pada tahun-tahun mendatang.
Rujukan: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation