Alibaba Buka Sumber Qwen-Image-Edit: Editor Imej Berkuasa AI Mencabar Adobe Photoshop

Pasukan Editorial BigGo
Alibaba Buka Sumber Qwen-Image-Edit: Editor Imej Berkuasa AI Mencabar Adobe Photoshop

Alibaba telah mengeluarkan Qwen-Image-Edit, sebuah alat penyuntingan imej berkuasa AI sumber terbuka yang berpotensi mengganggu pasaran penyuntingan imej tradisional yang dikuasai oleh Adobe Photoshop. Model baharu ini mewakili kemajuan ketara dalam penciptaan kandungan visual dipacu AI, menawarkan keupayaan penyuntingan canggih melalui arahan bahasa semula jadi.

Demonstrasi pelbagai transformasi gaya yang dimungkinkan oleh alat Qwen-Image-Edit milik Alibaba
Demonstrasi pelbagai transformasi gaya yang dimungkinkan oleh alat Qwen-Image-Edit milik Alibaba

Keupayaan Penyuntingan Dwi-Mod Termaju

Qwen-Image-Edit memperkenalkan pendekatan revolusioner kepada manipulasi imej dengan menggabungkan penyuntingan semantik dan penampilan dalam satu platform. Model ini dibina berdasarkan model asas Qwen-Image 20B parameter milik Alibaba, memperluaskan keupayaan pemaparan teksnya ke dalam wilayah penyuntingan imej yang komprehensif. Sistem ini memproses imej input melalui kedua-dua Qwen2.5-VL untuk kawalan semantik visual dan VAE Encoder untuk kawalan penampilan visual, membolehkan fleksibiliti yang tidak pernah ada sebelum ini dalam operasi penyuntingan.

Fungsi penyuntingan semantik membolehkan pengguna mengubah suai kandungan imej sambil mengekalkan makna visual asal dan konteks. Pengguna boleh meminta transformasi kompleks seperti menukar orientasi objek, menambah elemen baharu, atau menggunakan pemindahan gaya artistik sambil mengekalkan konsistensi watak dan pelarasan pencahayaan semula jadi. Keupayaan ini terbukti sangat berharga untuk penciptaan kandungan IP, di mana mengekalkan konsistensi jenama merentasi pelbagai senario menjadi mudah.

Spesifikasi Model

  • Model Asas: Model Qwen-Image berparameter 20B
  • Seni Bina: Pemprosesan dwi-laluan dengan Qwen2.5-VL dan VAE Encoder
  • Sokongan Bahasa: Penyuntingan teks bahasa Cina dan Inggeris
  • Prestasi: Keputusan SOTA pada pelbagai penanda aras awam
Representasi visual sintesis pandangan novel yang mempamerkan perspektif berbeza melalui teknik manipulasi imej termaju
Representasi visual sintesis pandangan novel yang mempamerkan perspektif berbeza melalui teknik manipulasi imej termaju

Penyuntingan Teks Tepat dan Sokongan Pelbagai Bahasa

Salah satu ciri menonjol Qwen-Image-Edit ialah ketepatan penyuntingan teksnya yang luar biasa, menyokong kedua-dua bahasa Cina dan Inggeris. Sistem ini boleh mengubah suai, menambah, atau mengeluarkan elemen teks dalam imej sambil mengekalkan fon asal, saiz, dan elemen gaya. Fungsi ini meliputi senario kompleks seperti membetulkan ralat kaligrafi dalam tulisan Cina tradisional, di mana model boleh melakukan pembetulan berantai untuk memperhalusi ketepatan aksara secara beransur-ansur.

Model ini menunjukkan keupayaan yang luar biasa dalam mengendalikan senario teks yang rumit, daripada pengubahsuaian papan tanda mudah hingga penyuntingan poster kompleks. Pengguna boleh menyatakan perubahan teks yang tepat, dan sistem menghasilkan hasil yang sesuai mengikut konteks, termasuk pantulan dan bayang-bayang semula jadi yang sepadan dengan persekitaran sekeliling.

Ciri-ciri Utama

  • Penyuntingan penampilan peringkat rendah (penambahan, pemadaman, pengubahsuaian elemen)
  • Penyuntingan semantik peringkat tinggi (penciptaan IP, putaran objek, pemindahan gaya)
  • Penyuntingan teks yang tepat dengan pemeliharaan fon/gaya
  • Pembetulan berasaskan rantai untuk senario teks yang kompleks
  • Penjanaan pencahayaan dan pantulan semula jadi
Contoh penyuntingan teks yang inovatif menggunakan teknologi AI untuk mengubah suai huruf dalam carta abjad
Contoh penyuntingan teks yang inovatif menggunakan teknologi AI untuk mengubah suai huruf dalam carta abjad

Prestasi Terdepan dan Kebolehcapaian

Penilaian penanda aras menunjukkan bahawa Qwen-Image-Edit mencapai prestasi terdepan (SOTA) merentasi pelbagai set data penyuntingan imej awam. Model ini cemerlang dalam mengekalkan konsistensi subjek sambil membenarkan variasi semula jadi dalam pencahayaan dan tekstur berdasarkan perubahan adegan. Ujian menunjukkan prestasi kukuh dalam penambahan dan penyingkiran objek, anjakan perspektif, pengubahsuaian latar belakang, dan pelarasan elemen terperinci.

Pada masa ini, pengguna boleh mengakses Qwen-Image-Edit melalui Qwen Chat di chat.qwen.ai dengan memilih fungsi Image Editing. Model ini juga tersedia di platform ModelScope, Hugging Face, dan GitHub, walaupun penggunaan percuma disertakan dengan had tertentu pada bilangan operasi.

Maklumat Akses

Aplikasi Dunia Sebenar dan Potensi Kreatif

Aplikasi praktikal Qwen-Image-Edit merangkumi pelbagai industri kreatif. Pencipta kandungan boleh menghasilkan senario pelbagai untuk watak harta intelek, seperti yang ditunjukkan oleh penciptaan pek ekspresi bertema MBTI menggunakan maskot kapibara mereka oleh Alibaba. Alat ini membolehkan sintesis pandangan novel, membenarkan pengguna memutar objek 90 atau 180 darjah untuk mendedahkan perspektif berbeza, dan menyokong pemindahan gaya komprehensif termasuk gaya artistik popular seperti animasi Studio Ghibli.

Aplikasi profesional termasuk senario komunikasi maya, mockup produk, dan prototaip pantas untuk bahan pemasaran. Keupayaan sistem untuk mengekalkan konsistensi sambil membenarkan fleksibiliti kreatif menjadikannya sangat berharga untuk jenama yang memerlukan identiti visual yang kohesif merentasi pelbagai platform dan konteks.

Had Semasa dan Prospek Masa Depan

Walaupun mempunyai keupayaan yang mengagumkan, Qwen-Image-Edit menghadapi cabaran tertentu. Kaligrafi kompleks dan gaya tulisan tangan yang rumit boleh menimbulkan kesukaran untuk pengecaman dan pengubahsuaian aksara yang tepat. Sesi penyuntingan pelbagai pusingan mungkin mengalami pengurangan ketepatan dan konsistensi dalam penggunaan lanjutan. Selain itu, akses percuma semasa termasuk sekatan penggunaan yang mengehadkan eksperimen meluas.

Pengeluaran Qwen-Image-Edit menandakan peralihan ketara ke arah mendemokrasikan keupayaan penyuntingan imej gred profesional. Dengan menurunkan halangan teknikal untuk penciptaan kandungan visual, pendekatan sumber terbuka ini boleh mempercepatkan inovasi dalam industri kreatif sambil mencabar penyelesaian komersial yang mantap. Apabila teknologi terus berkembang, ia berjanji untuk membentuk semula cara pencipta, pemasar, dan pereka mendekati pengeluaran kandungan visual.