Imagen 4 Fast Google Bermasalah dengan Pematuhan Arahan Walaupun Mendakwa Kelajuan Tinggi

Pasukan Komuniti BigGo
Imagen 4 Fast Google Bermasalah dengan Pematuhan Arahan Walaupun Mendakwa Kelajuan Tinggi

Google telah melancarkan Imagen 4 Fast, model AI teks-ke-imej baharu yang direka untuk penjanaan pantas pada harga 0.02 dolar Amerika Syarikat setiap imej. Walau bagaimanapun, sambutan komuniti agak suam-suam kuku, dengan pengguna menyerlahkan isu-isu ketara berkaitan keupayaan model untuk mengikut arahan terperinci.

Harga dan Ciri-ciri Keluarga Imagen 4

  • Imagen 4 Fast: $0.02 USD setiap imej, dioptimumkan untuk kelajuan dan tugasan bervolum tinggi
  • Imagen 4: Model standard untuk penjanaan berkualiti tinggi dengan pemaparan teks yang diperbaiki
  • Imagen 4 Ultra: Model premium untuk pematuhan gesaan yang ketat dan perincian tertinggi
  • Resolusi: Sokongan resolusi sehingga 2K untuk Imagen 4 dan Imagen 4 Ultra
  • Tera Air: Semua imej termasuk tera air SynthID yang tidak dapat dilihat

Pematuhan Arahan Yang Lemah Menimbulkan Kebimbangan Kualiti

Isu yang paling ketara nampaknya ialah ketidakupayaan Imagen 4 Fast untuk mematuhi arahan khusus dalam prompt. Pengguna yang meneliti contoh-contoh promosi Google sendiri mendapati banyak kesilapan, terutamanya dalam demonstrasi jalur komik empat panel. Model tersebut gagal mengikut arahan eksplisit mengenai kandungan panel, penempatan watak, dan pemformatan teks. Dalam satu contoh, prompt meminta seekor kucing dan anjing bersalam tinggi di panel terakhir, tetapi imej yang dijana menunjukkan kucing tersebut bersalam tinggi dengan dirinya sendiri.

Ahli komuniti telah membandingkan Imagen 4 Fast secara tidak baik dengan model pesaing seperti GPT-Image-1 OpenAI, dengan beberapa pengguna melaporkan hasil yang lebih baik daripada platform alternatif apabila diberi prompt yang sama. Walaupun Google meletakkan Imagen 4 Ultra sebagai penyelesaian untuk pematuhan ketat kepada prompt, ramai mempersoalkan sama ada versi Fast memberikan nilai yang mencukupi walaupun pada titik harga yang rendah.

Had Teknikal dan Masalah Dokumentasi

Selain daripada isu pematuhan prompt, pengguna telah menemui had teknikal yang membimbangkan. Model kadangkala mengeluarkan teks sahaja dan bukannya imej, mungkin berhenti menjana di tengah jalan, dan pada masa ini tidak mempunyai fungsi imej-ke-imej yang ditawarkan pesaing. Selain itu, dokumentasi Google nampaknya tidak lengkap, dengan pautan menuju ke halaman yang tidak mendokumentasikan model Imagen terkini.

Model ini juga menunjukkan kecenderungan ke arah output kartun berbanding imej fotorealistik, yang telah mengecewakan pembangun yang bekerja pada projek yang memerlukan visual realistik. Sesetengah pengguna melaporkan bahawa Imagen 4 nampaknya enggan menjana apa-apa yang boleh disalah anggap sebagai gambar sebenar.

Batasan Teknikal Utama

  • Mungkin mengeluarkan teks sahaja dan bukannya imej
  • Penjanaan mungkin terhenti separuh jalan
  • Fungsi imej-ke-imej tidak disokong pada masa ini
  • Kecenderungan ke arah output kartun berbanding fotorealistik
  • Pematuhan yang lemah terhadap arahan prompt yang terperinci
  • Dokumentasi tidak lengkap dan pautan rosak dalam sumber rasmi
Imej ini menggambarkan jenis visual yang menakjubkan yang diharapkan dapat dicapai oleh pengguna dengan penjanaan imej AI, menonjolkan jurang antara jangkaan dan realiti
Imej ini menggambarkan jenis visual yang menakjubkan yang diharapkan dapat dicapai oleh pengguna dengan penjanaan imej AI, menonjolkan jurang antara jangkaan dan realiti

Kedudukan Pasaran dan Jangkaan Pengguna

Walaupun terdapat had ini, sesetengah ahli komuniti berhujah bahawa walaupun hasil yang tidak sempurna boleh memberikan nilai pada 0.02 dolar Amerika Syarikat setiap imej, terutamanya untuk prototaip pantas atau pembangunan konsep. Pendekatan tiga peringkat dengan Imagen 4 Fast, Imagen 4 standard, dan Imagen 4 Ultra membolehkan pengguna mengimbangi kelajuan, kos, dan kualiti berdasarkan keperluan khusus mereka.

Walau bagaimanapun, sambutan bercampur komuniti menyerlahkan cabaran berterusan yang dihadapi penjanaan imej AI: mengimbangi kelajuan dan kos dengan kebolehpercayaan dan pematuhan prompt. Seperti yang dinyatakan oleh seorang pengguna, perkembangan daripada itu mustahil kepada mengkritik kecacatan kecil menunjukkan betapa cepatnya jangkaan telah berkembang dalam ruang ini.

Pelancaran ini mewakili percubaan Google untuk bersaing dalam pasaran penjanaan imej AI yang semakin sesak, tetapi maklum balas awal komuniti menunjukkan penambahbaikan ketara diperlukan sebelum Imagen 4 Fast boleh memenuhi jangkaan pengguna yang ditetapkan oleh platform pesaing.

Rujukan: Announcing Imagen 4 Fast and the generally availability of the Imagen 4 family in the Gemini API