Krea telah mengeluarkan berat terbuka untuk FLUX | Krea , sebuah model penjanaan imej berparameter 12 bilion yang direka untuk menangani salah satu masalah yang paling berterusan dalam imejan yang dijana AI: rupa AI yang tersendiri yang menjadikan imej sintetik mudah dikenal pasti. Model ini, yang dibangunkan dengan kerjasama Black Forest Labs , mewakili usaha yang tertumpu untuk mencipta imej yang dijana dengan rupa yang lebih semula jadi melalui kurasi data yang teliti dan pilihan estetik yang berpendirian.
Spesifikasi Model:
- Parameter: 12 bilion (12B)
- Saiz fail: 23.8 GB
- Ketepatan: bfloat16 (16 bit setiap parameter)
- Keperluan VRAM: ~24 GB
- Seni bina: Model aliran yang diperbetulkan, serasi dengan FLUX
- Data latihan: <1M sampel untuk latihan pasca
| |
|:--:|
| Gambaran keseluruhan pelancaran model FLUX | Krea oleh Krea , menonjolkan komitmennya terhadap fotorealisme dan estetika |
Membebaskan Diri daripada Rupa AI
Syarikat ini mengenal pasti beberapa tanda yang jelas yang melanda penjana imej AI semasa: latar belakang yang terlalu kabur, tekstur kulit seperti lilin, dan komposisi yang membosankan. Isu-isu ini telah menjadi begitu berleluasa sehingga secara kolektif membentuk apa yang kini dipanggil industri sebagai rupa AI. Pendekatan Krea mencabar tumpuan biasa pada penanda aras teknikal dan pematuhan gesaan, dengan berhujah bahawa kaedah penilaian sedia ada tidak sejajar dengan apa yang sebenarnya diingini pengguna daripada alat penjanaan imej.
Pasukan ini mendapati bahawa model pemarkahan estetik popular seperti LAION Aesthetics , yang biasa digunakan untuk menapis data latihan, sebenarnya memperkenalkan bias yang berbahaya. Model-model ini memihak kepada imej yang menggambarkan wanita, latar belakang kabur, dan tekstur yang terlalu lembut - tepat ciri-ciri yang menyumbang kepada penampilan buatan yang ingin dielakkan oleh pengguna.
![]() |
---|
Gambar dekat burung yang unik dan menarik melambangkan matlamat Krea untuk mencapai imejan yang dijana AI yang lebih semula jadi dan menarik secara visual |
Seni Bina Teknikal dan Keserasian
FLUX | Krea dibina sebagai model sulingan panduan yang serasi sepenuhnya dengan ekosistem FLUX sedia ada. Keserasian ini bermakna pembangun boleh menyepadukan ia dengan lancar ke dalam aliran kerja sedia ada, kod penalaan halus, dan alat yang pada asalnya direka untuk FLUX.1 dev. Fail model ini mempunyai berat 23.8 GB, menggunakan ketepatan titik terapung 16-bit yang diterjemahkan kepada kira-kira 2 GB setiap bilion parameter.
Pasukan pembangunan menekankan bahawa mereka bermula dengan model asas mentah daripada Black Forest Labs yang dipanggil flax-deit-v3-large. Model pra-latihan ini menyediakan pengetahuan dunia yang penting sambil kekal tidak terbakar - bebas daripada bias estetik yang melanda banyak model berat terbuka sedia ada yang telah menjalani latihan pasca yang meluas.
Pendekatan Kualiti Data Berbanding Kuantiti
Salah satu penemuan paling penting daripada proses pembangunan Krea ialah hasil berkualiti tinggi boleh dicapai dengan set data yang mengejutkan kecil. Pasukan ini menggunakan kurang daripada satu juta sampel untuk latihan pasca, dengan memberi tumpuan intensif kepada kualiti data berbanding skala. Pendekatan dua peringkat mereka melibatkan penalaan halus yang diselia diikuti dengan pembelajaran pengukuhan daripada maklum balas manusia menggunakan teknik yang mereka panggil TPO (varian mereka bagi pengoptimuman keutamaan).
Anda sebenarnya boleh menggunakan kurang daripada < 1J sampel untuk meningkatkan estetik dengan ketara. Kualiti amat PENTING.
Syarikat ini mengambil pendekatan yang sengaja berpendirian terhadap keutamaan estetik, dengan berhujah menentang amalan biasa melatih pada keutamaan pengguna global. Mereka mendapati bahawa cuba memuaskan hati citarasa estetik yang pelbagai secara serentak menghasilkan model yang dicairkan yang tidak memuaskan sesiapa sepenuhnya.
Metodologi Latihan:
- Fokus pra-latihan: Liputan mod dan pemahaman dunia
- Fokus pasca-latihan: Keruntuhan mod ke arah estetik yang diingini
- Peringkat 1: Penalaan Halus Terselia (SFT) dengan imej berkualiti tinggi yang dipilih susun
- Peringkat 2: Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF) menggunakan teknik TPO
- Model asas: flax-deit-v3-large daripada Black Forest Labs
Sambutan Komuniti dan Aplikasi Perniagaan
Maklum balas komuniti awal adalah bercampur-campur tetapi terlibat. Pengguna telah menyedari beberapa keanehan, seperti kecenderungan model untuk menjana tangan seperti manusia dalam konteks yang tidak dijangka, mencerminkan sifat berpendirian yang diterangkan oleh pasukan. Model ini memerlukan sumber pengiraan yang besar, dengan kiraan parameter 12 bilion menuntut kira-kira 24 GB VRAM untuk operasi.
Aplikasi perniagaan merangkumi pelbagai industri, daripada e-dagang dan fesyen untuk imejan produk yang konsisten kepada reka bentuk UI/UX untuk mencipta ikon dan susun atur. Syarikat telah melihat penggunaan dalam pasukan pemasaran dan agensi, dengan aplikasi masa depan yang berpotensi dalam fotografi menu restoran dan sektor lain yang memerlukan imejan berkualiti profesional tanpa kos fotografi tradisional.
Keluaran ini mewakili peralihan yang lebih luas dalam penjanaan imej AI ke arah pembangunan yang berfokuskan estetik berbanding kemajuan keupayaan teknikal tulen. Dengan menjadikan berat tersedia secara percuma di bawah lesen yang sama seperti FLUX.1-dev, Krea membolehkan komuniti sumber terbuka membina atas pendekatan berfokuskan estetik mereka sambil berpotensi memberi inspirasi kepada usaha serupa di seluruh industri.
Rujukan: Releasing Open Weights for FLUX | Krea
![]() |
---|
Detik tenang antara bapa dan anak mewakili potensi penceritaan emosi aplikasi penjanaan imej AI Krea dalam pelbagai industri |