Stability AI merilis model pembuatan teks ke Stable Diffusion 3.5

Stability AI , pengembang model sumber terbuka yang berfokus pada pembuatan teks ke gambar, telah merilis Stable Diffusion 3.5, versi terbaru dari pembelajaran mendalam, model teks ke gambar.

Rilisan ini menampilkan tiga model teks-ke-gambar sumber terbuka yang disempurnakan yang dirancang untuk beragam pengguna, termasuk peneliti, klien perusahaan, dan penghobi, kata perusahaan itu dalam sebuah pernyataan.

Stable Diffusion 3.5 Large : Dengan 8,1 miliar parameter, dengan kualitas superior dan kepatuhan cepat, model dasar ini adalah yang terkuat dalam keluarga Stable Diffusion. Model ini ideal untuk kasus penggunaan profesional pada resolusi 1 megapiksel.
Stable Diffusion 3.5 Large Turbo: Versi sulingan dari Stable Diffusion 3.5 Large menghasilkan gambar berkualitas tinggi dengan daya rekat cepat yang luar biasa hanya dalam 4 langkah, membuatnya jauh lebih cepat daripada Stable Diffusion 3.5 Large.
Stable Diffusion 3.5 Medium : Dengan 2,5 miliar parameter, dengan arsitektur MMDiT-X dan metode pelatihan yang lebih baik, model ini dirancang untuk berjalan “langsung” pada perangkat keras konsumen, sehingga menghasilkan keseimbangan antara kualitas dan kemudahan penyesuaian. Model ini mampu menghasilkan gambar dengan resolusi antara 0,25 dan 2 megapiksel.

Perilisan ini menyusul debut sebelumnya dari Stable Diffusion 3 Medium pada bulan Juni, yang diakui perusahaan sebagai sesuatu yang belum memenuhi harapan komunitas dan internal.

“Kami memilih untuk membangun solusi yang benar-benar dapat mengubah media visual, bukan sekadar perbaikan cepat,” kata perusahaan itu. Pembaruan terbaru ini ditujukan untuk mendapatkan kembali keunggulan kompetitif Stability AI di tengah meningkatnya persaingan dari platform seperti DALL-E dan Midjourney milik OpenAI.

Fitur teknis utama dari model baru ini adalah Query-Key Normalization dalam blok transformator AI, yang menurut Stability AI meningkatkan kustomisasi dan kepatuhan terhadap perintah. Modifikasi ini mendukung pengembang dan kreator dalam mencapai hasil yang lebih konsisten dengan perintah yang tepat sekaligus memungkinkan interpretasi yang lebih luas dengan perintah yang kurang spesifik.