Stable Cascade یک مدل تولید تصویر به متن جدید از Stability AI است که بر اساس معماری Würstchen ساخته شده است. این مدل بسیار آسان در اجرا و آموزش بر روی سختافزار مصرفکننده است.
Stable Cascade از سه مدل تشکیل شده است: مرحله A، مرحله B و مرحله C که یک پیوند برای تولید تصاویر را نمایان میکند، از این رو نام “Stable Cascade” است. مرحلههای A و B برای فشردهسازی تصاویر به طور مشابه با کار VAE در Stable Diffusion استفاده میشوند. با این حال، همانطور که قبلاً اشاره شد، با این تنظیم میتوان فشردهسازی بسیار بالاتری از تصاویر داشت. علاوه بر این، مرحله C مسئول تولید فرمت کوچک 24 × 24 به عنوان ورودی متن است.
Stable Cascade نسخهای از مدل متن به تصویر است که با استفاده از یک فرآیند سه مرحلهای، کیفیت بالا، انعطافپذیری و کارایی را به دست میآورد. این مدل قادر است تصاویر را از متن، تغییرات تصویر و تبدیلهای تصویر به تصویر تولید کند و از ControlNet و LoRA finetuning پشتیبانی میکند.