imagen 2، یک مدل پردازنده متن به تصویر نوآورانه است که توسط گوگل توسعه یافته است. این مدل دارای سطح بیسابقهای از واقعگرایی تصویری و درک عمیق زبان است. Imagen 2 از قدرت مدلهای زبانی تحولدهنده بزرگ برای درک متن و مدلهای پخش برای تولید تصاویر با کیفیت بالا استفاده میکند.
Imagen2 بهبودی در همترازی تصویر و متن ایجاد میکند. یافتهی اصلی ما این است که مدلهای زبانی عمومی بزرگ مانند T5که روی مجموعههای متنی آموزش دیدهاند، به طرز معجزهآسایی در کدگذاری متن برای ایجاد تصویر مؤثر هستند. با افزایش اندازه مدل زبانی، بهبودی در دقت نمونه و همترازی تصویر و متن دیدهایم.
جایگاه این هوش مصنوعی در بین رقبا
هوش مصنوعی Imagen 2 گوگل رکوردهایی را در مجموعهداده COCO شکست میدهد. با امتیاز FID جدیدی به اندازه 7.27 در مجموعهداده COCO دستیافته است، حتی بدون آموزش روی COCO. ارزیابهای انسانی همچنین مشاهده کردند که نمونههای Imagen 2معادل دادههای COCO در همترازی تصویر و متن هستند. ما همچنین از DrawBench، یک مرجع جامع و چالشبرانگیز برای مدلهای متن-تصویر استفاده کردیم. در مقایسه با روشهای اخیر دیگر، ارزیابهای انسانی ترجیح دادند که هوش مصنوعی گوگل را در مقایسههای موازی با سایر مدلها انتخاب کنند.
چگونه از Imagen 2 استفاده کنیم؟
Imagen 2 را با Vertex AI امتحان کنید. یکی از بهترین ویژگیهای این برنامه است که این هوش مصنوعی از طریق پلتفرم Vertex AI قابل دسترسی است. بنابراین، شما نه تنها میتوانید به سرعت تصاویر تولید کنید، بلکه میتوانید به راحتی از API آن استفاده کنید و این کار را در یک محیط امن انجام دهید.
ویژگیهای Imagen 2
تولید تصاویر نوآورانه با استفاده از متن: مثلاً یک سگ در فضاپیما.
ویرایش تصویر کامل با متن: مثلاً “یک عکس از پاندا در وسط تهران.
ویرایش بخشهایی از تصویر با استفاده از ماسک تعریف شده: مثلاً “یک مجسمه شفاف از خرس ساخته شده از شیشه”.