VLOGGER جز یکی از پروژههای تحقیقاتی گوگل است. این برنامه به شما امکان میدهد تا از یک عکس ثابت یک آواتار متحرک ایجاد کنید و با صدای خود آن را کنترل کنید. این آواتارها به طور معجزهآسا واقعگرایانه به نظر میآیند.
چگونه این برنامه کار میکند؟
VLOGGER یک مدل بر پایه معماری Diffusion ساخته شده است. این برنامه قدرت تولید متناظر با تصویر، ویدیو و حتی مدلهای سهبعدی مانند MidJourney یا Runway را دارد.
VLOGGER از چند مرحله برای ایجاد آواتار استفاده میکند:
ابتدا، صدا و تصویر را به عنوان ورودی میگیرد و آنها را از طریق یک فرآیند تولید حرکت سهبعدی میگذراند.
سپس از یک مدل Diffusion زمانی برای تعیین زمانبندی و حرکت استفاده میکند.
در نهایت، تصویر بالارفته و به خروجی نهایی تبدیل میشود.
به طور مختصر، این مدل یک شبکه عصبی را برای پیشبینی حرکت چهره، بدن، حالت، نگاه و عبارات در طول زمان با استفاده از تصویر ثابت به عنوان فریم اول و صدا به عنوان راهنما ایجاد میکند. آموزش این مدل نیاز به مجموعهدادهی چندرسانهای بزرگ به نام MENTOR دارد.
نحوه٬ی کارکرد این برنامه با جزييات بیشتر
VLOGGER با تصاویر ساده به شکل جالبی کار میکند. این پروژه تحقیقاتی از یک تصویر ثابت، مانند عکس یک چهره، یک آواتار متحرک ایجاد میکند. البته، این یک فرآیند پیچیدهتر از سادهسازی است و نیاز به مدلهای عمیق و معماریهای پیچیده دارد.
در اینجا چگونگی کارکرد VLOGGER با تصاویر ساده توضیح داده شده است:
ورودی تصویر ثابت:ابتدا، یک تصویر ثابت (مثلاً یک عکس چهره) را به عنوان ورودی میگیرد.
این تصویر به عنوان فریم اول برای ایجاد آواتار متحرک استفاده میشود.
پیشبینی حرکت:سپس، از یک مدل عصبی به نام Diffusion زمانی استفاده میکند.
این مدل با استفاده از تصویر ثابت به عنوان فریم اول و صدا به عنوان راهنما، حرکت چهره، بدن، حالت، نگاه و عبارات را در طول زمان پیشبینی میکند.
تبدیل به آواتار متحرک:در نهایت، تصویر بالارفته و به یک آواتار متحرک تبدیل میشود.
این آواتارها به طور معجزهآسا واقعگرایانه به نظر میآیند و میتوانید با صدای خود آنها را کنترل کنید.
VLOGGER یک پروژه جالب و نوآورانه است که از تصاویر ساده به عنوان نقطه شروع، آواتارهای متحرک واقعگرایانه ایجاد میکند. اگر علاقهمند هستید، حتماً امتحان کنید.