معرفی Emote Portrait Alive (EMO)
به طور خلاصه، Emote Portrait Alive (EMO) یک فناوری هوش مصنوعی است که در زمینهی ایجاد ویدیو تغییرات عمدهای ایجاد میکند. Alibaba این برنامه را ساخت تا به افراد کمک میکند تا با استفاده از یک تصویر و یک کلیپ صوتی، ویدیوهای زنده و واقعگرایانهای ایجاد کنند. با این ویژگی منحصر به فرد، میتوانید تصاویر سادهای را به ویدیوهای جذاب تبدیل کنید.
در شرکن Alibaba تحقیقات درباره ساختمان پیشرفته آن انجام شد و به EMO منتهی شد. این مؤسسه پیشگام، نقش پیشرو در تغییر هوش مصنوعی ایفا می کند. EMO گواه کار مهمی است که تیم بزرگی آن را راهانداری کردند.برای پر کردن شکاف بین تصاویر ایستا و محتوای بصری پویا، هدف EMO ایجاد فناوری است که میتواند ویدیوهای پرتره واقعیتر و گویاتر تولید کند.
نمای کلی و هدف Emote Portrait Alive
هدف از این فناوری ساختن یک سیستم تولید تصویر مبتنی بر صدا است. این برنامه می تواند یک ویدیوی دیجیتالی با چهره فردی را از یک تصویر مرجع و صدای صوتی (مانند صحبت کردن یا آواز خواندن) تولید کند. این ویدئو شامل سر سوژه با چهره های رسا و زوایای مختلف سر است که به طور بی عیب و نقصی با صدای ورودی ترکیب می شود.
قدرت محض EMO در توانایی آن برای ایجاد هر طولی از ویدئو، محدود به محدودیتهای زمانی فایل صوتی است. این انعطافپذیری به برنامههای مختلف، از جمله پیامهای ویدیویی شخصیشده و محتوای رسانههای اجتماعی، و همچنین موارد پیچیدهتر، مانند هنر دیجیتال، آموزش آنلاین، و ارتباطات از راه دور و غیره اجازه میدهد.
رویکرد سنتز صوتی به تصویری منحصر به فرد
چیزی که EMO را از تکنیکهای تولید ویدیوی سنتی متمایز میکند، یکی از نوآوریهای آن، رویکرد سنتز مستقیم صدا به تصویر است. بهجای ایجاد مدلهای سهبعدی یا نشانههای چهره و غیره بهعنوان صحنه بینالمللی، EMO بهطور کامل از این موارد صرفنظر میکند.
این روش به EMO اجازه میدهد تا ظرافتهای ظریف و ویژگیهای متمایز را که اغلب با گفتار و عبارات طبیعی مرتبط است، ثبت کند.
به این ترتیب، با پیوند مستقیم ورودی صدا به خروجی بصری، می توان حرکات دقیق و ویژگی های تلفظ یا حالت چهره هر فرد را در EMO ارائه کرد. این سطح از جزئیات و دقت برای ساختن ویدیوهایی که با واقعیت فرق نکند عالی است.
استفاده از Emote Portrait Alive یک روش ساده است که فقط به دو چیز اصلی نیاز دارد. یک عکس شروع و یک کلیپ صوتی که میتواند سخنرانی یا آهنگ باشد.
وقتی این چیزها را دارید، الگوریتمهای EMO فعال میشوند. آواتارهای آوازی با استعدادی را در ویدیوهایی تولید میکنند که انگار واقعاً آنجا هستند. همینطور چهرهها و سرهای زنده که در سراسر ویدیو حالتهای مختلفی دارد بسیار واقعی هستند.
بهترین چیز در مورد EMO این است که می تواند ویدیوهایی با هر طولی که میخواهید بسازد. این انعطافپذیری به کاربران اجازه میدهد بسته به هدف خود، ویدیوها را از کلیپهای کوتاه تا سری طولانی ایجاد کنند.