Voice Engine by OpenAI چیست؟
در حال حاضر، Voice Engine در مرحله پیشنمایش قرار دارد و به طور گسترده منتشر نشده است. این مدل از متن و یک نمونه صوتی 15 ثانیهای استفاده میکند تا گفتاری طبیعی تولید کند که به طور نزدیک به صدای اصلی شخص شبیهسازی شود. OpenAI به دلیل مخاطرات جدی مرتبط با استفاده نادرست از صداهای مصنوعی، بهطور محتاطانه به انتشار گستردهتر این تکنولوژی نگریسته است. در حال حاضر، این تکنولوژی در مرحله پیشنمایش قرار دارد و به طور گسترده منتشر نشده است. بر اساس نتایج آزمایشهای کوچک مقیاس، تصمیمگیری دقیقتری در مورد استفاده از این تکنولوژی به مقیاس بزرگ خواهیم گرفت.
این برنامه چگونه کار میکند؟
ترجمه محتوا، مانند ویدیوها و پادکستها، به طوری که خالقان و کسبوکارها بتوانند به طور روان و با صدای خود به تعداد بیشتری از مردم در سراسر جهان دسترسی داشته باشند، قابلیت قدرتمندی است. Voice Engine، که توسط OpenAI توسعه یافته است، نقش کلیدی در این تلاش دارد. یکی از مثالهای اولیه از استفاده از Voice Engine، پلتفرم داستانگویی تصویری هویجن (HeyGen) است. هویجن با مشتریان شرکتهای بزرگ همکاری میکند تا آواتارهای سفارشی و شبیه به انسان برای انواع محتواها از بازاریابی محصول تا نمایشهای فروش ایجاد کند.
با بهرهگیری از Voice Engine، هویجن ترجمه ویدیو را به طور بیدرز انجام میدهد. وقتی صدای یک سخنران باید به چند زبان ترجمه شود، Voice Engine تضمین میکند که لهجه زادی سخنران اصلی حفظ میشود. به عنوان مثال، اگر ترجمه انگلیسی از نمونه صوتی یک سخنران فرانسوی تولید شود، گفتار نتیجهای با لهجه فرانسوی خواهد داشت. این رویکرد به خالقان و کسبوکارها امکان دسترسی به مخاطبان متنوع در سراسر جهان را میدهد و ارتباط و دسترسی را بهبود میبخشد.
این برنامه برای چه کسانی کاربرد دارد؟
حمایت از افرادی که غیرکلامی هستند، مانند کاربردهای درمانی برای افراد مبتلا به شرایطی که بر پیشرفت گفتار و آموزشی برای کسانی که نیازهای یادگیری دارند، تأثیر می گذارد. Livox، یک برنامه ارتباطی جایگزین هوش مصنوعی، دستگاههای Augmentative & Alternative Communication (AAC) را تقویت میکند که افراد دارای معلولیت را قادر میسازد تا ارتباط برقرار کنند. با استفاده از Voice Engine، آنها میتوانند به افرادی که صداهای منحصربهفرد و غیر رباتیکی دارند در بسیاری از زبانها ارائه دهند. کاربران آنها میتوانند گفتاری را انتخاب کنند که به بهترین شکل آنها را نشان میدهد، و برای کاربران چند زبانه، صدای ثابتی را در هر زبان گفتاری حفظ کنند.