امروز:1 تیر 1403

هوش مصنوعی VALL-E مایکروسافت می تواند هر صدایی را از یک نمونه صوتی کوتاه تقلید کند

Ars Technica گزارش داده است که مایکروسافت آخرین تحقیقات خود را در زمینه تبدیل متن به گفتار با مدلی به نام VALL-E نشان داده است که می تواند صدای افراد را تنها از یک نمونه صوتی سه ثانیه ای شبیه سازی کند. گفتار نه تنها می تواند با صدا، بلکه با لحن احساسی گوینده و حتی آکوستیک یک اتاق همخوانی داشته باشد. روزی می‌توان از آن برای برنامه‌های کاربردی تبدیل متن به گفتار سفارشی یا پیشرفته استفاده کرد، اگرچه مانند دیپ‌فیک، خطر سوء استفاده را به همراه دارد.

VALL-E چیزی است که مایکروسافت آن را “مدل زبان کدک عصبی” می نامد. این از شبکه عصبی فشرده سازی متا Encodec مشتق شده است که صدا را از ورودی متن و نمونه های کوتاه از بلندگوی هدف تولید می کند.

در مقاله ای، محققان نحوه آموزش VALL-E را بر روی 60000 ساعت گفتار انگلیسی از بیش از 7000 سخنران در کتابخانه صوتی LibriLight متا شرح می دهند. صدایی که سعی می‌کند تقلید کند باید با صدایی در داده‌های آموزشی مطابقت داشته باشد. اگر اینطور باشد، از داده های آموزشی استفاده می کند تا استنباط کند که در صورت گفتن ورودی متن مورد نظر، گوینده هدف چه صدایی خواهد داشت.

VALL-E AI مایکروسافت می تواند صدای هر شخص را از یک نمونه صوتی کوتاه شبیه سازی کند
مایکروسافت
این تیم دقیقاً نشان می دهد که این کار در صفحه VALL-E Github چقدر خوب کار می کند. برای هر عبارتی که می‌خواهند هوش مصنوعی «صحبت کند»، یک پیام سه ثانیه‌ای از گوینده برای تقلید دارند، یک «حقیقت پایه» از همان گوینده که عبارت دیگری را برای مقایسه می‌گوید، یک «خط پایه» متن به گفتار مرسوم. سنتز و نمونه VALL-E در پایان.

نتایج ترکیبی هستند، برخی از آنها شبیه به ماشین و برخی دیگر به طرز شگفت آوری واقعی هستند. این واقعیت که لحن احساسی نمونه‌های اصلی را حفظ می‌کند، چیزی است که نمونه‌های کارآمد را می‌فروشد. همچنین کاملاً با محیط آکوستیک مطابقت دارد، بنابراین اگر گوینده صدای خود را در سالن پژواک ضبط کند، خروجی VALL-E نیز به نظر می رسد که از همان مکان آمده است.

برای بهبود این مدل، مایکروسافت قصد دارد داده‌های آموزشی خود را «برای بهبود عملکرد مدل در دیدگاه‌های عروضی، سبک گفتاری و شباهت سخنران» افزایش دهد. همچنین در حال بررسی راه‌هایی برای کاهش کلماتی است که نامشخص یا فراموش شده‌اند.

مایکروسافت احتمالاً به دلیل خطرات ذاتی هوش مصنوعی که می‌تواند کلمات را در دهان کسی بگذارد، کد را منبع باز قرار ندهد. این شرکت افزود که از “اصول هوش مصنوعی مایکروسافت” در هر گونه توسعه بیشتر پیروی خواهد کرد. این شرکت در بخش «تأثیر گسترده‌تر» نتیجه‌گیری خود نوشت: «از آنجایی که VALL-E می‌تواند گفتاری را ترکیب کند که هویت گوینده را حفظ کند، ممکن است خطرات بالقوه‌ای در استفاده نادرست از مدل داشته باشد، مانند جعل هویت صدا یا جعل هویت».

اشتراک گذاری