Ars Technica گزارش داده است که مایکروسافت آخرین تحقیقات خود را در زمینه تبدیل متن به گفتار با مدلی به نام VALL-E نشان داده است که می تواند صدای افراد را تنها از یک نمونه صوتی سه ثانیه ای شبیه سازی کند. گفتار نه تنها می تواند با صدا، بلکه با لحن احساسی گوینده و حتی آکوستیک یک اتاق همخوانی داشته باشد. روزی میتوان از آن برای برنامههای کاربردی تبدیل متن به گفتار سفارشی یا پیشرفته استفاده کرد، اگرچه مانند دیپفیک، خطر سوء استفاده را به همراه دارد.
VALL-E چیزی است که مایکروسافت آن را “مدل زبان کدک عصبی” می نامد. این از شبکه عصبی فشرده سازی متا Encodec مشتق شده است که صدا را از ورودی متن و نمونه های کوتاه از بلندگوی هدف تولید می کند.
در مقاله ای، محققان نحوه آموزش VALL-E را بر روی 60000 ساعت گفتار انگلیسی از بیش از 7000 سخنران در کتابخانه صوتی LibriLight متا شرح می دهند. صدایی که سعی میکند تقلید کند باید با صدایی در دادههای آموزشی مطابقت داشته باشد. اگر اینطور باشد، از داده های آموزشی استفاده می کند تا استنباط کند که در صورت گفتن ورودی متن مورد نظر، گوینده هدف چه صدایی خواهد داشت.
VALL-E AI مایکروسافت می تواند صدای هر شخص را از یک نمونه صوتی کوتاه شبیه سازی کند
مایکروسافت
این تیم دقیقاً نشان می دهد که این کار در صفحه VALL-E Github چقدر خوب کار می کند. برای هر عبارتی که میخواهند هوش مصنوعی «صحبت کند»، یک پیام سه ثانیهای از گوینده برای تقلید دارند، یک «حقیقت پایه» از همان گوینده که عبارت دیگری را برای مقایسه میگوید، یک «خط پایه» متن به گفتار مرسوم. سنتز و نمونه VALL-E در پایان.
نتایج ترکیبی هستند، برخی از آنها شبیه به ماشین و برخی دیگر به طرز شگفت آوری واقعی هستند. این واقعیت که لحن احساسی نمونههای اصلی را حفظ میکند، چیزی است که نمونههای کارآمد را میفروشد. همچنین کاملاً با محیط آکوستیک مطابقت دارد، بنابراین اگر گوینده صدای خود را در سالن پژواک ضبط کند، خروجی VALL-E نیز به نظر می رسد که از همان مکان آمده است.
برای بهبود این مدل، مایکروسافت قصد دارد دادههای آموزشی خود را «برای بهبود عملکرد مدل در دیدگاههای عروضی، سبک گفتاری و شباهت سخنران» افزایش دهد. همچنین در حال بررسی راههایی برای کاهش کلماتی است که نامشخص یا فراموش شدهاند.
مایکروسافت احتمالاً به دلیل خطرات ذاتی هوش مصنوعی که میتواند کلمات را در دهان کسی بگذارد، کد را منبع باز قرار ندهد. این شرکت افزود که از “اصول هوش مصنوعی مایکروسافت” در هر گونه توسعه بیشتر پیروی خواهد کرد. این شرکت در بخش «تأثیر گستردهتر» نتیجهگیری خود نوشت: «از آنجایی که VALL-E میتواند گفتاری را ترکیب کند که هویت گوینده را حفظ کند، ممکن است خطرات بالقوهای در استفاده نادرست از مدل داشته باشد، مانند جعل هویت صدا یا جعل هویت».