اگرچه این کاملاً آماده نیست تا آینده Doolittle را که همه منتظرش بودیم، نشان دهد، روشهای مدرن ترجمه هوش مصنوعی برای تغییر دقیق تقریباً 6500 سیستم ارتباطی گفتاری و نوشتاری بشریت بین یکدیگر بیش از حد کافی ثابت شدهاند. مشکل این است که هر یک از این مدلها فقط یک یا دو کار را به خوبی انجام میدهند – ترجمه و تبدیل متن به گفتار، گفتار به متن یا بین هر دو مجموعه – بنابراین در نهایت مجبور میشوید دستهای از مدلها را در بالا بکوبید. از یکدیگر برای ایجاد عملکرد عمومی که در خدماتی مانند Google Translate یا بی شمار خدمات زبان فیس بوک دیده می شود.
این یک فرآیند محاسباتی فشرده است، بنابراین متا یک مدل واحد ایجاد کرد که می تواند همه این کارها را انجام دهد. وبلاگ Meta در روز سهشنبه میگوید SeamlessM4T یک مدل چندزبانه و چند وظیفهای اساسی است که به طور یکپارچه در گفتار و متن ترجمه و رونویسی میکند. این می تواند بین هر یک از نزدیک به 100 زبان برای عملکردهای گفتار به نوشتار و متن به متن ترجمه کند، گفتار به گفتار و متن به گفتار از همان زبان ها به عنوان ورودی پشتیبانی می کند و آنها را به هر یک از 36 زبان دیگر خروجی می دهد.
تیم تحقیقاتی متا در پست وبلاگ خود خاطرنشان می کند که SeamlessM4T “به طور قابل توجهی عملکرد [ها] را برای زبان های با منابع کم و متوسط که پشتیبانی می کنیم بهبود می بخشد، در حالی که “عملکرد قوی در زبان های با منابع بالا، مانند انگلیسی، اسپانیایی و آلمانی” را حفظ می کند. ” Meta SeamlessM4T را از معماری مدل UnitY چند وظیفهای مبتنی بر PyTorch ساخته است، که قبلاً ترجمههای مدال مختلف و همچنین تشخیص خودکار گفتار را انجام میدهد. این سیستم از سیستم BERT 2.0 برای رمزگذاری صدا، تجزیه ورودی ها به نشانه های مؤلفه آنها برای تجزیه و تحلیل، و یک واحد صوتی HiFi-GAN برای تولید پاسخ های گفتاری استفاده می کند.
متا همچنین یک مجموعه متن باز گفتار به گفتار و گفتار به متن موازی با نام SeamlessAlign را مدیریت کرده است. این شرکت «دهها میلیارد جمله» و «چهار میلیون ساعت» گفتار را از مخازن در دسترس عموم استخراج کرد تا «بیش از 443000 ساعت گفتار را بهطور خودکار با متنها تراز کند و حدود 29000 ساعت همترازی گفتار به گفتار ایجاد کند». وبلاگ. هنگامی که SeamlessM4T از نظر استحکام آزمایش شد، ظاهراً SeamlessM4T نسبت به نویزهای پسزمینه و تغییرات سبک بلندگو به ترتیب 37 درصد و 48 درصد بهتر از مدل قبلی خود (بهروزترین حالت فعلی) عمل کرد.
SeamlessM4T مانند بسیاری از تلاشهای قبلی ترجمه ماشینی خود – چه Llama 2، انبوه چند زبانه (MMS)، مترجم گفتار جهانی (UST) یا پروژه جاهطلبانه No Language Left Behind (NLLB) باشد – SeamlessM4T منبع باز است. این تیم نوشت: “ما معتقدیم SeamlessM4T یک پیشرفت مهم در تلاش جامعه هوش مصنوعی به سمت ایجاد سیستم های چندوظیفه ای جهانی است.” “با ادامه رویکرد خود به علم باز، ما هیجان زده هستیم که مدل خود را به صورت عمومی به اشتراک بگذاریم تا به محققان و توسعه دهندگان اجازه دهیم تا بر اساس این فناوری بسازند.” اگر علاقه مند به کار با SeamlessM4T برای خود هستید، برای دانلود مدل، داده های آموزشی و مستندات به GitHub بروید.