امروز:3 دی 1403

مترجم چندوجهی جدید متا از یک مدل برای صحبت به 100 زبان استفاده می کند

اگرچه این کاملاً آماده نیست تا آینده Doolittle را که همه منتظرش بودیم، نشان دهد، روش‌های مدرن ترجمه هوش مصنوعی برای تغییر دقیق تقریباً 6500 سیستم ارتباطی گفتاری و نوشتاری بشریت بین یکدیگر بیش از حد کافی ثابت شده‌اند. مشکل این است که هر یک از این مدل‌ها فقط یک یا دو کار را به خوبی انجام می‌دهند – ترجمه و تبدیل متن به گفتار، گفتار به متن یا بین هر دو مجموعه – بنابراین در نهایت مجبور می‌شوید دسته‌ای از مدل‌ها را در بالا بکوبید. از یکدیگر برای ایجاد عملکرد عمومی که در خدماتی مانند Google Translate یا بی شمار خدمات زبان فیس بوک دیده می شود.

این یک فرآیند محاسباتی فشرده است، بنابراین متا یک مدل واحد ایجاد کرد که می تواند همه این کارها را انجام دهد. وبلاگ Meta در روز سه‌شنبه می‌گوید SeamlessM4T یک مدل چندزبانه و چند وظیفه‌ای اساسی است که به طور یکپارچه در گفتار و متن ترجمه و رونویسی می‌کند. این می تواند بین هر یک از نزدیک به 100 زبان برای عملکردهای گفتار به نوشتار و متن به متن ترجمه کند، گفتار به گفتار و متن به گفتار از همان زبان ها به عنوان ورودی پشتیبانی می کند و آنها را به هر یک از 36 زبان دیگر خروجی می دهد.

تیم تحقیقاتی متا در پست وبلاگ خود خاطرنشان می کند که SeamlessM4T “به طور قابل توجهی عملکرد [ها] را برای زبان های با منابع کم و متوسط که پشتیبانی می کنیم بهبود می بخشد، در حالی که “عملکرد قوی در زبان های با منابع بالا، مانند انگلیسی، اسپانیایی و آلمانی” را حفظ می کند. ” Meta SeamlessM4T را از معماری مدل UnitY چند وظیفه‌ای مبتنی بر PyTorch ساخته است، که قبلاً ترجمه‌های مدال مختلف و همچنین تشخیص خودکار گفتار را انجام می‌دهد. این سیستم از سیستم BERT 2.0 برای رمزگذاری صدا، تجزیه ورودی ها به نشانه های مؤلفه آنها برای تجزیه و تحلیل، و یک واحد صوتی HiFi-GAN برای تولید پاسخ های گفتاری استفاده می کند.

متا همچنین یک مجموعه متن باز گفتار به گفتار و گفتار به متن موازی با نام SeamlessAlign را مدیریت کرده است. این شرکت «ده‌ها میلیارد جمله» و «چهار میلیون ساعت» گفتار را از مخازن در دسترس عموم استخراج کرد تا «بیش از 443000 ساعت گفتار را به‌طور خودکار با متن‌ها تراز کند و حدود 29000 ساعت هم‌ترازی گفتار به گفتار ایجاد کند». وبلاگ. هنگامی که SeamlessM4T از نظر استحکام آزمایش شد، ظاهراً SeamlessM4T نسبت به نویزهای پس‌زمینه و تغییرات سبک بلندگو به ترتیب 37 درصد و 48 درصد بهتر از مدل قبلی خود (به‌روزترین حالت فعلی) عمل کرد.

SeamlessM4T مانند بسیاری از تلاش‌های قبلی ترجمه ماشینی خود – چه Llama 2، انبوه چند زبانه (MMS)، مترجم گفتار جهانی (UST) یا پروژه جاه‌طلبانه No Language Left Behind (NLLB) باشد – SeamlessM4T منبع باز است. این تیم نوشت: “ما معتقدیم SeamlessM4T یک پیشرفت مهم در تلاش جامعه هوش مصنوعی به سمت ایجاد سیستم های چندوظیفه ای جهانی است.” “با ادامه رویکرد خود به علم باز، ما هیجان زده هستیم که مدل خود را به صورت عمومی به اشتراک بگذاریم تا به محققان و توسعه دهندگان اجازه دهیم تا بر اساس این فناوری بسازند.” اگر علاقه مند به کار با SeamlessM4T برای خود هستید، برای دانلود مدل، داده های آموزشی و مستندات به GitHub بروید.

اشتراک گذاری