مترجم چندوجهی جدید متا از یک مدل برای صحبت به 100 زبان استفاده می کند

شهاب الدین ابویی31 مرداد 1402دیدگاه‌ها بسته هستند0

اگرچه این کاملاً آماده نیست تا آینده Doolittle را که همه منتظرش بودیم، نشان دهد، روش‌های مدرن ترجمه هوش مصنوعی برای تغییر دقیق تقریباً 6500 سیستم ارتباطی گفتاری و نوشتاری بشریت بین یکدیگر بیش از حد کافی ثابت شده‌اند. مشکل این است که هر یک از این مدل‌ها فقط یک یا دو کار را به خوبی انجام می‌دهند – ترجمه و تبدیل متن به گفتار، گفتار به متن یا بین هر دو مجموعه – بنابراین در نهایت مجبور می‌شوید دسته‌ای از مدل‌ها را در بالا بکوبید. از یکدیگر برای ایجاد عملکرد عمومی که در خدماتی مانند Google Translate یا بی شمار خدمات زبان فیس بوک دیده می شود.

این یک فرآیند محاسباتی فشرده است، بنابراین متا یک مدل واحد ایجاد کرد که می تواند همه این کارها را انجام دهد. وبلاگ Meta در روز سه‌شنبه می‌گوید SeamlessM4T یک مدل چندزبانه و چند وظیفه‌ای اساسی است که به طور یکپارچه در گفتار و متن ترجمه و رونویسی می‌کند. این می تواند بین هر یک از نزدیک به 100 زبان برای عملکردهای گفتار به نوشتار و متن به متن ترجمه کند، گفتار به گفتار و متن به گفتار از همان زبان ها به عنوان ورودی پشتیبانی می کند و آنها را به هر یک از 36 زبان دیگر خروجی می دهد.

تیم تحقیقاتی متا در پست وبلاگ خود خاطرنشان می کند که SeamlessM4T “به طور قابل توجهی عملکرد [ها] را برای زبان های با منابع کم و متوسط که پشتیبانی می کنیم بهبود می بخشد، در حالی که “عملکرد قوی در زبان های با منابع بالا، مانند انگلیسی، اسپانیایی و آلمانی” را حفظ می کند. ” Meta SeamlessM4T را از معماری مدل UnitY چند وظیفه‌ای مبتنی بر PyTorch ساخته است، که قبلاً ترجمه‌های مدال مختلف و همچنین تشخیص خودکار گفتار را انجام می‌دهد. این سیستم از سیستم BERT 2.0 برای رمزگذاری صدا، تجزیه ورودی ها به نشانه های مؤلفه آنها برای تجزیه و تحلیل، و یک واحد صوتی HiFi-GAN برای تولید پاسخ های گفتاری استفاده می کند.

متا همچنین یک مجموعه متن باز گفتار به گفتار و گفتار به متن موازی با نام SeamlessAlign را مدیریت کرده است. این شرکت «ده‌ها میلیارد جمله» و «چهار میلیون ساعت» گفتار را از مخازن در دسترس عموم استخراج کرد تا «بیش از 443000 ساعت گفتار را به‌طور خودکار با متن‌ها تراز کند و حدود 29000 ساعت هم‌ترازی گفتار به گفتار ایجاد کند». وبلاگ. هنگامی که SeamlessM4T از نظر استحکام آزمایش شد، ظاهراً SeamlessM4T نسبت به نویزهای پس‌زمینه و تغییرات سبک بلندگو به ترتیب 37 درصد و 48 درصد بهتر از مدل قبلی خود (به‌روزترین حالت فعلی) عمل کرد.

SeamlessM4T مانند بسیاری از تلاش‌های قبلی ترجمه ماشینی خود – چه Llama 2، انبوه چند زبانه (MMS)، مترجم گفتار جهانی (UST) یا پروژه جاه‌طلبانه No Language Left Behind (NLLB) باشد – SeamlessM4T منبع باز است. این تیم نوشت: “ما معتقدیم SeamlessM4T یک پیشرفت مهم در تلاش جامعه هوش مصنوعی به سمت ایجاد سیستم های چندوظیفه ای جهانی است.” “با ادامه رویکرد خود به علم باز، ما هیجان زده هستیم که مدل خود را به صورت عمومی به اشتراک بگذاریم تا به محققان و توسعه دهندگان اجازه دهیم تا بر اساس این فناوری بسازند.” اگر علاقه مند به کار با SeamlessM4T برای خود هستید، برای دانلود مدل، داده های آموزشی و مستندات به GitHub بروید.

اشتراک گذاری

X (توییتر سابق) قصد دارد عناوین اخبار و متن را در مقالات به اشتراک گذاشته حذف کند پست بعدی

DLSS 3.5 NVIDIA باعث می‌شود بازی‌های ray traced با هوش مصنوعی بهتر به نظر برسند پست قبلی

مقالات مرتبط

اپل تازه های تکنولوژی

مترجم چندوجهی جدید متا از یک مدل برای صحبت به 100 زبان استفاده می کند

برترین موضوعات

لینک ها مفید

اخرین مقالات

بازار بزرگ تهران؛ از پارچه‌های دست‌دوز تا جواهرات تقلبی و هتل‌های نزدیک!

وردپرس چیست و چگونه می توان از آن به درآمد رسید؟

لوبیا چیتی ازبکستان؛ راهکار هوشمندانه برای توسعه صنعت کنسروسازی ایران

اولین بازی جدید جیمز باند بعد از یک دهه | معرفی 007 First Light