مترجم ميتا الجديد يستخدم نموذجًا واحدًا للتحدث بـ100 لغة

مترجم ميتا الجديد يستخدم نموذجًا واحدًا للتحدث بـ100 لغة

أثبتت أساليب الترجمة الحديثة المعتمدة على الذكاء الاصطناعي أنها كافية في التحويل الدقيق لما يقرب من 6500 نظام تواصل بشري منطوق ومكتوب بين بعضها البعض، ولكن المشكلة تكمن في أن كل نموذج من هذه النماذج يميل إلى القيام بمهمة أو مهمتين بشكل جيد حقًا، بما في ذلك الترجمة والتحويل. تحويل النص إلى كلام أو تحويل الكلام إلى نص أو أي منهما، لذلك طورت Meta نموذجًا واحدًا يمكنه فعل كل شيء. SeamlessM4T هو “نموذج أساسي متعدد اللغات ومتعدد المهام يترجم وينسخ بسلاسة عبر الكلام والنص”.

كما ورد في مدونة Meta اليوم، يمكن للنموذج أن يترجم بين أي لغة من بين ما يقرب من 100 لغة لوظائف تحويل الكلام إلى نص والنص إلى نص، ويدعم تحويل الكلام إلى كلام وتحويل النص إلى كلام لتلك اللغات نفسها كمدخل ومخرج بأي من اللغات الـ 36 الأخرى. بما في ذلك اللغة الإنجليزية.

في منشور مدونتهم، لاحظ فريق بحث Meta أن SeamlessM4T يعمل على تحسين الأداء بشكل كبير في اللغات ذات الموارد المنخفضة والمتوسطة التي ندعمها، مع الحفاظ على الأداء القوي في اللغات عالية الموارد، مثل الإنجليزية والإسبانية والألمانية. قامت Meta ببناء SeamlessM4T من بنية نموذج UnitY المستندة إلى PyTorch متعددة المهام، والتي تنفذ بالفعل العديد من الترجمات الشرطية بالإضافة إلى التعرف التلقائي على الكلام.

ويستخدم BERT 2.0 لتشفير الصوت، وتقسيم الإدخال إلى رموز المكونات الخاصة به للتحليل، وجهاز تشفير الصوت HiFi-GAN لإنشاء استجابات منطوقة.

قامت Meta أيضًا برعاية مجموعة ضخمة مفتوحة المصدر لتحويل الكلام إلى كلام وتحويل الكلام إلى نص، تسمى SeamlessAlign. استخرجت الشركة “عشرات المليارات من الجمل” و”أربعة ملايين ساعة” من الكلام من المستودعات المتاحة للجمهور من أجل “مواءمة أكثر من 443000 ساعة من الكلام تلقائيًا مع النص، مما ينتج عنه ما يقرب من 29000 ساعة من محاذاة الكلام إلى الكلام”. في المدونة.

عند اختبار المتانة، أفادت التقارير أن SeamlessM4T تفوق على سابقه (حاليًا في أحدث طراز) في مواجهة ضوضاء الخلفية وتغييرات نمط السماعات بنسبة 37% و48% على التوالي.

كما هو الحال مع معظم جهود الترجمة الآلية السابقة – سواء كان ذلك Llama 2، أو الكلام الشامل متعدد اللغات (MMS)، أو Universal Speech Translator (UST)، أو مشروع No Language Left Behind (NLLB) الطموح – فإن SeamlessM4T مفتوح المصدر.

وكتب الفريق: “نعتقد أن SeamlessM4T يعد إنجازًا مهمًا في سعي مجتمع الذكاء الاصطناعي لإنشاء أنظمة عالمية متعددة المهام”. “تماشيًا مع نهجنا العلمي المفتوح، نحن متحمسون لمشاركة نموذجنا علنًا للسماح للباحثين والمطورين بالبناء على هذه التكنولوجيا.” وإذا كنت مهتمًا بالعمل مع SeamlessM4T بنفسك، فتوجه إلى GitHub لتنزيل النموذج وبيانات التدريب والوثائق.