أعلنت شركة ميتا إطلاق نظام ذكاء اصطناعي جديد لتعرّف الكلام آليًا (ASR) تحت اسم Omnilingual ASR، وهو نظام مفتوح المصدر يدعم أكثر من 1600 لغة، مع قدرة على التوسّع لتغطية أكثر من 5400 لغة عبر ميزة “التعلّم داخل السياق دون تدريب سابق”.
ويُتيح هذا النظام إضافة لغات جديدة باستخدام بضع أمثلة صوتية ونصية فقط، دون الحاجة إلى إعادة تدريب النموذج، مما يجعله أكثر أنظمة تعرّف الكلام قابليةً للتوسّع حتى الآن.
إطلاق مفتوح المصدر بلا قيود
تؤكد ميتا أن كافة الموارد الخاصة بنظام Omnilingual ASR متاحة مجانًا تحت ترخيص Apache 2.0 المفتوح، وهو ما يسمح باستخدام النموذج في الأبحاث والمشروعات التجارية على حد سواء دون قيود. وتشمل الحزمة مجموعة من النماذج اللغوية، ونموذج تمثيل صوتي متعدد اللغات مكوَّن من 7 مليارات مَعلمة، إضافة إلى قاعدة بيانات ضخمة تغطي أكثر من 350 لغة نادرة.
دعم شامل وتكنولوجيا متقدمة
تضم حزمة Omnilingual ASR عدة نماذج متقدمة أبرزها:
- نماذج wav2vec 2.0 للتعلّم الذاتي من الصوتيات (من 300 مليون حتى 7 مليارات مَعلمة).
- نماذج CTC-ASR للتفريغ السريع.
- نماذج LLM-ASR التي تجمع بين مشفّر صوتي ومولّد نصي يعمل بتقنية Transformers.
- نموذج ZeroShot-ASR القادر على تعرّف لغات جديدة أثناء التشغيل دون تدريب إضافي.
وتُظهر اختبارات الأداء أن النظام يحقق معدل خطأ في الحروف (CER) أقل من 10% في 78% من اللغات المدعومة، ومنها أكثر من 500 لغة لم يسبق لأي نموذج آخر تغطيتها.
إستراتيجية ميتا الجديدة بعد إخفاق Llama 4
يأتي إطلاق Omnilingual ASR بعد عام شهد تغييرات تنظيمية كبيرة داخل ميتا، خاصةً عقب الإطلاق الباهت لنموذج Llama 4 الذي تلقّى استقبالًا فاترًا في الأوساط البحثية والتجارية.
وكان الرئيس التنفيذي مارك زوكربيرج قد عيّن ألكسندر وانغ، المؤسس السابق لشركة الذكاء الاصطناعي Scale AI، في منصب رئيس قسم الذكاء الاصطناعي لقيادة مرحلة جديدة تركز على مشاريع عملية ومفتوحة المصدر.
ويُعد هذا النظام نقطة تحوّل إستراتيجية تعيد ميتا إلى مجالها القوي تاريخيًا، وهو الذكاء الاصطناعي المتعدد اللغات، كما يعكس التزام الشركة بتقليل الحواجز أمام الابتكار المجتمعي، وتقديم أدوات مجانية وشفافة تدعم التنوع اللغوي عالميًا، مدفوعةً بمنصاتها الاجتماعية الواسعة الانتشار.
شراكات مجتمعية لتوسيع قاعدة البيانات
جمعت ميتا بيانات النظام عبر تعاون مع جامعات ومبادرات بحثية في إفريقيا وآسيا، منها مبادرة African Next Voices التي تدعمها مؤسسة بيل ومليندا غيتس، ومشروع Common Voice التابع لمؤسسة موزيلا، ومنظمة Lanfrica / NaijaVoices التي أسهمت في جمع بيانات 11 لغة إفريقية نادرة.
وشملت عملية التسجيل أصوات متحدثين محليين حصلوا على مقابل مادي، مع التركيز على حوارات طبيعية غير مكتوبة، لضمان واقعية البيانات وتمثيلها للثقافات المحلية.
وأظهرت نتائج الاختبارات أن أكبر نموذج في المجموعة (omniASR_LLM_7B) يحتاج إلى نحو 17 جيجابايت من ذاكرة رسومات GPU للتشغيل، في حين يمكن للنماذج الصُغرى العمل في أجهزة متوسطة بقدرات فورية تقريبًا.
وسجّل النظام أداءً مميزًا حتى في بيئات صاخبة أو لغات منخفضة الموارد، مما يجعله مناسبًا لتطبيقات مثل المساعدات الصوتية الذكية، والتفريغ النصي للمحتوى الصوتي والفيديو، وإنشاء ترجمات فورية ودقيقة، ودعم لغات نادرة ومهددة بالانقراض.
انفتاح كامل للمطورين والشركات
تتيح ميتا للمطورين تنزيل النماذج والبيانات مباشرة من منصات مثل GitHub و Hugging Face، مع واجهات برمجية سهلة لعرض اللغات المدعومة ودمج النظام في التطبيقات التجارية.
وفيما يتعلق بالشركات العاملة في خدمات العملاء الصوتية، والتعليم، وإمكانية الوصول، والتقنيات المدنية، يفتح Omnilingual ASR الباب أمام تطبيقات صوتية متعددة اللغات بتكلفة منخفضة دون قيود في الترخيص.
وبإطلاق Omnilingual ASR، لا تكتفي ميتا بتقديم إنجاز تقني غير مسبوق في مجال الصوتيات، بل تطرح رؤية جديدة لمستقبل الذكاء الاصطناعي اللغوي تقوم على الانفتاح، والمشاركة المجتمعية، والدعم الشامل لكل اللغات البشرية تقريبًا في خطوة قد تُعيد رسم خريطة الذكاء الاصطناعي الصوتي عالميًا.
نسخ الرابط تم نسخ الرابط
المصدر: البوابة العربية للأخبار التقنية




