نموذج Canary-Qwen-2.5B: دمجٌ متطورٌ بين التعرف على الكلام والنماذج اللغوية الضخمة

أصدرت شركة NVIDIA مؤخراً نموذج Canary-Qwen-2.5B، وهو نموذج هجين ثوري يجمع بين تقنيتي التعرف الآلي على الكلام (ASR) والنماذج اللغوية الضخمة (LLM). وقد تصدّر هذا النموذج قائمة OpenASR على منصة Hugging Face بمعدل خطأ في الكلمات (WER) قياسي بلغ 5.63%. ويتميز النموذج برخصة استخدام تجارية مفتوحة المصدر (CC-BY)، مما يسمح باستخدامه في التطبيقات التجارية دون قيود. يمثل هذا الإصدار إنجازاً تقنياً هاماً من خلال توحيد عملية النسخ و فهم اللغة في بنية نموذج واحدة، مما يُمكّن من استخدام المهام اللاحقة مثل تلخيص النصوص والإجابة على الأسئلة مباشرةً من الصوت.

أبرز مميزات نموذج Canary-Qwen-2.5B:

  • معدل خطأ في الكلمات (WER): 5.63%، وهو الأقل على قائمة OpenASR على Hugging Face.
  • عامل الوقت الحقيقي (RTFx): 418، مما يدل على سرعة استنتاج عالية مع 2.5 مليار معلمة.
  • يدعم كل من وضعي ASR و LLM: مما يسمح بتدفقات عمل “النسخ ثم التحليل”.
  • رخصة تجارية مفتوحة المصدر (CC-BY): جاهز للنشر في المؤسسات.
  • مفتوح المصدر عبر NeMo: قابل للتخصيص والتوسيع للأبحاث والإنتاج.

البنية المعمارية للنموذج: جسرٌ بين التعرف على الكلام والنماذج اللغوية الضخمة

تكمن الابتكارات الرئيسية في نموذج Canary-Qwen-2.5B في بنيته الهجينة. على عكس أنابيب التعرف على الكلام التقليدية التي تعالج النسخ والمعالجة اللاحقة (التلخيص، الإجابة على الأسئلة) كمراحل منفصلة، يوحّد هذا النموذج كلا القدرات من خلال:

  • مشفر FastConformer: مشفر كلام عالي السرعة متخصص في النسخ منخفض زمن الوصول وعالي الدقة.
  • مشفر Qwen3-1.7B LLM: نموذج لغوي ضخم مُدرّب مسبقاً بدون تعديلات، يستقبل الرموز المُنقولة صوتياً عبر مُكيّفات (Adapters).

يضمن استخدام المُكيّفات الوحدات النمطية، مما يسمح بفصل مُشفر Canary واستخدام Qwen3-1.7B كنموذج لغوي ضخم مستقل للمهام النصية. يساهم هذا القرار المعماري في المرونة متعددة الوسائط – حيث يمكن لنشر واحد التعامل مع المدخلات الصوتية والكتابية للمهام اللغوية اللاحقة.

مقاييس الأداء

حقق نموذج Canary-Qwen-2.5B معدل خطأ في الكلمات (WER) قياسي بلغ 5.63%، متفوقاً على جميع الإصدارات السابقة في قائمة OpenASR على Hugging Face. وهذا ملحوظ بشكل خاص بالنظر إلى حجمه المتواضع البالغ 2.5 مليار معلمة، مقارنةً ببعض النماذج الأكبر حجماً ذات الأداء الأدنى.

المقياس القيمة
معدل خطأ الكلمات (WER) 5.63%
عدد المعلمات 2.5 مليار
عامل الوقت الحقيقي (RTFx) 418
ساعات التدريب 234,000
الرخصة CC-BY

يشير عامل الوقت الحقيقي (RTFx) البالغ 418 إلى أن النموذج يمكنه معالجة الصوت المدخل بسرعة تفوق الوقت الحقيقي بـ 418 مرة، وهي ميزة حاسمة للنشر في العالم الحقيقي حيث يُعد زمن الوصول عقبة (مثل النسخ على نطاق واسع أو أنظمة الترجمة الفورية).

مجموعة البيانات ونظام التدريب

تم تدريب النموذج على مجموعة بيانات واسعة تتضمن 234,000 ساعة من الكلام الإنجليزي المتنوع، متجاوزةً بكثير نطاق نماذج NeMo السابقة. تتضمن هذه المجموعة البيانات مجموعة واسعة من اللهجات والمجالات وأنماط الكلام، مما يُمكّن من تعميم أفضل عبر الصوت المزعج والمحادثات والصوت الخاص بالمجالات. تم إجراء التدريب باستخدام إطار عمل NeMo من NVIDIA، مع توفير وصفات مفتوحة المصدر لتكييف المجتمع. يسمح دمج المُكيّفات بالتجريب المرن – حيث يمكن للباحثين استبدال مُشفرات أو مُشفرات LLM مختلفة دون إعادة تدريب المجموعات بأكملها.

النشر والتوافق مع الأجهزة

تم تحسين نموذج Canary-Qwen-2.5B لمجموعة واسعة من معالجات NVIDIA الرسومية:

  • مراكز البيانات: A100، H100، ومعالجات الجيل الأحدث من فئة Hopper/Blackwell.
  • محطات العمل: RTX PRO 6000 (Blackwell)، RTX A6000.
  • أجهزة المستهلكين: GeForce RTX 5090 وما دون.

تم تصميم النموذج للتوسع عبر فئات الأجهزة، مما يجعله مناسبًا للاستنتاج السحابي وأعباء العمل على الحافة.

حالات الاستخدام والجاهزية للمؤسسات

على عكس العديد من نماذج البحث المقيدة برخص غير تجارية، تم إصدار Canary-Qwen-2.5B برخصة CC-BY، مما يُمكّن من:

  • خدمات النسخ للمؤسسات.
  • استخراج المعرفة القائمة على الصوت.
  • تلخيص الاجتماعات في الوقت الفعلي.
  • وكلاء الذكاء الاصطناعي المُدارون بالصوت.
  • توثيق مُطابق للوائح (الرعاية الصحية، القانون، التمويل).

كما تُدخِل عملية فك التشفير المُدركة للنماذج اللغوية الضخمة تحسينات في علامات الترقيم والأحرف الكبيرة والدقة السياقية، والتي غالباً ما تكون نقاط ضعف في مخرجات التعرف على الكلام. وهذا أمر بالغ القيمة لقطاعات مثل الرعاية الصحية أو القانون حيث يمكن أن يكون سوء التفسير له آثار باهظة التكاليف.

مفتوح: وصفة لدمج الكلام واللغة

يهدف فريق أبحاث NVIDIA، من خلال جعل النموذج ووصفة تدريبه مفتوحة المصدر، إلى تحفيز التقدم الذي يقوده المجتمع في مجال الذكاء الاصطناعي للكلام. يمكن للمطورين مزج ومطابقة مُشفرات و LLMs أخرى متوافقة مع NeMo، وخلق نماذج هجينة خاصة بالمهام لمجالات أو لغات جديدة. يُحدد هذا الإصدار أيضاً سابقة للتعرف على الكلام الذي يركز على النماذج اللغوية الضخمة، حيث لا تكون النماذج اللغوية الضخمة مُعالجات لاحقة، بل عوامل مُتكاملة في خط أنابيب الكلام إلى نص. يعكس هذا النهج اتجاهاً أوسع نحو النماذج الوكيلية – الأنظمة القادرة على الفهم الكامل وصنع القرارات بناءً على مدخلات متعددة الوسائط من العالم الحقيقي.

الخاتمة

يُعد نموذج Canary-Qwen-2.5B من NVIDIA أكثر من مجرد نموذج للتعرف على الكلام – إنه مخطط لدمج فهم الكلام مع نماذج اللغة العامة. مع أداء متطور وقابلية للاستخدام التجاري ومسارات ابتكار مفتوحة، من المقرر أن يصبح هذا الإصدار أداة أساسية للمؤسسات والمطورين والباحثين الذين يهدفون إلى إطلاق الجيل التالي من تطبيقات الذكاء الاصطناعي التي تعتمد على الصوت.

المصدر: MarkTechPost