نموذج فلامنغو الصوتي 3 من NVIDIA: نقلة نوعية في معالجة الصوت بالذكاء الاصطناعي

يُمثل نموذج فلامنغو الصوتي 3 (AF3) من NVIDIA قفزةً هائلةً في مجال فهم الآلات للصوت واستنتاج معانيه. على عكس النماذج السابقة التي اقتصرت على نسخ الكلام أو تصنيف المقاطع الصوتية، يتميز AF3 بقدرته على تفسير الصوت بطريقة غنية بالسياق، شبيهة بالبشر، شاملةً الكلام، والضوضاء المحيطة، والموسيقى، وذلك على مدد زمنية طويلة.

الابتكارات الرئيسية وراء نموذج فلامنغو الصوتي 3:

  • مشفر AF-Whisper الموحد: يستخدم AF3 مشفر AF-Whisper، وهو مشفر جديد مُكيّف من Whisper-v3. يعالج هذا المشفر الكلام، والضوضاء المحيطة، والموسيقى باستخدام نفس البنية، مما يحلّ مشكلةً رئيسيةً كانت تعاني منها نماذج LALMs السابقة والتي كانت تستخدم مشفرات منفصلة، مما أدى إلى عدم اتساق في الأداء. يستفيد AF-Whisper من مجموعات بيانات الصوت مع التعليقات التوضيحية، والبيانات الوصفية المُولّدة، ومساحة تضمين كثيفة ببعد 1280 لتتماشى مع التمثيلات النصية.

  • سلسلة التفكير للصوت: الاستنتاج حسب الطلب: على عكس أنظمة الأسئلة والأجوبة الثابتة، تم تجهيز AF3 بقدرات “تفكير”. باستخدام مجموعة بيانات AF-Think (250 ألف مثال)، يمكن للنموذج إجراء استنتاجات منطقية متسلسلة عند الطلب، مما يُمكّنه من شرح خطوات استنتاجه قبل الوصول إلى إجابة، وهي خطوة أساسية نحو ذكاء اصطناعي صوتي شفاف.

  • محادثات متعددة الأدوار ومتعددة الصوت: من خلال مجموعة بيانات AF-Chat (75 ألف حوار)، يمكن لـ AF3 إجراء محادثات سياقية تتضمن مدخلات صوتية متعددة عبر الأدوار. يحاكي هذا التفاعلات الواقعية، حيث يُشير البشر إلى إشارات صوتية سابقة. كما يُقدم أيضًا محادثات صوتية إلى صوتية باستخدام وحدة تحويل النص إلى كلام متدفقة.

  • الاستنتاج الصوتي الطويل: يُعد AF3 أول نموذج مفتوح المصدر بالكامل قادر على الاستنتاج من مدخلات صوتية تصل إلى 10 دقائق. تم تدريب النموذج باستخدام LongAudio-XL (1.25 مليون مثال)، ويدعم مهام مثل تلخيص الاجتماعات، وفهم البودكاست، والكشف عن السخرية، والتحديد الزمني.

المعايير المرجعية المتقدمة والقدرات الواقعية:

يتجاوز AF3 كل من النماذج المفتوحة والمغلقة في أكثر من 20 معيارًا مرجعيًا، بما في ذلك:

  • MMAU (المتوسط): 73.14% (+2.14% عن Qwen2.5-O)
  • LongAudioBench: 68.6 (تقييم GPT-4o)، متفوقًا على Gemini 2.5 Pro
  • LibriSpeech (ASR): 1.57% WER، متفوقًا على Phi-4-mm
  • ClothoAQA: 91.1% (مقابل 89.2% من Qwen2.5-O)

هذه التحسينات ليست هامشية فحسب، بل تُعيد تعريف ما هو متوقع من أنظمة الصوت واللغة. كما يُقدم AF3 معايير مرجعية جديدة في الدردشة الصوتية وتوليد الكلام، حيث حقق زمن تأخير توليد يبلغ 5.94 ثانية (مقابل 14.62 ثانية لـ Qwen2.5) ودرجات تشابه أفضل.

خط أنابيب البيانات: مجموعات البيانات التي تُعلّم الاستنتاج الصوتي:

لم تقم NVIDIA فقط بتوسيع الحوسبة، بل أعادت التفكير في البيانات:

  • AudioSkills-XL: 8 ملايين مثال يجمع بين الاستنتاج البيئي والموسيقى والكلام.
  • LongAudio-XL: يغطي الكلام طويل الأمد من الكتب الصوتية والبودكاست والاجتماعات.
  • AF-Think: يعزز الاستنتاج على نمط سلسلة التفكير القصيرة.
  • AF-Chat: مصمم للمحادثات متعددة الأدوار ومتعددة الصوت.

كل مجموعة بيانات مفتوحة المصدر بالكامل، بالإضافة إلى رمز التدريب والوصفات، مما يُمكّن من التكرار والأبحاث المستقبلية.

مفتوح المصدر:

AF3 ليس مجرد نموذج جديد. فقد أصدرت NVIDIA:

  • أوزان النموذج
  • وصفات التدريب
  • رمز الاستنتاج
  • أربع مجموعات بيانات مفتوحة المصدر

تُجعل هذه الشفافية AF3 نموذج لغة صوتي متقدمًا سهل الوصول إليه. إنه يفتح آفاقًا جديدة للبحث في الاستنتاج السمعي، والوكلاء الصوتيين منخفضي زمن التأخير، وفهم الموسيقى، والتفاعل متعدد الوسائط.

الخاتمة: نحو ذكاء صوتي عام:

يُظهر نموذج فلامنغو الصوتي 3 أن الفهم الصوتي العميق ليس ممكنًا فحسب، بل قابل للتكرار ومفتوح المصدر. من خلال الجمع بين الحجم، واستراتيجيات التدريب الجديدة، والبيانات المتنوعة، تقدم NVIDIA نموذجًا يستمع، ويفهم، ويستنتج بطرق لم تكن ممكنة في نماذج LALMs السابقة. يمكنكم الاطلاع على الورقة البحثية، والرموز، والنموذج على Hugging Face. جميع الحقوق لهذه الدراسة تعود إلى الباحثين في هذا المشروع.

المصدر: MarkTechPost