نماذج اللغات الضخمة تتحدث الآن في الزمن الحقيقي مع أدنى زمن انتقال: LLaMA-Omni2
أعلن باحثون من معهد تكنولوجيا الحوسبة، الأكاديمية الصينية للعلوم، عن إطلاق LLaMA-Omni2، وهي عائلة من نماذج اللغات الضخمة القادرة على معالجة الكلام (SpeechLMs) ، متاحة الآن على منصة Hugging Face. يقدم هذا البحث إطارًا مُدرجًا يسمح بالحوار الصوتي في الوقت الفعلي من خلال دمج إدراك الكلام وتوليده مع فهم اللغة. وعلى عكس الأنظمة المتسلسلة السابقة، يعمل LLaMA-Omni2 في خط أنابيب شامل مع الحفاظ على قابلية التفسير المُدرجة وتكلفة تدريب منخفضة.
بنية LLaMA-Omni2: نظرة عامة
تتضمن LLaMA-Omni2 نماذج تتراوح من 0.5 مليار إلى 14 مليار معامل، تم بناء كل منها فوق سلسلة Qwen2.5-Instruct. تتكون البنية من:
- مشفر الكلام (Speech Encoder): يستخدم Whisper-large-v3 لتحويل الكلام المدخل إلى تمثيلات صوتية على مستوى الرموز.
- محول الكلام (Speech Adapter): يعالج مخرجات المُشفر باستخدام طبقة تقليل العينة وشبكة تغذية أمامية لمواءمة مساحة إدخال نموذج اللغة.
- نموذج اللغة الضخم الأساسي (Core LLM): تعمل نماذج Qwen2.5 كمحرك استنتاج رئيسي.
- فك تشفير توليد الكلام المتدفق (Streaming TTS Decoder): يحول مخرجات نموذج اللغة الضخم إلى رموز كلامية باستخدام مُحول ذاتي الانحدار، ثم يُولد مخططات طيفية ميل باستخدام نموذج مطابقة تدفق سببي مستوحى من CosyVoice2.
- آلية التحكم (gating mechanism): تُدمج حالات نموذج اللغة الضخم المخفية مع التضمينات النصية قبل توليد الكلام، مما يُعزز دقة السياق في الصوت المُولّد.
توليد متدفق مع جدولة القراءة والكتابة
يعتمد النموذج استراتيجية قراءة وكتابة لتسهيل الإخراج المتدفق. على وجه التحديد، لكل R رمز يُنتجه نموذج اللغة الضخم، يتم توليد W رمز كلامي. هذا يسمح بتوليد نصي وصوتي متزامن، مما يُقلل من زمن الانتقال دون المساومة على طلاقة الكلام. تشير النتائج التجريبية إلى أن ضبط R = 3 و W = 10 يوفر توازنًا مثاليًا بين زمن الانتقال (~ 583 مللي ثانية)، والمواءمة (ASR-WER: 3.26)، وجودة الإدراك (UTMOS: 4.19).
نهج التدريب
على الرغم من تحقيق أداء تنافسي، تم تدريب LLaMA-Omni2 على مجموعة بيانات مُدمجة نسبيًا – 200 ألف عينة حوار صوتي إلى صوتي متعدد الأدوار. تم توليد هذه العينات من مجموعات بيانات نصية تتبع التعليمات (Alpaca، UltraChat)، مع أصوات مدخلات متنوعة وصوت مُخرجات ثابت مُولّد باستخدام نماذج FishSpeech و CosyVoice2. يتم تنفيذ التدريب على مرحلتين:
- المرحلة الأولى: تُحسّن بشكل مستقل وحدات الكلام إلى نص ونص إلى كلام.
- المرحلة الثانية: تُحسّن مسار توليد الكلام إلى كلام، بما في ذلك مكونات التحكم وفك التشفير ذاتي الانحدار.
نتائج المقارنة المعيارية
تم تقييم النماذج على مهام الإجابة على الأسئلة المنطوقة واتباع تعليمات الكلام باستخدام أوضاع الكلام إلى نص (S2T) والكلام إلى كلام (S2S).
النموذج | درجة Q (S2S) | درجة Web Q (S2S) | ASR-WER | زمن الانتقال (مللي ثانية) |
---|---|---|---|---|
GLM-4-Voice (9B) | 50.7 | 15.9 | 4.09 | 1562.8 |
LLaMA-Omni (8B) | 49.0 | 23.7 | 3.52 | 346.7 |
LLaMA-Omni2-7B | 60.7 | 31.3 | 4.15 | 582.9 |
يُلاحظ أن الأداء يتناسب بشكل ثابت مع حجم النموذج. بشكل ملحوظ، يتفوق LLaMA-Omni2-14B على جميع النماذج الأساسية عبر المهام، حتى مع بيانات تدريب أقل بكثير من نماذج الكلام الأصلية مثل GLM-4-Voice.
تحليل المكونات
- وحدة دمج التحكم (Gate Fusion Module): يؤدي إزالة آلية التحكم إلى زيادة ASR-WER وتقليل جودة الكلام، مما يؤكد دورها في مواءمة الإشارات النصية والسياقية.
- التدريب المسبق لتوليد الكلام (TTS Pretraining): يُحقق بدء تشغيل نموذج توليد الكلام من Qwen2.5 والضبط الدقيق في إعداد متدفق أفضل أداء. يفشل التدريب من الصفر في التقارب بشكل فعال.
- استراتيجيات القراءة/الكتابة (Read/Write Strategies): يؤثر ضبط نسبة R:W على زمن الانتقال والجودة. يُحسّن زيادة W من UTMOS ولكن على حساب تأخير الاستجابة. بالإضافة إلى ذلك، تُظهر الدراسة أن بيانات الحوار متعدد الأدوار أكثر فعالية من بيانات الدور الواحد في تدريب قدرات التفاعل الصوتي، وأن الأداء يصل إلى مستوى ثابت عند حوالي 200 ألف عينة.
الخلاصة
يُظهر LLaMA-Omni2 أن التفاعل الصوتي عالي الجودة ومنخفض زمن الانتقال مع نماذج اللغات الضخمة ممكن دون الحاجة إلى تدريب مسبق مكثف على مجموعات بيانات كلامية ضخمة. من خلال الجمع بين البنية المُدرجة وتوليد الكلام المتدفق ذاتي الانحدار، يوفر النظام مسارًا عمليًا لتطبيقات الكلام في الوقت الفعلي.
اترك تعليقاً