نموذج Step-Audio-AQAA: ثورة في تفاعل الإنسان مع الحاسوب عبر الصوت
يُمثّل تطوير نماذج لغة صوتية متقدمة هدفًا رئيسيًا في مجال أنظمة التفاعل الذكي، حيث تسعى هذه النماذج إلى تمكين الحواسيب من الاستجابة للكلام البشري بصوت طبيعي ومعبر. يُوسّع نمذجة الصوت واللغة هذا التصور من خلال دمج تقنيات التعرف على الكلام، وفهم اللغة الطبيعية، وتوليد الصوت. وبدلاً من الاعتماد على تحويل الكلام إلى نص، تهدف هذه النماذج إلى فهم الردود باستخدام الصوت فقط، مما يُعزز إمكانية الوصول ويشمل فئات أوسع من المستخدمين، بالإضافة إلى تحقيق تفاعل أكثر سلاسة وطبيعية بين الإنسان والآلة في تطبيقات مثل المساعدين الصوتيين، ورواية القصص الصوتية، والحوسبة بدون استخدام اليدين.
قيود أنظمة معالجة الكلام المتسلسلة
على الرغم من التطورات في فهم الصوت، لا يزال هناك تحدٍّ واضح: فمعظم الأنظمة تعتمد على سلسلة من الوحدات المنفصلة لتحويل الكلام إلى نص، ومعالجة النص، وتحويل النص إلى كلام. وهذه المقاربة المعيارية قد تُؤدي إلى انخفاض الأداء وزيادة زمن الاستجابة بسبب تراكم الأخطاء وتأخيرات المعالجة. علاوة على ذلك، تفتقر هذه الأنظمة إلى التحكم الدقيق في التعبير، مما يجعلها غير مناسبة للمهام الدقيقة مثل الحوارات العاطفية أو توليد الكلام الديناميكي. لذلك، فإن الحل الأمثل هو نموذج موحد تمامًا قادر على فهم سؤال صوتي وتوليد إجابة صوتية معبرة مباشرة، وبالتالي القضاء على جميع الوساطات النصية.
من النماذج القائمة على الرموز إلى نماذج اللغة الصوتية الموحدة
حاولت العديد من الأساليب معالجة هذه المشكلة. فقد استخدمت الأساليب المبكرة، مثل HuggingGPT و AudioGPT، هندسة معمارية متسلسلة تجمع بين نماذج منفصلة للكلام واللغة. وعلى الرغم من توسيع نطاق المهام، إلا أن هذه الأنظمة واجهت صعوبات في التفاعل الصوتي في الوقت الفعلي. أما الأعمال اللاحقة، مثل VALL-E، و SpeechGPT، و AudioPaLM، و Qwen2-Audio، فقد أدخلت أنظمة قائمة على الرموز تحوّل الصوت إلى تمثيلات منفصلة. ومع ذلك، فإن معظم هذه النماذج تُخرج نصًا وتتطلب مشفرات صوتية منفصلة، مما يحد من قدرتها على إنتاج استجابات صوتية معبرة وفورية.
Step-Audio-AQAA: نظام استجابة صوتية شاملة من طرف إلى طرف
أعلن باحثو StepFun عن نموذج Step-Audio-AQAA، وهو نموذج لغة صوتية كبير من طرف إلى طرف، مصمم خصيصًا لمهام الاستعلام الصوتي والإجابة الصوتية (AQAA). على عكس النماذج السابقة، يحوّل Step-Audio-AQAA المدخلات الصوتية المنطوقة مباشرة إلى مخرجات صوتية معبرة دون تحويلها إلى نص وسيط. تجمع هذه الهندسة المعمارية بين مُعالج رموز مزدوج، ونموذج لغة ضخم (LLM) يُسمى Step-Omni ويحتوي على 130 مليار معلمة، ومُشفّر صوتي (Vocoder) مطابق للتدفق من أجل توليد كلام طبيعي. يُمكن دمج هذه المكونات من تحقيق تفاعل سلس ومنخفض زمن الاستجابة.
معالجة الرموز، والهندسة المعمارية، والتحكم الصوتي
تبدأ هذه الطريقة بمعالجين صوتيين منفصلين للرموز: أحدهما للميزات اللغوية والآخر للبروز الدلالي. يستخرج مُعالج الرموز اللغوية، القائم على Paraformer، عناصر الكلام المُهيكلة مثل الأصوات (phonemes) بمعدل 16.7 هرتز باستخدام مُعجم رموز يحتوي على 1024 رمزًا. في حين يُشفّر مُعالج الرموز الدلالي (مستوحى من CosyVoice 1.0) الغنى الصوتي بمعدل 25 هرتز مع 4096 رمزًا. يتم تداخل هذه الرموز بنسبة 2:3، ثم تُمرّر إلى Step-Omni، وهو مُشفّر مُضاعف الوسائط (Multimodal Decoder-Only LLM) مُدرّب على بيانات نصية وصوتية وصورية. بعد ذلك، يُخرج النموذج تسلسلات ثلاثية من رموز الصوت والنص، والتي يحوّلها المُشفّر الصوتي إلى كلام سلس. يُمكن هذا الإعداد التحكم الدقيق في الصوت، بما في ذلك النبرة العاطفية ومعدل الكلام.
التقييم و النتائج
تم تقييم النموذج باستخدام مقياس StepEval-Audio-360، والذي يتضمن مهام صوتية متعددة اللغات واللهجات عبر تسع فئات، بما في ذلك الإبداع، والألعاب، والتحكم العاطفي، وتقمص الأدوار، وفهم الصوت. وبالمقارنة مع نماذج متطورة مثل Kimi-Audio و Qwen-Omni، حقق Step-Audio-AQAA أعلى متوسط درجات الرأي في معظم الفئات. على وجه التحديد، في تجارب نسبة رموز النص والصوت، حقق التكوين بنسبة 10:15 أفضل أداء مع درجات محادثة (4.03)، و صلة (0.65)، و واقعية (0.67). بين تقنيات تداخل الصوت المختلفة، حققت طريقة الربط مع الحفاظ على العلامات أفضل أداء، مع درجات محادثة (4.22)، و صلة (0.57)، و واقعية (0.57). تعكس هذه الأرقام قوة النموذج في توليد استجابات صوتية دقيقة دلاليًا، وغنية عاطفيًا، ومتوافقة مع السياق.
الخلاصة: نحو كلام آلي معبر
يُقدم Step-Audio-AQAA حلاً قويًا لقيود أنظمة معالجة الكلام المعيارية. من خلال الجمع بين معالجة الرموز الصوتية المعبرة، ونموذج لغة ضخم متعدد الوسائط، واستراتيجيات ما بعد التدريب المتقدمة مثل تحسين التفضيل المباشر ودمج النماذج، ينجح في توليد استجابات صوتية عالية الجودة، ذات صدى عاطفي. يمثل هذا العمل خطوة كبيرة إلى الأمام في تمكين الآلات من التواصل بكلام ليس فقط وظيفيًا، بل معبرًا وسلسًا.
يمكنكم الاطلاع على الورقة البحثية والنموذج على Hugging Face. جميع الحقوق لهذه الدراسة تخص الباحثين في هذا المشروع. كما يُمكنكم متابعتنا على تويتر والانضمام إلى مجتمعنا على ريديت (أكثر من 100 ألف مشترك) والاشتراك في قائمتنا البريدية.
اترك تعليقاً