أدوات الذكاء الاصطناعي الصوتية من رايم: أركانا ورايمكاستر – نقلة نوعية نحو الواقعية

يُعَدّ مجال الذكاء الاصطناعي الصوتي من المجالات سريعة التطور، حيث تتجه الأنظمة نحو المزيد من التمثيل الدقيق والقدرة على التكيف. بينما تم تدريب العديد من النماذج الحالية على تسجيلات صوتية مُعدّة بعناية في استوديوهات، تتبع شركة رايم نهجًا مختلفًا؛ حيث تُركز على بناء نماذج صوتية أساسية تعكس الكيفية التي يتحدث بها الناس في الواقع. ويُمثل إصداراها الأخيران، أركانا (Arcana) ورايمكاستر (Rimecaster)، أدوات عملية للمطورين الذين يسعون إلى تحقيق المزيد من الواقعية والمرونة والشفافية في تطبيقاتهم الصوتية.

أركانا: نموذج مُدمج للغة المنطوقة متعدد الأغراض

أركانا هو نموذج تحويل النص إلى كلام (TTS) مُحسّن لاستخراج الميزات الدلالية، والنحوية، والتعبيرية من الكلام. بينما يركز رايمكاستر على تحديد المتحدث، فإن أركانا يهدف إلى فهم كيف قيل شيء ما – بالتقاط الأسلوب، والإيقاع، والنبرة العاطفية. يدعم النموذج مجموعة متنوعة من حالات الاستخدام، بما في ذلك:

  • الوكلاء الصوتيون للشركات: في أنظمة الرد الآلي (IVR)، ودعم العملاء، والاتصالات الصادرة، وغيرها.
  • توليد النصوص إلى كلام معبراً: للتطبيقات الإبداعية.
  • أنظمة الحوار: التي تتطلب تفاعلاً واعياً بالمتحدث.

تم تدريب أركانا على مجموعة متنوعة من بيانات المحادثات التي تم جمعها في بيئات طبيعية. يسمح هذا له بالتعميم عبر أنماط الكلام، واللهجات، واللغات، والأداء الموثوق به في بيئات صوتية معقدة، مثل التفاعل في الوقت الفعلي. كما يلتقط أركانا عناصر الكلام التي يتم تجاهلها عادةً – مثل التنفس، والضحك، وتلعثم الكلام – مما يساعد الأنظمة على معالجة المدخلات الصوتية بطريقة تعكس الفهم البشري.

تقدم رايم أيضًا نموذج TTS آخر مُحسّن للتطبيقات الهامة ذات الحجم الكبير، وهو Mist v2. يُمكن هذا النموذج النشر الفعال على الأجهزة الطرفية بانخفاض زمني انتقالي (Latency) للغاية دون التضحية بالجودة. يجمع تصميمه بين الميزات الصوتية واللغوية، مما ينتج عنه عمليات دمج مضغوطة ومعبرة في آن واحد.

رايمكاستر: التقاط تمثيل المتحدث الطبيعي

رايمكاستر هو نموذج تمثيل المتحدث مفتوح المصدر تم تطويره للمساعدة في تدريب نماذج الذكاء الاصطناعي الصوتية، مثل أركانا و Mist v2. يتجاوز هذا النموذج مجموعات البيانات الموجهة للأداء، مثل الكتب الصوتية أو البودكاست النصية. بدلاً من ذلك، تم تدريبه على محادثات ثنائية الاتجاه متعددة اللغات تضم متحدثين عاديين. يسمح هذا النهج للنموذج بمراعاة التباين والفروق الدقيقة في الكلام غير النصي – مثل الترددات، وتحولات اللهجات، وتداخل المحادثات.

تقنيًا، يحول رايمكاستر عينة صوتية إلى عملية دمج متجهية تمثل خصائص محددة للمتكلم مثل النبرة، والوقع، والإيقاع، وأسلوب الصوت. تُعدّ هذه العمليات مفيدة في مجموعة من التطبيقات، بما في ذلك التحقق من المتحدث، وتكييف الصوت، وتوليد النص إلى كلام معبر.

تتضمن عناصر التصميم الرئيسية لرايمكاستر:

  • بيانات التدريب: تم بناء النموذج على مجموعة بيانات ضخمة من المحادثات الطبيعية عبر اللغات وسياقات الكلام، مما يُمكّن من تحسين التعميم والمتانة في بيئات الكلام الصاخبة أو المتداخلة.
  • هندسة النموذج: استنادًا إلى تقنية Titanet من NVIDIA، ينتج رايمكاستر عمليات دمج للمتكلمين أكثر كثافة بأربع مرات، مما يدعم تحديد المتحدث بدقة أكبر ويُحسّن الأداء في المراحل اللاحقة.
  • التكامل المفتوح: يتوافق مع Hugging Face و NVIDIA NeMo، مما يسمح للباحثين والمهندسين بدمجه في خطوط أنابيب التدريب والاستدلال بأقل قدر من الجهد.
  • الترخيص: تم إصداره بموجب ترخيص مفتوح المصدر CC-by-4.0، يدعم رايمكاستر البحث المفتوح والتطوير التعاوني.

من خلال التدريب على الكلام الذي يعكس الاستخدام في العالم الحقيقي، يُمكّن رايمكاستر الأنظمة من التمييز بين المتحدثين بشكل أكثر موثوقية وتقديم مخرجات صوتية أقل قيدًا بافتراضات البيانات الموجهة للأداء.

الواقعية والنمطية كأولويات للتصميم

تتماشى التحديثات الأخيرة من رايم مع مبادئها التقنية الأساسية: واقعية النموذج، وتنوع البيانات، وتصميم النظام النمطي. بدلاً من السعي وراء حلول صوتية أحادية متجانسة مدربة على مجموعات بيانات ضيقة، تبني رايم مجموعة من المكونات التي يمكن تكييفها مع مجموعة واسعة من سياقات الكلام والتطبيقات.

التكامل والاستخدام العملي في أنظمة الإنتاج

تم تصميم أركانا و Mist v2 مع وضع التطبيقات في الوقت الفعلي في الاعتبار. كلاهما يدعمان:

  • الاستدلال المتدفق ومنخفض زمن الانتقال.
  • التوافق مع رزم الذكاء الاصطناعي المحادثة وأنظمة الهاتف.

يُحسّنان من طبيعية الكلام المُولّد ويُمكّنان من التخصيص في وكلاء الحوار. وبسبب نمطية تصميمهما، يمكن دمج هاتين الأداتين دون إجراء تغييرات كبيرة على البنية التحتية الحالية. على سبيل المثال، يمكن أن يساعد أركانا في توليد الكلام الذي يحتفظ بنبرة وإيقاع المتحدث الأصلي في بيئة خدمة عملاء متعددة اللغات.

الخلاصة

تقدم نماذج الذكاء الاصطناعي الصوتية من رايم خطوة هامة نحو بناء أنظمة ذكاء اصطناعي صوتية تعكس التعقيد الحقيقي للكلام البشري. يجعلها تموضعها في بيانات العالم الحقيقي وهندستها النمطية مناسبة للمطورين والمنشئين العاملين في المجالات ذات الصلة بالكلام. بدلاً من إعطاء الأولوية للوضوح الموحد على حساب الفروق الدقيقة، تتبنى هذه النماذج التنوع المتأصل في اللغة الطبيعية. وبذلك، تساهم رايم في توفير أدوات يمكن أن تدعم تقنيات صوتية أكثر سهولة وواقعية ووعيًا بالسياق.

المصادر: https://www.rime.ai/blog/introducing-arcana/، https://www.rime.ai/blog/introducing-rimecaster/، https://www.rime.ai/blog/introducing-our-new-brand

شكر خاص لفريق رايم على قيادة الفكر والموارد المُقدّمة لهذه المقالة. قام فريق رايم برعاية هذا المحتوى/المقال.

المصدر: MarkTechPost