شاتربوك متعدد اللغات: ثورة في تقنية تحويل النص إلى كلام

يُشكل إطلاق شركة Resemble AI مؤخراً لنموذج “شاتربوك متعدد اللغات” (Chatterbox Multilingual) نقلة نوعية في مجال توليد الكلام الاصطناعي. فهو نموذج مفتوح المصدر، ذو جودة إنتاجية عالية، مصمم خصيصاً لاستنساخ الأصوات بدون تدريب مسبق (Zero-shot voice cloning) في 23 لغة، بما في ذلك العربية، الهندية، الصينية، السواحيلية، وغيرها من اللغات العالمية. ويتم توزيعه بموجب ترخيص MIT، مما يجعله متاحاً بحرية للتعديل والتكامل في مشاريع مختلفة. ويبني هذا النظام على إطار عمل Chatterbox الأصلي، مُضيفاً إليه قدرات متعددة اللغات، وتحكماً في التعبير، وعلامات مائية مدمجة لضمان إمكانية تتبع المحتوى.

مميزات شاتربوك متعدد اللغات

  • استنساخ الصوت بدون تدريب مسبق: يستخدم النموذج تقنية التعلم بدون تدريب مسبق، مما يسمح باستنساخ الصوت بسهولة باستخدام عينة صوتية قصيرة تحوي خصائص المتحدث.
  • دعم متعدد اللغات: يدعم النموذج 23 لغة، مما يجعله مناسباً لمجموعة واسعة من التطبيقات العالمية.
  • التحكم في المشاعر: يتيح النموذج التحكم في المشاعر ودرجة شدتها، مما يسمح للمستخدمين بتحديد ليس فقط ما يُقال، بل وكيف يُقال. يمكن ضبط المشاعر كالسعادة، الحزن، أو الغضب، بالإضافة إلى معلمة للتضخيم أو التخفيف من شدة التعبير.
  • العلامات المائية: يحتوي كل ملف مُولّد بواسطة شاتربوك على علامات مائية PerTh (Perceptual Threshold)، وهي تقنية عصبية طورتها Resemble AI. هذه العلامات غير مسموعة للمستمعين، لكن يمكن استخراجها باستخدام كاشف مفتوح المصدر مُرفق مع النموذج. هذا يضمن إمكانية تتبع المحتوى المُولّد والتحقق من صحته.

مقارنة مع النظم التجارية

أظهرت التقييمات أن أداء شاتربوك متعدد اللغات يُنافس معظم نماذج تحويل النص إلى كلام التجارية. ففي اختبارات A/B أعمى أجريت على منصة Podonos، أعرب المستمعون عن تفضيلهم لشاتربوك بنسبة 63.75% على ElevenLabs. هذا يشير إلى أن المستخدمين وجدوا أن مخرجات شاتربوك أقرب إلى الكلام الطبيعي والدقيق في ظروف معينة. مع العلم أن معظم المقارنات الرقمية تقتصر على لغات محددة، مثل الألمانية، بينما يعتبر تفضيل المستمعين هو المقياس الأكثر موثوقية حالياً.

آلية التحكم في التعبير

لا يقتصر دور شاتربوك متعدد اللغات على استنساخ هوية الصوت فحسب، بل يوفر أيضاً أدوات للتحكم في أسلوب الأداء. يمكن للمستخدم ضبط فئات المشاعر، مثل السعادة، الحزن، أو الغضب، والتحكم في شدة التعبير. هذا يسمح بتوليد كلام مُعبّر يناسب السياق، سواء كان ذلك في الوسائط التفاعلية، أو وكلاء الحوار، أو الألعاب، أو التقنيات المساعدة.

دور العلامات المائية في استخدام الذكاء الاصطناعي المسؤول

تساهم العلامات المائية PerTh في ضمان الاستخدام المسؤول للذكاء الاصطناعي. فهي تقنية فعالة في تتبع المحتوى المُولّد وتحقق من صحته، خاصةً مع انتشار الصوت الاصطناعي. وبدمج العلامات المائية على مستوى النظام، يساعد شاتربوك في تقليل مخاطر سوء الاستخدام دون الحاجة إلى آليات إنفاذ خارجية.

خيارات النشر

  • النشر مفتوح المصدر: يتيح الإصدار مفتوح المصدر تثبيت وتشغيل النظام من قبل الباحثين، والمطورين، أو الهواة تحت ترخيص MIT التراخي.
  • خدمة Chatterbox Multilingual Pro: توفر Resemble AI نسخة مُدارة من شاتربوك، تُسمى Chatterbox Multilingual Pro، لبيئات العمل التي تتطلب وقت استجابة سريع، وإمكانية معالجة عدد كبير من الطلبات، بالإضافة إلى ضمانات الامتثال.

أهمية الإصدار المفتوح المصدر

يُعد إصدار شاتربوك متعدد اللغات مفتوح المصدر خطوة مهمة في مجال توليد الكلام الاصطناعي. فهو يوفر نظاماً متعدد اللغات، مفتوحاً، وقابلاً للتحكم، ويُدمج استنساخ الصوت بدون تدريب مسبق، والتحكم في التعبير، والعلامات المائية في إطار عمل متقدم ومتاح بحرية. يُعتبر هذا النظام منصة عملية للبحث والتطوير، كما أنه يُعزز من بيئة أدوات توليد الكلام متعددة اللغات.

رابط صفحة GitHub
رابط تويتر
رابط Reddit
رابط النشرة البريدية

المصدر: MarkTechPost