ثورة الصوت من النص: تقنية ARC ونموذج Stable Audio Open Small
يُعَد توليد الصوت من النص نقلة نوعية في مجال معالجة الإشارات الصوتية، حيث يُمكّن من توليد أصوات عالية الجودة مباشرةً من خلال مدخلات نصية. تُستخدم هذه التقنية في العديد من المجالات، مثل إنتاج الموسيقى والألعاب والخبرات الافتراضية. لكن سرعة الاستنتاج البطيئة لهذه النماذج كانت عائقًا أمام تفاعلها في الوقت الفعلي، خاصةً مع توقع المستخدمين للاستجابة الفورية شبيهةً بعمل الآلات الموسيقية.
تحديات نماذج توليد الصوت من النص
تعتمد نماذج توليد الصوت من النص التقليدية على تقنيات تدفق غاوسي، مثل تقنيات الانتشار أو التدفقات المصححة، والتي تُنمذج الخطوات المتزايدة التي تنتقل من ضوضاء عشوائية إلى صوت مُبَنى. على الرغم من فعاليتها العالية في إنتاج أصوات عالية الجودة، إلا أن سرعة الاستنتاج البطيئة تُشكّل عائقًا رئيسيًا. فقد تستغرق هذه النماذج عدة ثوانٍ أو حتى دقائق لتوليد بضع ثوانٍ من الصوت.
تتمثل المشكلة الرئيسية في بنية الاستنتاج القائمة على الخطوات، والتي تتطلب ما بين 50 و 100 تكرار لكل مخرجات. ركزت استراتيجيات التسريع السابقة على أساليب التقطير، حيث يتم تدريب نماذج أصغر تحت إشراف نماذج أكبر لنسخ الاستنتاج متعدد الخطوات في عدد أقل من الخطوات. لكن هذه الأساليب مكلفة من الناحية الحسابية، وتتطلب مساحة تخزين كبيرة للمخرجات التدريبية الوسيطة، أو تتطلب تشغيل عدة نماذج في الذاكرة في وقت واحد، مما يُعيق اعتمادها، خاصةً على الأجهزة المحمولة أو أجهزة الحافة. كما أن هذه الأساليب غالبًا ما تُضحي بتنوع المخرجات وتُدخِل تشوهات تشبع زائدة.
تقنية ARC: نهج جديد لتوليد الصوت
للتغلب على هذه التحديات، قام باحثون من جامعة كاليفورنيا في سان دييغو، وStability AI، وArm، بتقديم تقنية تدريب ما بعد المعالجة المعاكسة النسبية التناقضية (ARC). يتجنب هذا النهج الحاجة إلى نماذج المعلم أو التقطير أو التوجيه الخالي من التصنيف. بدلاً من ذلك، يُحسّن ARC مُولّد تدفق مُصحّح مُدرّب مسبقًا من خلال دمج هدفين تدريبيين جديدين: خسارة معاكسة نسبية وخسارة مُميّز تناقضية. يساعد هذا في إنتاج صوت عالي الدقة في عدد أقل من الخطوات مع الحفاظ على توافق قوي مع المدخلات النصية.
مكونات تقنية ARC:
- الخسارة المعاكسة النسبية: تقارن بين عينات الصوت المُولدة والعينات الحقيقية، مُدرّبة على التمييز بينهما.
- الخسارة المُميّزة التناقضية: تُدرّب المُميّز على ترتيب أزواج الصوت-النص بدقة أعلى من الأزواج غير المُطابقة لتحسين صلة المدخلات.
بفضل هذه التقنية، تمكنت ARC من توليد 12 ثانية من الصوت الاستريو بتردد 44.1 كيلوهرتز في 75 ميلي ثانية فقط على وحدة معالجة رسوميات H100، وحوالي 7 ثوانٍ على الأجهزة المحمولة.
نموذج Stable Audio Open Small (SAO Small)
باستخدام منهجية ARC، تم تقديم نموذج Stable Audio Open Small (SAO Small)، وهو نسخة مُدمجة وفعالة من SAO مُصممة للبيئات ذات الموارد المحدودة. يحتوي هذا النموذج على 497 مليون معلمة ويستخدم بنية مُبنية على مُحوّل انتشار كامن. يتألف من ثلاثة مكونات رئيسية:
- مشفر/فك تشفير ضغط الموجة الصوتية: يُقلل حجم البيانات الصوتية.
- نظام تضمين نصي قائم على T5: يُستخدم لتكييف المعنى اللغوي.
- مُحوّل الانتشار (DiT): يعمل داخل الفضاء الكامن للمشفر/فكّ التشفير.
يمكن لـ SAO Small توليد صوت استريو يصل إلى 11 ثانية بطول 44.1 كيلوهرتز. وهو مُصمم للنشر باستخدام مكتبة “stable-audio-tools” ويدعم أخذ العينات ذهابًا وإيابًا، مما يُمكّن من توليد سريع بخطوات قليلة.
أداء SAO Small:
أظهر النموذج كفاءة استثنائية في الاستنتاج، حيث حقق سرعات توليد تقل عن 7 ثوانٍ على هاتف Vivo X200 Pro بعد تطبيق كميّة ديناميكية Int8، مما قلل أيضًا من استخدام ذاكرة الوصول العشوائي من 6.5 جيجابايت إلى 3.6 جيجابايت. هذا يجعله مناسبًا بشكل خاص للتطبيقات الإبداعية على الأجهزة، مثل أدوات الصوت المحمولة والأنظمة المُضمنة.
نتائج الأداء والتقييم
أظهرت تقنية ARC أداءً متميزًا في الاختبارات الموضوعية والذاتية. ففي الاختبارات الموضوعية، حققت درجة FDopenl3 قدرها 84.43، ودرجة KLpasst قدرها 2.24، ودرجة CLAP قدرها 0.27، مما يُشير إلى جودة ودقة دلالية مُتوازنة. كما تميزت بتنوع قوي، حيث حققت درجة تنوع CLAP الشرطي (CCDS) قدرها 0.41. بلغ عامل الوقت الفعلي 156.42، مما يُعكس سرعة توليد استثنائية، بينما ظل استخدام ذاكرة وحدة معالجة الرسوميات عند 4.06 جيجابايت. أما في التقييمات الذاتية التي شارك فيها 14 مشاركًا، فقد حصلت ARC على 4.4 للتنوع، و 4.2 للجودة، و 4.2 للتوافق مع المدخلات.
النقاط الرئيسية
- تتجنب تقنية ARC ما بعد المعالجة التقطير والتوجيه الخالي من التصنيف، معتمدة على الخسائر المعاكسة والتناقضية.
- تُولّد ARC 12 ثانية من الصوت الاستريو بتردد 44.1 كيلوهرتز في 75 ميلي ثانية على H100 و7 ثوانٍ على وحدة المعالجة المركزية للأجهزة المحمولة.
- حققت درجة تنوع CLAP الشرطي (CCDS) قدرها 0.41، وهي الأعلى بين النماذج المُختبرة.
- الدرجات الذاتية: 4.4 (تنوع)، 4.2 (جودة)، و 4.2 (التوافق مع المدخلات).
- يُمكّن أخذ العينات ذهابًا وإيابًا من الاستنتاج بخطوات قليلة مع تحسين جودة المخرجات.
- يوفر نموذج Stable Audio Open Small 497 مليون معلمة، ويدعم توليد 8 خطوات، ومتوافق مع النشر على الأجهزة المحمولة.
الخاتمة
يُمثل الجمع بين تقنية ARC ما بعد المعالجة ونموذج Stable Audio Open Small نقلة نوعية في مجال توليد الصوت من النص، حيث يُزيل الاعتماد على التقطير المكثف من الموارد والتوجيه الخالي من التصنيف، مما يُمكّن الباحثين من تقديم إطار عمل معاكس مُبسّط يُسرّع الاستنتاج دون المساومة على جودة المخرجات أو التوافق مع المدخلات. تُتيح ARC توليدًا سريعًا ومتنوعًا وغنيًا دلاليًا للصوت في بيئات الأداء العالي والأجهزة المحمولة. مع نموذج Stable Audio Open Small المُحسّن للنشر الخفيف، يُمهد هذا البحث الطريق لدمج أدوات الصوت التوليدية سريعة الاستجابة في سير العمل الإبداعي اليومي، بدءًا من تصميم الصوت الاحترافي وصولاً إلى التطبيقات في الوقت الفعلي على أجهزة الحافة.
اترك تعليقاً