ماجينتا ريال تايم: ثورة في توليد الموسيقى بتقنية الذكاء الاصطناعي

أعلن فريق ماجينتا التابع لشركة جوجل عن إطلاق نموذج “ماجينتا ريال تايم” (Magenta RT)، وهو نموذج مفتوح المصدر لتوليد الموسيقى في الوقت الحقيقي، ويُعدّ نقلة نوعية في مجال التفاعل مع الصوت المُولّد عبر الذكاء الاصطناعي. يتوفر هذا النموذج تحت ترخيص Apache 2.0، ويمكن الوصول إليه عبر منصتي جيثب وهاجينغ فيس. يُعتبر ماجينتا ريال تايم أول نموذج واسع النطاق لتوليد الموسيقى يدعم الاستنتاج في الوقت الحقيقي مع إمكانية التحكم الديناميكي في الأنماط من قبل المستخدم.

توليد الموسيقى في الوقت الحقيقي: خلفية التقنية

يُعدّ التحكم في الوقت الحقيقي والتفاعل الحيّ أساسيين للإبداع الموسيقي. بينما ركزت مشاريع ماجينتا السابقة، مثل Piano Genie و DDSP، على التحكم التعبيري ونمذجة الإشارات، إلا أن ماجينتا ريال تايم يوسّع هذه الطموحات لتشمل توليف الصوت الكامل. وهو يُقلّص الفجوة بين النماذج التوليدية والتأليف البشري من خلال تمكين التغذية الراجعة الفورية والتطور الموسيقي الديناميكي. يعتمد ماجينتا ريال تايم على تقنيات النمذجة الأساسية المستخدمة في MusicLM و MusicFX. ولكن، على عكس أوضاع التوليد القائمة على واجهة برمجة التطبيقات أو المعالجة الدفعية، يدعم ماجينتا ريال تايم توليف البث مع عامل زمني مباشر (RTF) >1، مما يعني أنه يمكنه توليد الموسيقى بشكل أسرع من الوقت الحقيقي، حتى على وحدات معالجة التنسور (TPUs) المجانية في منصة Google Colab.

نظرة فنية على ماجينتا ريال تايم

ماجينتا ريال تايم هو نموذج لغوي قائم على بنية Transformer، مُدرّب على رموز صوتية منفصلة. تُنتج هذه الرموز عبر مشفر صوتي عصبي يعمل بدقة 48 كيلوهيرتز ستيريو. يستخدم النموذج بنية Transformer ذات 800 مليون معلمة، وقد تم تحسينها لـ:

  • توليد البث في مقاطع صوتية مدتها ثانيتان.
  • التكيّف الزمني مع نافذة تاريخ صوتي مدتها 10 ثوانٍ.
  • التحكم متعدد الوسائط في الأنماط، باستخدام إما مطالبات نصية أو صوتية مرجعية.

لدعم ذلك، يُكيّف النموذج خط أنابيب التدريب المرحلي لـ MusicLM، مع دمج وحدة تضمين موسيقية نصية جديدة تُعرف باسم MusicCoCa (مزيج من MuLan و CoCa). يسمح هذا بالتحكم ذي المعنى الدلالي في النوع الموسيقي، والألات الموسيقية، والتطور الأسلوبي في الوقت الحقيقي.

البيانات والتدريب

تم تدريب ماجينتا ريال تايم على حوالي 190,000 ساعة من موسيقى الألات الموسيقية. تضمن هذه المجموعة الكبيرة والمتنوعة من البيانات تعميمًا واسعًا للأنواع الموسيقية وتكيّفًا سلسًا عبر السياقات الموسيقية المختلفة. تم تقسيم بيانات التدريب إلى رموز باستخدام مشفر هرمي، مما يُمكّن من تمثيل مضغوط بدون فقدان الدقة. يتم تكييف كل جزء مدته ثانيتان ليس فقط مع مطالبة محددة من قبل المستخدم، ولكن أيضًا مع سياق متداول من 10 ثوانٍ من الصوت السابق، مما يُمكّن من تقدم سلس ومتماسك. يدعم النموذج طريقتين لإدخال مطالبات الأنماط:

  • مطالبات نصية: تُحوّل إلى تضمينات باستخدام MusicCoCa.
  • مطالبات صوتية: تُشفّر إلى نفس فضاء التضمين عبر مُشفّر مُتعلم.

يسمح هذا الدمج للوسائط بتحويل الأنواع الموسيقية في الوقت الحقيقي ودمج الآلات الموسيقية ديناميكيًا، وهذه قدرات أساسية لسيناريوهات التأليف الحيّ وعروض الدي جي.

الأداء والاستنتاج

على الرغم من حجم النموذج (800 مليون معلمة)، يُحقق ماجينتا ريال تايم سرعة توليد تبلغ 1.25 ثانية لكل ثانيتين من الصوت. وهذا كافٍ للاستخدام في الوقت الحقيقي (RTF ~0.625)، ويمكن تنفيذ الاستنتاج على وحدات معالجة التنسور المجانية في Google Colab. يتم تقسيم عملية التوليد للسماح بالبث المستمر: يتم توليف كل جزء مدته ثانيتان في خط أنابيب للأمام، مع نوافذ متداخلة لضمان الاستمرارية والتماسك. يتم تقليل زمن الوصول بشكل أكبر عبر تحسينات في تجميع النموذج (XLA)، والذاكرة التخزينية المؤقتة، وجدولة الأجهزة.

التطبيقات وحالات الاستخدام

تم تصميم ماجينتا ريال تايم للاندماج في:

  • العروض الحية، حيث يمكن للموسيقيين أو دي جيز توجيه التوليد أثناء العرض.
  • أدوات النماذج الأولية الإبداعية، التي تقدم اختبارًا سريعًا للأنماط الموسيقية.
  • الأدوات التعليمية، التي تساعد الطلاب على فهم الهيكل، والانسجام، ودمج الأنواع الموسيقية.
  • التركيبات التفاعلية، التي تُمكّن بيئات صوتية توليدية سريعة الاستجابة.

لمحت جوجل عن دعم قادم للاستنتاج على الجهاز والضبط الدقيق الشخصي، مما سيسمح للمبدعين بتكييف النموذج مع توقيعاتهم الأسلوبية الفريدة.

مقارنة بالنماذج ذات الصلة

يكمل ماجينتا ريال تايم نموذجي MusicFX (وضع DJ) من جوجل ديب مايند و Lyria’s RealTime API، لكنه يختلف بشكل أساسي في كونه مفتوح المصدر وقابل للاستضافة الذاتية. كما أنه يختلف عن نماذج الانتشار الكامن (مثل Riffusion) وفكاك التشفير التلقائي التراجعي (مثل Jukebox) من خلال التركيز على تنبؤ الرموز المشفرة مع الحد الأدنى من زمن الوصول. مقارنةً بنماذج مثل MusicGen أو MusicLM، يوفر ماجينتا ريال تايم زمن وصول أقل ويُمكّن التوليد التفاعلي، والذي غالبًا ما يكون مفقودًا في خطوط أنابيب التحويل من المطالبات إلى الصوت الحالية التي تتطلب توليد المسار الكامل مسبقًا.

الخلاصة

يدفع ماجينتا ريال تايم حدود الصوت التوليدي في الوقت الحقيقي. من خلال دمج توليف عالي الدقة مع تحكم ديناميكي من قبل المستخدم، يفتح إمكانيات جديدة لإنشاء الموسيقى بمساعدة الذكاء الاصطناعي. يُوازن تصميمه بين الحجم والسرعة، بينما يُضمن ترخيصه المفتوح إمكانية الوصول والمساهمة المجتمعية. بالنسبة للباحثين والمطورين والموسيقيين على حد سواء، يُمثل ماجينتا ريال تايم خطوة أساسية نحو أنظمة موسيقية تعاونية سريعة الاستجابة تعتمد على الذكاء الاصطناعي. يمكنكم الاطلاع على النموذج عبر هاجينغ فيس، وجيثب، والتفاصيل التقنية، ودفتر الملاحظات في كولاب.

المصدر: MarkTechPost