ربط الرؤية والصوت: تطوير نموذج ذكاء اصطناعي متطور لفهم العالم متعدد الوسائط

مقدمة

يمتلك البشر القدرة الفطرية على الربط بين الإشارات البصرية والصوتية، حيث نستطيع مثلاً مشاهدة عازف تشيلو ونفهم أن حركاته هي مصدر الموسيقى التي نسمعها. وقد طور باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) وآخرين منهجية جديدة لتحسين قدرة نماذج الذكاء الاصطناعي على التعلّم بنفس الطريقة، مما يُفتح آفاقاً واسعة للتطبيقات في مجالات متعددة.

تحسين نماذج الذكاء الاصطناعي متعددة الوسائط

بناءً على أبحاث سابقة، ابتكر الباحثون طريقة تُساعد نماذج التعلم الآلي على مواءمة البيانات الصوتية والمرئية من مقاطع الفيديو دون الحاجة إلى وسم البيانات يدوياً. تتمثل هذه الطريقة في:

  • التحسين الدقيق لمواءمة الإطار: تم تعديل طريقة تدريب النموذج الأصلي ليتعلم مواءمة دقيقة بين إطار فيديو معين والصوت المصاحب له في تلك اللحظة.
  • التوازن بين أهداف التعلم: تم إجراء تعديلات هيكلية لتحسين قدرة النظام على موازنة هدفين متميزين للتعلم، مما أدى إلى تحسين الأداء.

هذه التحسينات البسيطة نسبياً عززت دقة النهج في استرجاع الفيديوهات وتصنيف الأحداث في المشاهد السمعية البصرية. فعلى سبيل المثال، يمكن للطريقة الجديدة مطابقة صوت إغلاق باب مع الصورة المرئية لذلك الحدث في مقطع فيديو بدقة عالية.

نموذج CAV-MAE Sync: التحسينات الرئيسية

يُبنى هذا العمل على نموذج تعلّم آلي سابق طورّه الباحثون، يُسمى CAV-MAE، والذي يوفر طريقة فعّالة لتدريب نموذج متعدد الوسائط لمعالجة البيانات الصوتية والمرئية في آن واحد دون الحاجة إلى وسم البيانات يدوياً. ولكن، يعامل CAV-MAE العينات الصوتية والمرئية كوحدة واحدة، مما يحد من دقته. لذا، تم تطوير نموذج مُحسّن يُسمى CAV-MAE Sync، والذي يتميز بالخصائص التالية:

  • تقسيم الصوت إلى نوافذ أصغر: يقسم النموذج الصوت إلى نوافذ زمنية أصغر قبل حساب تمثيلات البيانات، مما يُنتج تمثيلات منفصلة تتوافق مع كل نافذة صوتية صغيرة. يتعلم النموذج ربط إطار فيديو واحد بالصوت الذي يحدث خلال ذلك الإطار فقط.
  • التوازن بين الهدفين التناقضيين وإعادة البناء: يُدمج النموذج هدفاً تباينياً، حيث يتعلم ربط البيانات الصوتية والمرئية المتشابهة، وهدف إعادة بناء يهدف إلى استعادة بيانات صوتية ومرئية محددة بناءً على استفسارات المستخدم.
  • إضافة رموز عالمية ورموز تسجيل: تمّ إضافة نوعين جديدين من تمثيلات البيانات، أو الرموز، لتحسين قدرة النموذج على التعلّم. تشمل هذه الرموز “رموز عالمية” تساعد في الهدف التبايني، و”رموز تسجيل” تساعد النموذج على التركيز على التفاصيل المهمة لهدف إعادة البناء.

النتائج والآفاق المستقبلية

أظهرت التحسينات المُدخلة تحسناً ملحوظاً في قدرة النموذج على استرجاع مقاطع الفيديو بناءً على استعلام صوتي، والتنبؤ بفئة مشهد سمعي بصري، مثل نباح كلب أو عزف آلة موسيقية. كانت نتائج CAV-MAE Sync أكثر دقة من الأعمال السابقة، كما أنها تفوقت على طرق متطورة أكثر تعقيدًا تتطلب كميات أكبر من بيانات التدريب.

يسعى الباحثون في المستقبل إلى دمج نماذج جديدة تُنتج تمثيلات بيانات أفضل في CAV-MAE Sync، مما قد يُحسّن الأداء. كما يرغبون في تمكين نظامهم من معالجة بيانات النصوص، وهي خطوة مهمة نحو إنشاء نموذج لغة كبير سمعي بصري. يُموّل هذا العمل جزئياً من قبل وزارة التعليم والبحث الألمانية ومعمل MIT-IBM Watson للذكاء الاصطناعي.

المصدر: MIT News