إطار عمل مينج لايت يونيفايد: ثورة في معالجة البيانات متعددة الوسائط

يُعَدّ الذكاء الاصطناعي متعدد الوسائط مجالاً سريع التطور، حيث تسعى الأنظمة إلى فهم البيانات المتنوعة، كالنصوص والصور والفيديو والصوت، واستخدامها في توليد الاستجابات وإنجاز المهام ضمن محادثة أو مهمة واحدة. ويتوقع من هذه الأنظمة التفاعل بسلاسة عبر تنسيقات تواصل متنوعة، مما يُسهّل التواصل بين الإنسان والذكاء الاصطناعي. و مع تزايد استخدام المستخدمين للذكاء الاصطناعي في مهام مثل كتابة عناوين الصور، وتعديل الصور القائمة على النص، وتحويل الأنماط، أصبح من الضروري أن تتم معالجة المدخلات والتفاعل عبر الوسائط المختلفة في الوقت الفعلي.

التحديات في دمج الرؤية واللغة

يركز البحث في هذا المجال على دمج القدرات التي كانت تُعالَج سابقاً بواسطة نماذج منفصلة في أنظمة موحدة قادرة على الأداء بسلاسة ودقة. إلا أن عقبة رئيسية تواجه هذا الدمج تكمن في عدم التوافق بين الفهم الدلالي القائم على اللغة والدقة البصرية المطلوبة في توليد أو تعديل الصور. فعندما تُعالِج نماذج منفصلة الوسائط المختلفة، غالباً ما تصبح النتائج غير متسقة، مما يؤدي إلى ضعف الاتساق أو عدم دقة في المهام التي تتطلب تفسيرًا وتوليدًا. فقد تتفوق النماذج البصرية في استنساخ الصورة، لكنها تفشل في فهم التعليمات الدقيقة وراءها، بينما قد يفهم النموذج اللغوي المطلوب لكنه لا يستطيع تشكيله بصرياً. كما توجد مشكلة قابلية التوسع عند تدريب النماذج بشكل منفصل؛ فهذا النهج يتطلب موارد حوسبة كبيرة وجهود إعادة تدريب لكل مجال. يبقى عدم القدرة على ربط الرؤية واللغة بسلاسة في تجربة متماسكة وتفاعلية أحد المشاكل الأساسية في تطوير الأنظمة الذكية.

مينج لايت يونيفايد: حل مبتكر

في محاولات حديثة لسد هذه الفجوة، قام باحثون من Inclusion AI و Ant Group بتقديم إطار عمل مينج لايت يونيفايد (Ming-Lite-Uni)، وهو إطار عمل مفتوح المصدر مصمم لتوحيد النص والرؤية من خلال بنية متعددة الوسائط ذاتية التراجع. يتميز النظام بنموذج ذاتي التراجع أصلي مبني على نموذج لغوي كبير ثابت ومولد صور منتشر مُحسّن. يعتمد هذا التصميم على إطارين أساسيين هما MetaQueries و M2-omni.

ميزات مينج لايت يونيفايد:

  • الرموز القابلة للتعلّم متعددة المقاييس: يُقدّم مينج لايت يونيفايد مكونًا مبتكرًا من الرموز القابلة للتعلّم متعددة المقاييس، والتي تعمل كوحدات بصرية قابلة للتفسير، واستراتيجية محاذاة متعددة المقاييس للحفاظ على الاتساق بين مقاييس الصور المختلفة.
  • النموذج اللغوي الثابت: يبقي النظام النموذج اللغوي ثابتاً ويُحسّن فقط مولد الصور المنتشرة، مما يسمح بتحديثات أسرع وتوسع أكثر كفاءة.
  • معالجة متعددة المقاييس: يقوم النموذج بضغط المدخلات البصرية إلى تسلسلات رموز مُهيكلة عبر مقاييس متعددة، مثل رقعة صورة 4×4 و 8×8 و 16×16، كل منها يمثل مستويات مختلفة من التفاصيل، من التصميم إلى القوام.
  • استراتيجية محاذاة التمثيل متعددة المقاييس: يُحافظ هذا النظام على الاتساق عبر الطبقات، مما يعزز جودة إعادة بناء الصورة.

أداء مينج لايت يونيفايد والمهام التي يؤديها

تم اختبار النظام على مهام متعددة الوسائط متنوعة، بما في ذلك توليد الصور من النص، وتحويل الأنماط، وتعديل الصور التفصيلية باستخدام تعليمات مثل “اجعل الخروف يرتدي نظارات شمسية صغيرة” أو “أزل زهرتين من الصورة”. تعامل النموذج مع هذه المهام بدقة عالية وسلاسة سياقية. كما حافظ على جودة بصرية عالية حتى عند إعطائه تعليمات مجردة أو أنماطية مثل “أسلوب هاياو ميازاكي” أو “ثلاثي الأبعاد ساحر”.

بيانات التدريب والنتائج

تضمنت مجموعة التدريب أكثر من 2.25 مليار عينة، تجمع بين LAION-5B (1.55 مليار)، و COYO (62 مليون)، و Zero (151 مليون)، بالإضافة إلى عينات مُفلترة من Midjourney (5.4 مليون)، و Wukong (35 مليون)، ومصادر أخرى على الويب (441 مليون). علاوة على ذلك، ضمّنت بيانات دقيقة الحبيبات لتقييم الجماليات، بما في ذلك AVA (255 ألف عينة)، و TAD66K (66 ألف)، و AesMMIT (21.9 ألف)، و APDD (10 آلاف)، مما عزز قدرة النموذج على توليد نتائج بصرية جذابة وفقًا لمعايير الجماليات البشرية.

النقاط الرئيسية

  • هندسة موحدة: يقدم مينج لايت يونيفايد هندسة موحدة لمهام الرؤية واللغة باستخدام النمذجة ذاتية التراجع.
  • رموز متعددة المقاييس: يتم ترميز المدخلات البصرية باستخدام رموز قابلة للتعلّم متعددة المقاييس (دقة 4×4 و 8×8 و 16×16).
  • تحسين الأداء: يُحسّن محاذاة التمثيل متعددة المقاييس من الاتساق، مما يؤدي إلى تحسين بنسبة تزيد عن 2 ديسيبل في PSNR وزيادة بنسبة 1.5٪ في GenEval.
  • مصدر مفتوح: أوزان النموذج والتنفيذ متاحة كمصدر مفتوح، مما يشجع على التكرار والتوسيع من قبل المجتمع.

روابط إضافية

يمكنكم الاطلاع على الورقة البحثية، والنموذج على Hugging Face، وصفحة GitHub.

المصدر: MarkTechPost