نماذج اللغات الكبيرة متعددة الوسائط: حل مشكلة نسيان النصوص فقط بفضل تقنية WINGS

تُعد نماذج اللغات الكبيرة (LLMs) متعددة الوسائط (MLLMs) ثورةً في مجال الذكاء الاصطناعي، حيث تمكنت من دمج قدرات معالجة النصوص مع الصور والفيديوهات وغيرها من الوسائط. وهذا التطور سمح بتطوير أنظمة ذكاء اصطناعي أكثر تفاعلية وبديهية، قادرة على فهم الصور، والإجابة على الأسئلة المتعلقة بها، والمشاركة في حوارات تجمع بين النصوص والصور. تُستخدم هذه النماذج في تطبيقات متعددة، مثل التعليم، وإنشاء المحتوى، والمساعدين التفاعليين، وذلك بفضل قدرتها على الربط بين المجالات البصرية واللغوية.

تحدي “نسيان النصوص فقط” في نماذج اللغات الكبيرة متعددة الوسائط

على الرغم من المزايا الكبيرة لنماذج اللغات الكبيرة متعددة الوسائط، إلا أن دمج الصور في هذه النماذج قد خلق تحديًا جديدًا: “نسيان النصوص فقط”. عندما يتم تدريب هذه النماذج على مجموعات بيانات تجمع بين الصور والنصوص، فإنها غالبًا ما تفقد قدرتها على التعامل مع المهام النصية فقط. يحدث هذا لأن الرموز المرئية المدرجة في سلسلة النصوص تُشتت انتباه النموذج عن النص، مما يجعله يُعطي الأولوية للمحتوى المرتبط بالصور، وبالتالي يؤدي إلى ضعف أدائه في المهام التي تتطلب فهمًا لغويًا بحتًا، مثل الاستدلال الأساسي، والفهم، والأسئلة والأجوبة النصية.

حدود استراتيجيات التخفيف الحالية

حاولت العديد من الطرق معالجة هذه المشكلة. بعض هذه الطرق يعيد إدخال كميات كبيرة من البيانات النصية فقط أثناء التدريب، بينما تتناوب طرق أخرى بين التدريب الدقيق على النصوص فقط والتدريب الدقيق متعدد الوسائط. تهدف هذه الاستراتيجيات إلى تذكير النموذج بقدراته اللغوية الأصلية. تتضمن التصاميم الأخرى طبقات مُكيّفة أو ضبطًا قائمًا على المطالبات. ومع ذلك، غالبًا ما تُزيد هذه التقنيات من تكاليف التدريب، وتتطلب منطق تبديل معقدًا أثناء الاستدلال، أو تفشل في استعادة فهم النصوص بالكامل. وتكمن المشكلة بشكل كبير في كيفية تحول انتباه النموذج عند إدخال رموز الصور في التسلسل.

تقنية WINGS: نهج التعلم المزدوج من علي بابا وجامعة نانجينغ

قدم باحثون من فريق أعمال الذكاء الاصطناعي في مجموعة علي بابا وجامعة نانجينغ نهجًا جديدًا يسمى WINGS. يضيف هذا التصميم وحدتين جديدتين – مُتعلم بصري ومُتعلم نصي – إلى كل طبقة من طبقات MLLM. يعمل هذان المُتعلمان بالتوازي مع آلية الانتباه الأساسية للنموذج. يشبه الهيكل “أجنحة” مُرفقة على جانبي طبقات الانتباه. تتحكم مكونة التوجيه في مقدار الانتباه الذي يتلقاه كل مُتعلم بناءً على مزيج الرموز الحالي، مما يسمح للنموذج بموازنة تركيزه بين المعلومات البصرية والمعلومات النصية ديناميكيًا.

الانتباه المتبقي منخفض الرتبة (LoRRA): موازنة الكفاءة والوعي بالوسائط

تستخدم بنية WINGS آلية تسمى الانتباه المتبقي منخفض الرتبة (LoRRA)، والتي تحافظ على خفة الحسابات مع تمكين المُتعلمين من التقاط المعلومات الأساسية الخاصة بالوسائط. في المرحلة الأولى من التدريب، يتم تنشيط المُتعلمين البصريين فقط لمواءمة ميزات الصور. في المرحلة الثانية، يتم تدريب كل من المُتعلمين البصريين والنصيين معًا باستخدام وحدة توجيه تستخدم أوزان الانتباه لتوزيع المسؤولية. يستخدم كل مُتعلم كتل انتباه فعالة للتفاعل مع الصورة أو النص المحيط، ويتم دمج مخرجاتها مع مخرجات النموذج الرئيسي. يضمن هذا عدم غلبة الانتباه البصري على الفهم النصي.

مقاييس أداء WINGS عبر المهام النصية ومتعددة الوسائط

أظهرت WINGS نتائج قوية من حيث الأداء. على مجموعة بيانات MMLU، حققت درجة نصية فقط بلغت 60.53، مما يمثل تحسنًا قدره 9.70 نقطة مقارنة بنموذج أساسي مشابه. بالنسبة لـ CMMLU، سجلت 69.82، وهو ما يزيد 9.36 نقطة عن النموذج الأساسي. في مهام الاستدلال مثل Race-High، زادت 11.9 نقطة، وفي WSC، تم تسجيل تحسن قدره 11.12 نقطة. في معايير متعددة الوسائط مثل MMMU-VAL، حققت WINGS تحسنًا قدره 4.78 نقطة. كما أظهرت نتائج قوية على معيار IIT، حيث تعاملت مع حوارات متعددة الأدوار تجمع بين النصوص والصور بشكل أكثر فعالية من نماذج MLLM مفتوحة المصدر الأخرى بنفس الحجم.

الخلاصة: نحو نماذج MLLMs أكثر توازناً وقابلية للتعميم

باختصار، عالج الباحثون مشكلة نسيان النصوص فقط في نماذج MLLMs من خلال تقديم WINGS، وهي بنية تقترن مُتعلمين بصريين ونصيين مُخصصين مع توجيه الانتباه. من خلال تحليل تحولات الانتباه وتصميم تدخلات مُستهدفة، حافظوا على أداء النصوص مع تعزيز الفهم البصري، مما يوفر نموذجًا متعدد الوسائط أكثر توازناً وكفاءة.

المصدر: MarkTechPost