إندماج الرؤية واللغة: تقنية X-Fusion تُضيف قدرات بصرية لنماذج اللغة الكبيرة دون المساومة على أدائها اللغوي
لقد حققت نماذج اللغة الكبيرة (LLMs) تقدماً ملحوظاً في العديد من المهام المتعلقة باللغة، مثل محادثات الذكاء الاصطناعي، والاستدلال، وتوليد الأكواد. ومع ذلك، فإن التواصل البشري يتجاوز النصوص المكتوبة، حيث غالباً ما تتضمن عناصر بصرية تُعزز الفهم. ولخلق ذكاء اصطناعي متعدد الاستخدامات حقاً، تحتاج النماذج إلى القدرة على معالجة وتوليد كل من المعلومات النصية والمرئية في وقت واحد.
تدريب نماذج الرؤية واللغة الموحدة: التحديات والفرص
يُظهر تدريب نماذج الرؤية واللغة الموحدة من الصفر باستخدام أساليب مثل التنبؤ بالرموز التلقائية أو نهج هجين يجمع بين الانتشار وخسائر اللغة أداءً قوياً. ومع ذلك، يتطلب ذلك موارد حاسوبية هائلة وإعادة تدريب لكل نمط جديد. ويُقدم نهج بديل يتمثل في تكييف نماذج اللغة الكبيرة المُدرّبة مسبقاً مع قدرات بصرية، وهو مسار أكثر كفاءة، لكنه غالباً ما يُؤثر سلباً على أداء نموذج اللغة الأصلي.
ركزت الأبحاث الحالية على ثلاث استراتيجيات رئيسية:
- دمج نماذج اللغة الكبيرة مع نماذج توليد الصور المستقلة.
- تدريب نماذج متعددة الوسائط كبيرة الحجم من النهاية إلى النهاية.
- استخدام مزيج من خسائر الانتشار والتلقائية.
بينما حققت هذه الأساليب نتائج متقدمة، إلا أنها إما تتطلب إعادة تدريب نماذج كبيرة أو تؤدي إلى تدهور القدرات الأساسية لنموذج اللغة الكبيرة.
X-Fusion: حلٌّ مبتكرٌ لدمج الرؤية واللغة
يُقدم باحثون من جامعة كاليفورنيا، لوس أنجلوس، وجامعة ويسكونسن-ماديسون، وأبحاث أدوبي، تقنية X-Fusion، التي تُكيّف نماذج اللغة الكبيرة المُدرّبة مسبقاً للمهام متعددة الوسائط مع الحفاظ على قدراتها اللغوية.
تستخدم X-Fusion بنية برجية مزدوجة (Dual-tower architecture)، حيث يتم تجميد أوزان اللغة في نموذج اللغة الكبيرة، بينما يتم إضافة برج متخصص للرؤية لمعالجة المعلومات المرئية. يقوم هذا النهج بمحاذاة ميزات النص والرؤية على مستويات متعددة، مما يحسّن الأداء في مهام تحويل الصورة إلى نص وتحويل النص إلى صورة.
أهمية البيانات النظيفة ومحاذاة الميزات
أكد الباحثون من خلال دراسات الاستبعاد (Ablation studies) على أهمية بيانات الصور النظيفة للتدريب، وأظهروا أن محاذاة ميزات الرؤية مع التمثيلات المُدرّبة مسبقاً تُسرّع من التقارب، خاصة بالنسبة للنماذج الأصغر.
مقارنة X-Fusion مع التصاميم البديلة
قارنت الدراسة بنية البرج المزدوج مع متغيرات مُحوّل بديلة لدمج الوسائط المتعددة، بما في ذلك:
- البرج الواحد (Single Tower).
- البرج المُقنّع (Gated Tower).
- إسقاطات مزدوجة (Dual Projection).
أظهر البرج المزدوج أفضل أداء في توليد الصور وفهمها، متفوقاً على التصاميم الأخرى بنسبة 23% في مقياس FID (Fréchet Inception Distance) دون زيادة معلمات التدريب.
النتائج الرئيسية للدراسة
- تحسين الأداء باستخدام بيانات مُركزة على الفهم وخفض الضوضاء في بيانات الصور.
- التأثير الإيجابي لمحاذاة الميزات، خاصةً بالنسبة للنماذج الأصغر.
- تفوق X-Fusion على التصاميم البديلة في مهام تحويل الصورة إلى نص وتحويل النص إلى صورة.
الخاتمة
تُعد X-Fusion إطار عمل يُكيّف نماذج اللغة الكبيرة المُدرّبة مسبقاً للمهام متعددة الوسائط، مثل فهم الصور وتوليدها، مع الحفاظ على قدراتها اللغوية. وتُقدم بنية البرج المزدوج، حيث تظل أوزان اللغة ثابتة، بينما يُعالِج برج رؤية مُستقل ميزات الصورة. تُظهر النتائج التجريبية أن X-Fusion يتفوق على التصاميم البديلة في مهام الصور ونص إلى صورة. وتُساهم هذه الأبحاث في تقديم رؤى قيّمة حول بناء نماذج متعددة الوسائط بكفاءة عالية.
اترك تعليقاً