نموذج اللغة الكبير متعدد الوسائط LLaDA-V: ثورة في معالجة البيانات البصرية

تُعد نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) من أهم التطورات في مجال الذكاء الاصطناعي، حيث تُمكّن هذه النماذج من معالجة وإنشاء المحتوى عبر وسائط متعددة، بما في ذلك النصوص والصور والصوت والفيديو. تهدف هذه النماذج إلى فهم المعلومات وتكاملها من مصادر مختلفة، مما يُمكّن من استخداماتٍ متنوعة مثل الإجابة على الأسئلة البصرية، وكتابة عناوين الصور، وإنشاء أنظمة حوار متعددة الوسائط. ويُمثل تطوير نماذج LLM خطوةً كبيرةً نحو إنشاء أنظمة ذكاء اصطناعي قادرة على تفسير والتفاعل مع العالم بطريقةٍ أشبه بالطريقة البشرية.

التحديات في تطوير نماذج LLM متعددة الوسائط

يُواجه تطوير نماذج LLM متعددة الوسائط فعالة تحدياتٍ رئيسية، أبرزها:

  • دمج أنواع المدخلات المتنوعة: تتمثل إحدى أهم التحديات في دمج أنواع المدخلات المختلفة، خاصة البيانات البصرية، في نماذج اللغة مع الحفاظ على الأداء العالي عبر المهام المختلفة. غالباً ما تُعاني النماذج الحالية من صعوبة الموازنة بين فهم اللغة القوي والتفكير البصري الفعال، خاصة عند توسيع نطاقها إلى بيانات معقدة.
  • حجم البيانات الضخم: تتطلب العديد من النماذج مجموعات بيانات ضخمة لتحقيق أداءٍ جيد، مما يُصعّب مهمة تكييفها مع مهام أو مجالات محددة.
  • النهج التلقائي: تعتمد نماذج LLM الحالية بشكلٍ رئيسي على الأساليب التلقائية (Autoregressive)، التي تتنبأ بعنصر واحد في كل مرة بطريقةٍ تسلسلية من اليسار إلى اليمين. بينما تُعد هذه الطريقة فعالة، إلا أنها تُعاني من قيود في معالجة السياقات متعددة الوسائط المعقدة.

LLaDA-V: نموذج انتشار نقيّ لمعالجة البيانات متعددة الوسائط

للتغلب على هذه التحديات، قدم باحثون من جامعة رنمين الصينية ومجموعة Ant نموذج LLaDA-V، وهو نموذج لغة كبير متعدد الوسائط قائم على نماذج الانتشار (Diffusion) المُقنّعة (Masked)، ويدمج ضبط التعليمات البصرية مع نماذج الانتشار المُقنّعة. يُبنى LLaDA-V على نموذج انتشار اللغة الكبير LLaDA، ويُدمج مُشفّرًا بصريًا (Vision Encoder) ووصلات MLP لربط المميزات البصرية بمساحة التضمين اللغوية، مما يُمكّن من المحاذاة الفعّالة بين الوسائط المختلفة. يمثل هذا التصميم انحرافًا عن النماذج التلقائية السائدة في الأساليب متعددة الوسائط الحالية، ويهدف إلى التغلب على القيود الموجودة مع الحفاظ على كفاءة البيانات وقابلية التوسع.

مراحل تدريب LLaDA-V:

  1. محاذاة التضمينات البصرية واللغوية: تتم هذه المرحلة بربط المميزات البصرية من SigLIP2 بمساحة اللغة في LLaDA.
  2. الضبط الدقيق: تُستخدم في هذه المرحلة 10 ملايين عينة صورة واحدة و 2 مليون عينة متعددة الوسائط من MAmmoTH-VL.
  3. التركيز على المنطق والاستدلال: تُستخدم في هذه المرحلة 900 ألف زوج من الأسئلة والإجابات من VisualWebInstruct، مع استراتيجية بيانات مختلطة.

أداء LLaDA-V وتطبيقاته

يُظهر LLaDA-V أداءً متفوقًا مقارنةً بنماذج الانتشار الهجينة والتلقائية، ونماذج الانتشار النقية في 18 مهمة متعددة الوسائط. كما تفوق على LLaMA3-V في معظم مهام المعرفة متعددة التخصصات والتفكير الرياضي مثل MMMU، وMMMU-Pro، وMMStar، محققًا درجة 60.1 في MMStar، وهي قريبة من درجة Qwen2-VL التي بلغت 60.7، على الرغم من استخدام LLaDA-V لبرج اللغة LLaDA-8B الأضعف. كما برز LLaDA-V في كفاءة البيانات، متفوقًا على LLaMA3-V في MMMU-Pro باستخدام مليون عينة مقابل 9 ملايين عينة لـ LLaMA3-V. على الرغم من تأخره في معايير فهم الرسوم البيانية والوثائق، مثل AI2D، وفي مهام المشاهد الواقعية، مثل RealworldQA، إلا أن نتائج LLaDA-V تُبرز إمكاناته في المهام متعددة الوسائط.

الخلاصة

يُعالج LLaDA-V تحديات بناء نماذج متعددة الوسائط فعالة من خلال تقديم بنية تعتمد على الانتشار النقي، تجمع بين ضبط التعليمات البصرية ونماذج الانتشار المقنّعة. يُقدم هذا النهج إمكانيات قوية للتفكير متعدد الوسائط مع الحفاظ على كفاءة البيانات. ويُظهر هذا العمل إمكانات نماذج الانتشار في مجال الذكاء الاصطناعي متعدد الوسائط، مما يُمهد الطريق لمزيد من استكشاف الأساليب الاحتمالية في المهام المعقدة للذكاء الاصطناعي.

المصدر: MarkTechPost