نموذج ReVisual-R1: ثورة في التفكير متعدد الوسائط

يُشكل تطوير نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) القادرة على التفكير المعقد تحديًا كبيرًا في مجال الذكاء الاصطناعي. وقد حققت نماذج اللغات القائمة على النصوص، مثل DeepSeek-R1، تقدمًا ملحوظًا في مجال الاستدلال، مدعومةً بتقنيات التعلم المعزز. لكن تطبيق هذه التقنيات على نماذج MLLMs لم يحقق النجاح المُرجو، حيث لا تزال هذه النماذج تُعاني من صعوبة في أداء مهام الاستدلال المعقدة. يشير هذا إلى أن إعادة استخدام استراتيجيات التعلم المعزز المُطبقة على نماذج النصوص فقط قد لا يكون فعالاً في بيئات متعددة الوسائط، حيث يُضيف التفاعل بين أنواع البيانات المختلفة تحديات جديدة تتطلب نهجًا أكثر تخصيصًا.

تطور نماذج اللغات متعددة الوسائط

تعتمد الأبحاث الحديثة في مجال نماذج اللغات متعددة الوسائط على التقدم المُحرز في نماذج اللغات الكبيرة، من خلال دمج المدخلات المرئية مع فهم اللغة. وقد وضعت نماذج مبكرة، مثل CLIP و MiniGPT-4، الأساس لهذا المجال، تلتها نماذج مُدربّة حسب التعليمات مثل LLaMA. بينما تُظهر النماذج المغلقة المصدر قدرة قوية على الاستدلال من خلال مخرجات تفصيلية طويلة، إلا أن النماذج المفتوحة المصدر ركزت بشكل أساسي على الضبط الدقيق وتكييف تقنيات التفكير خطوة بخطوة (CoT). ولكن غالبًا ما تُنتج هذه النماذج إجابات مُوجزة تُحد من العمق في التفسيرات. وقد أظهر التعلم المعزز، بما في ذلك تقنيات مثل RLHF و GRPO، وعدًا كبيرًا في تحسين الاستدلال في نماذج اللغات الكبيرة. وبناءً على ذلك، تهدف الأعمال البحثية الحديثة إلى تطبيق التعلم المعزز في نماذج MLLMs لتحسين الاستدلال البصري ودعم مخرجات أكثر ثراءً وطولًا.

تقديم نموذج ReVisual-R1

قدّم باحثون من جامعة تسينغهوا، وجامعة جياو تونغ في شنغهاي، ومعمل شنغهاي للذكاء الاصطناعي، نموذج ReVisual-R1، وهو نموذج لغة كبير متعدد الوسائط مفتوح المصدر يحتوي على 7 مليارات بارامتر، ويُمثل معيارًا جديدًا في مجال الاستدلال متعدد الوسائط. وتكشف دراستهم عن ثلاث رؤى رئيسية:

  • التدريب المسبق الدقيق على النصوص فقط يُوفر بداية قوية: حيث يتفوق على العديد من نماذج MLLMs الموجودة حتى قبل تطبيق التعلم المعزز.
  • خوارزمية GRPO المُستخدمة بشكل شائع تعاني من ركود التدرج: وقد عالج الباحثون هذه المشكلة بطريقة جديدة تُسمى “تقطير الميزة المُعطاة أولوية” (PAD).
  • إضافة مرحلة نهائية للتعلم المعزز على النصوص فقط بعد التعلم المعزز متعدد الوسائط يُعزز الاستدلال بشكل أكبر.

ويُحقق نهجهم المكوّن من ثلاث مراحل، والذي يتضمن التدريب المسبق على النصوص، والتعلم المعزز متعدد الوسائط، والمرحلة النهائية للتعلم المعزز على النصوص فقط، توازنًا فعالًا بين التأسيس البصري والتفكير المعرفي العميق.

تطوير مجموعة بيانات GRAMMAR

تم تطوير مجموعة بيانات GRAMMAR بعد ملاحظة أن مجموعات البيانات الأولية متعددة الوسائط الحالية تفتقر إلى العمق اللازم لتدريب نماذج استدلال قوية. وقد أظهرت مجموعات بيانات النصوص فقط، مثل DeepMath، مكاسب أفضل في كل من مهام النصوص والمهام متعددة الوسائط، مما يشير إلى أن التعقيد النصي يُحفز الاستدلال بشكل أفضل. ولمعالجة ذلك، تجمع GRAMMAR بين عينات نصية ومتعددة الوسائط متنوعة باستخدام عملية اختيار متعددة المراحل. وتُغذّي هذه البيانات إطار عمل “التحسين المعزز المرحلي” (SRO)، والذي يُدرب النماذج أولاً باستخدام التعلم المعزز متعدد الوسائط، مُعززًا بتقنية “تقطير الميزة المُعطاة أولوية” لتجنب تعثّر التعلم، ومكافأة فعّالة الطول للحد من الإيجاز المفرط، يليها مرحلة تعلم معزز على النصوص فقط لتعزيز الاستدلال وطلاقة اللغة.

خط أنابيب التدريب المكوّن من ثلاث مراحل

تَبعت تجارب ReVisual-R1 عملية تدريب مُنظمّة مكوّنة من ثلاث مراحل: بدءًا من بيانات نصية بحتة لبناء أساس لغوي، ثم دمج التعلم المعزز متعدد الوسائط للاستدلال المرئي-النصي، وأخيرًا الضبط الدقيق باستخدام التعلم المعزز على النصوص فقط لتحسين الاستدلال والطلاقة. تم اختبار النموذج عبر معايير مُختلفة، وتفوق على كل من النماذج مفتوحة المصدر وبعض النماذج التجارية في مهام الاستدلال متعدد الوسائط والرياضيات. وقد حقق النموذج أفضل النتائج في 9 من أصل 10 معايير. وقد أكدت دراسات الاستبعاد أهمية ترتيب التدريب وطريقة “تقطير الميزة المُعطاة أولوية”، والتي ساعدت على تركيز التعلم على الاستجابات عالية الجودة، مما أدى إلى تحسين كبير في الأداء العام.

ملخص ومساهمات

في الختام، يُعد ReVisual-R1 نموذجًا للغة كبير متعدد الوسائط مفتوح المصدر (7 مليارات بارامتر) صُمّم لمعالجة تحديات الاستدلال متعدد الوسائط المعقد. وبدلاً من الاعتماد فقط على الحجم، يستخدم عملية تدريب مُصممة بعناية مكونة من ثلاث مراحل: بدءًا من بيانات نصية عالية الجودة للاستدلال الأساسي، متبوعًا بمرحلة تعلم معزز متعدد الوسائط مُعززة بتقنية PAD الجديدة لتحقيق الاستقرار، وينتهي بمرحلة نهائية من الصقل القائم على التعلم المعزز على النصوص فقط. وقد عزز هذا المنهج التدريبي المُدروس الأداء بشكل كبير. ويُحدد ReVisual-R1 معيارًا جديدًا بين النماذج التي تحتوي على 7 مليارات بارامتر، متفوقًا في مهام مثل MathVerse و AIME. ويُبرز العمل البحثي كيف يُمكن للتدريب المُنظم أن يُطلق العنان لاستدلال أعمق في نماذج MLLMs.

المصدر: MarkTechPost