إطار عمل VLM-R³ متعدد الوسائط: إعادة تعريف معالجة المعلومات البصرية واللغوية

يُعَدّ تطوير القدرة على التفكير متعدد الوسائط في الآلات خطوةً حاسمةً نحو تقليد العمليات المعرفية البشرية. فبدمج المعلومات البصرية واللغوية، تستطيع هذه الأنظمة أداء مهامّ معقدة تتطلب فهماً بصرياً متقدماً، مثل حلّ المسائل الرياضية المضمنة في الرسوم البيانية، وقراءة اللوحات من الصور، وتفسير المخططات العلمية. لكنّ التحدي الرئيسي يكمن في عدم قدرة النماذج الحالية على إعادة فحص أجزاء محددة من الصورة أثناء عملية التفكير الديناميكية.

قصور النماذج التقليدية

عادةً ما تبدأ النماذج التقليدية بتحليل الصورة مرة واحدة، ثمّ تتابع عملية التفكير اعتماداً على النصّ فقط. هذا النهج يحدّ من الدقة في المواقف التي تتطلب إعادة فحص الصورة لتأكيد تفصيلة معينة أو استخراج مؤشرات بصرية جديدة خلال عملية التفكير. تبرز هذه القصور بشكل خاص في المهامّ التي تتطلب وعيًا مكانيًا دقيقًا، مثل تحديد تسميات صغيرة في الوثائق العلمية أو حلّ الغموض في المشاهد المعقدة بصرياً. على الرغم من وجود بعض الأدوات والنماذج التي تُعالج هذه الفجوة، إلا أنها غالباً ما تعامل الربط البصري كعملية لمرة واحدة فقط. فمثلاً، لا تسمح نماذج مثل LLaVA-CoT أو Qwen2.5-VL بإعادة استعلام أجزاء محددة من الصورة بشكل متكرر وانتقائي بناءً على عملية التفكير المتطورة.

VLM-R³: نهج ثوري في معالجة المعلومات متعددة الوسائط

للتغلب على هذه التحديات، قدّم باحثون من جامعة بكين ومجموعة علي بابا وتكنولوجيا ZEEKR الذكية نموذجاً جديداً يُسمى VLM-R³. يتميز هذا النموذج بقدرته على الربط التفاعلي بين الرؤية والتفكير، حيث يحدد متى تكون هناك حاجة إلى توضيح بصري، ويحدد المنطقة الدقيقة من الصورة للتحليل، ويعيد دمج هذا المحتوى البصري في عملية التفكير. يُحاكي هذا النهج عملية حلّ المشكلات لدى البشر، حيث قد يُكبّر المرء جزءاً من الرسم البياني أو يعود إلى فقرة معينة للتحقق من تفصيلة ما قبل اتخاذ القرار.

بنية النموذج وطريقة التدريب

يركز هيكل النموذج على تحسين قراراته بشكل متكرر من خلال الاعتماد على الأدلة البصرية طوال عملية التفكير. ولتحقيق ذلك، قام الباحثون ببناء مجموعة بيانات تُسمى Visuo-Lingual Interleaved Rationale (VLIR)، مصممة لتدريب النماذج على التفاعل التدريجي بين الصور والنصوص. يُدمج VLM-R³ هذه المجموعة من البيانات ويعمل باستخدام طريقة تُسمى Region-Conditioned Reinforcement Policy Optimization (R-GRPO). تشجع هذه الاستراتيجية التدريبية النموذج على التركيز بشكل انتقائي على الأجزاء المفيدة من الصورة، وأداء تحويلات مثل القص أو التكبير، وإدراج هذه التغييرات في الخطوات المنطقية اللاحقة. وهذا يُحاكي طريقة تحويل البشر انتباههم عبر عناصر بصرية مختلفة استجابةً لأفكارهم.

النتائج والأداء

أظهرت النتائج أداءً قوياً عبر معايير مقارنة متعددة:

  • MathVista: وصلت دقة النموذج إلى 70.4%، مقارنةً بـ 68.2% في النموذج الأساسي.
  • MathVision: تحسنت الدقة من 25.1% إلى 30.2%.
  • ScienceQA: سجّل تحسناً بنسبة 14.3%، ليصل إلى 87.9% مقارنةً بـ 73.6% في النموذج الأساسي.
  • HallusionBench: حقق النموذج دقة 62.0%، متفوقاً على نماذج أخرى مثل Mulberry التي سجلت 54.1%.
  • DocVQA: أظهر نتائج متميزة في فهم الوثائق، مسجلاً 96.8%.

يُظهر VLM-R³ دقة تنافسية، خاصة في المهام التي تتطلب تحليلاً بصرياً دقيقاً وعمليات تفكير متداخلة، حتى مع استخدام عدد أقل من المعلمات مقارنةً بنماذج مغلقة المصدر مثل Gemini-2 Flash أو GPT-4o.

الخلاصة

يُبرز هذا البحث مشكلةً قائمة في طريقة تعامل النماذج مع الرؤية أثناء عملية التفكير، ويقدم حلاً مُهيكلاً بشكل جيد. من خلال دمج طريقة للتحليل البصري المستمر، قدّم باحثو مجموعة علي بابا وجامعة بكين وتكنولوجيا ZEEKR فكرةً قوية: نماذج تنظر ثانيةً، تفكر، ثم تُحسّن. يُحسّن الإطار المقترح دقة المهام المعقدة بشكل كبير، ويُوفر نموذجاً لأنظمة ذكاء اصطناعي أكثر قوة ووعياً بصرياً.

رابط البحث رابط GitHub

المصدر: MarkTechPost