نموذج VGR: ثورة في فهم الصور واستخلاص المعنى منها

يُعَدّ فهم وتفسير المعلومات البصرية أحد التحديات الكبرى في مجال الذكاء الاصطناعي. فبينما حققت نماذج معالجة اللغة الطبيعية تقدماً ملحوظاً، إلا أن دمج قدراتها مع الفهم البصري الدقيق لا يزال يشكل عقبة رئيسية. يهدف هذا المقال إلى استعراض نموذج VGR (Visual Grounded Reasoning)، وهو نموذج لغوي كبير متعدد الوسائط طورته باحثون من ByteDance وشركة أكاديمية العلوم الصينية، والذي يمثل قفزة نوعية في مجال الاستدلال متعدد الوسائط.

أهمية الاستدلال متعدد الوسائط في مهام الرؤية واللغة

يتيح الاستدلال متعدد الوسائط للنماذج اتخاذ قرارات مدروسة والإجابة على الأسئلة من خلال دمج كل من المعلومات البصرية والكتابية. يلعب هذا النوع من الاستدلال دوراً محورياً في تفسير الرسوم البيانية، والإجابة على أسئلة تعتمد على الصور، وفهم الوثائق البصرية المعقدة. الهدف هو تمكين الآلات من استخدام الرؤية كما يفعل البشر – ليس فقط رؤية الأشياء، بل فهم ما تراه وربطها بالاستدلال اللغوي.

التحديات في الاستدلال البصري والتحيز اللغوي

واحدة من التحديات الرئيسية في هذا المجال هي أن العديد من النماذج تعتمد بشكل مفرط على المعلومات اللغوية، حتى في المهام التي تتطلب تفسيرًا بصريًا. يؤدي هذا الاعتماد إلى انخفاض الأداء في التطبيقات التي تعتمد بشكل كبير على الإدراك البصري. فعندما يتطلب السؤال تحديد كائن معين في صورة أو تفسير بيانات رقمية في رسم بياني، غالبًا ما تفشل هذه النماذج لأنها تحاول الإجابة باستخدام أنماط لغوية سابقة بدلاً من تحليل المحتوى البصري. هذا يخلق اختناقًا في المهام التي تتطلب فهماً بصرياً دقيقاً لاتخاذ قرارات دقيقة.

القيود الحالية لنماذج الرؤية واللغة الموجودة

تم تقديم العديد من الأدوات لتحسين الأداء في هذه المهام، لكن معظمها لا يزال يعاني من قصور عند طلب تحليل دقيق للإشارات البصرية. بعض الطرق تستخدم عناوين صور مُولّدة مسبقًا أو مناطق مُعلّمة لمساعدة النموذج، بينما تعتمد طرق أخرى على مطالبات مُهيكلة متعددة الخطوات لتشجيع الاستدلال. على الرغم من هذه المحاولات، لا تزال العديد من النماذج محدودة بالإشارات البصرية الثابتة أو خطوط الأنابيب غير المرنة. على سبيل المثال، غالبًا ما تفوت النماذج التي تستخدم سلاسل التفكير القائمة على النص فقط الفروق الدقيقة البصرية، وتلك التي تعتمد على مطالبات جامدة ليست مناسبة للاستفسارات المتنوعة المفتوحة. هذه القيود أبطأت التقدم في إنشاء نماذج تدمج الرؤية والاستدلال بشكل حقيقي.

تقديم VGR: إطار عمل الاستدلال البصري المُرسّخ

قدم باحثون من ByteDance وجامعة أكاديمية العلوم الصينية نموذجًا جديدًا يسمى VGR (Visual Grounded Reasoning). أدخلت هذه الدراسة طريقة تُمكّن النموذج من التفاعل ديناميكيًا مع العناصر البصرية أثناء عملية الاستدلال. يتميز VGR بعدم معالجة تدفقات الصور والنص بشكل منفصل. بدلاً من ذلك، يُحدد المناطق المهمة في الصورة أثناء التفكير في سؤال ويستخدم هذه المناطق كجزء من عملية الإجابة. بالإضافة إلى هذا النموذج، أنشأ الباحثون مجموعة بيانات جديدة، VGR-SFT، والتي تُمكّن النظام من تعلم الاستدلال البصري مع أدلة صور مضمّنة. يُلغي هذا النهج الحاجة إلى التعليقات التوضيحية اليدوية ويُمكّن التركيز البصري المرن.

كيف يُمكّن إعادة التشغيل البصري الانتقائي الاستدلال البصري الفعال؟

جوهر VGR هو تقنية تُعرف بإعادة التشغيل البصري الانتقائي. تُمكّن هذه الميزة النموذج من استرجاع أجزاء محددة من الصورة عند الحاجة. يستخدم مُشفّر رؤية لاستخراج الرموز من مناطق الصورة وتخزينها في تجمع ذاكرة بصري. أثناء الاستدلال، إذا واجه النموذج حالة تتطلب معلومات بصرية، فإنه يُشير إلى إعادة تشغيل، وتُعاد رموز الصورة ذات الصلة إلى تدفق الاستدلال. يستخدم النظام استراتيجية AnyRes، مما يُوسّع دعم الدقة ويُقلل من استخدام الرموز. مقارنةً بطريقة الأساس، يستخدم VGR 144 رمزًا فقط للقطات الصور و 720 رمزًا للمناطق عالية الدقة، وهو ما يُمثل انخفاضًا بنسبة 70% في إجمالي الرموز. لتدريب هذه القدرة، يتم توجيه النموذج من خلال كل من التعلم الخاضع للإشراف ودالة خسارة مساعدة تُعزز قدرته على تحديد وتفسير المناطق بكفاءة.

نتائج المقاييس: دقة وكفاءة مع عدد أقل من الرموز

خضع النموذج للاختبار باستخدام LLaVA-NeXT-7B كخط أساس وأظهر نتائج قوية. على مقياس MMStar، حقق VGR تحسناً بنسبة +4.1. كما تفوق على خط الأساس بنسبة +7.1 على مقياس AI2D و +12.9 على ChartQA. تم تحقيق هذه النتائج مع استخدام 30% فقط من عدد رموز الصور المطلوبة من قبل خط الأساس. في مقارنة أخرى، حسّن VGR الأداء بمقدار 6.4 نقاط على MMStar و 14.1 على ChartQA، مما يُظهر كفاءته ودقته مع موارد أقل. يُظهر هذا الأداء فعالية آلية إعادة التشغيل الانتقائية في تعزيز الاستدلال متعدد الوسائط من خلال المشاركة البصرية المُستهدفة.

أفكار ختامية: تجاوز الاستدلال المُركّز على النص

في الختام، يُظهر هذا العمل أن التكامل المدروس للإشارات البصرية في عملية الاستدلال يمكن أن يتغلب على قيود الاستنتاج القائم على النص. عالج الباحثون مشكلة واضحة، ووضعوا طريقة دقيقة لحلها، وأثبتوا فائدتها بنتائج قابلة للقياس. الحل عملي وفعال، ويعيد تعريف كيفية دمج الإشارات البصرية في أنظمة الاستدلال الذكية.

المصدر: MarkTechPost