نماذج معالجة اللغة والرؤية: التحديات والابتكارات

تُعرف نماذج معالجة اللغة والرؤية (VLMs) بقدرتها على فهم كل من المدخلات النصية والمرئية. ولكن، يُعتبر دقة الصورة عاملاً حاسماً في أداء هذه النماذج، خاصةً عند معالجة البيانات الغنية بالرسوم البيانية والمخططات. ويُطرح تحديين رئيسيين عند زيادة دقة الصورة:

التحدي الأول: كلفة الحوسبة ووقت الاستجابة

  • زيادة متطلبات المعالجة: غالباً ما تُعاني المُشفرات البصرية المُدرّبة مسبقاً من صعوبة في معالجة الصور عالية الدقة، نظرًا لمتطلبات التدريب غير الكفؤة.
  • زيادة تكلفة الحوسبة: يؤدي تشغيل الاستدلال على صور عالية الدقة إلى زيادة التكاليف الحسابية ووقت الاستجابة (الكمون) أثناء توليد الرموز البصرية، سواءً من خلال معالجة عالية الدقة أو استراتيجيات تقسيم الصورة إلى قطع أصغر.
  • زيادة عدد الرموز: تُنتج الصور عالية الدقة المزيد من الرموز، مما يؤدي إلى زيادة وقت ملء نموذج اللغة الكبير (LLM) ووقت الحصول على الرمز الأول (TTFT)، وهو مجموع وقت استجابة المُشفّر البصري ووقت ملء نموذج اللغة الكبير.

التحدي الثاني: هندسة النماذج وتقنيات تحسين الأداء

تستخدم نماذج متعددة الوسائط الكبيرة مثل Frozen وFlorence آلية الانتباه المتبادل لدمج بيانات الصور والنصوص داخل طبقات نموذج اللغة الكبير الوسيطة. وتُعدّ الهياكل التلقائية الانحدارية مثل LLaVA، و mPLUG-Owl، و MiniGPT-4، و Cambrian-1 فعالة. وللحصول على تشفير صور فعال، لا تزال مُحولات الرؤية المدربة مسبقاً باستخدام CLIP شائعة الاستخدام، مع وجود متغيرات مثل SigLIP، و EVA-CLIP، و InternViT، و DFNCLIP. وتُحاول أساليب مثل LLaVA-PruMerge و أخذ العينات القائم على Matryoshka تقليم الرموز ديناميكيًا، بينما تعمل الهياكل الهرمية مثل ConvNeXT و FastViT على تقليل عدد الرموز من خلال تقليل العينة التدريجي. وقد تم مؤخراً تقديم ConvLLaVA، والذي يستخدم مُشفّر رؤية دوار بحت لتشفير الصور لنموذج معالجة اللغة والرؤية.

FastVLM: حلول مبتكرة لتحسين الأداء

اقترح باحثون من أبل نموذج FastVLM، الذي يحقق توازنًا مثاليًا بين دقة الصورة ووقت الاستجابة والدقة من خلال تحليل العلاقة بين جودة الصورة، ووقت المعالجة، وعدد الرموز، وحجم نموذج اللغة الكبير. ويستخدم FastVLM مُشفّر رؤية هجين يُسمى FastViTHD، والذي صُمّم لإخراج عدد أقل من الرموز وتقليل وقت التشفير للصور عالية الدقة.

مميزات FastVLM:

  • التحكم في عدد الرموز: يحقق FastVLM توازنًا مثاليًا بين عدد الرموز البصرية ودقة الصورة فقط عن طريق تغيير حجم الصورة المدخلة.
  • تحسين وقت الاستجابة: يُظهر تحسنًا بنسبة 3.2 مرة في وقت الحصول على الرمز الأول (TTFT) في إعداد LLaVA1.5، ويحقق أداءً متفوقًا في المعايير الرئيسية باستخدام نفس نموذج اللغة الكبير (0.5 مليار معلمة) عند مقارنته بـ LLaVA-OneVision بأقصى دقة.
  • كفاءة عالية: يُوفر سرعة أعلى بنسبة 85 مرة في وقت الحصول على الرمز الأول (TTFT) مع استخدام مُشفّر رؤية أصغر بنسبة 3.4 مرة.
  • هندسة FastViTHD: يعزز FastViTHD بنية FastViT الأساسية من خلال إضافة مرحلة إضافية مع طبقة تقليل العينة. يضمن هذا أن تعمل آلية الانتباه الذاتي على مُشغلات مُقلّلة العينة بمقدار 32 بدلاً من 16، مما يقلل من وقت استجابة تشفير الصورة مع توليد عدد أقل من الرموز (4 أضعاف) لمُشفّر نموذج اللغة الكبير. تحتوي بنية FastViTHD على خمس مراحل: تستخدم المراحل الثلاث الأولى كتل RepMixer لمعالجة فعالة، بينما تستخدم المرحلتان الأخيرتان كتل انتباه ذاتي متعددة الرؤوس، مما يخلق توازنًا مثاليًا بين الكفاءة الحسابية وفهم الصور عالية الدقة.
  • أداء متفوق: عند مقارنته مع ConvLLaVA باستخدام نفس نموذج اللغة الكبير ونفس بيانات التدريب، يحقق FastVLM أداءً أفضل بنسبة 8.4% في TextVQA وتحسينًا بنسبة 12.5% في DocVQA مع سرعة تشغيل أسرع بنسبة 22%. تزداد ميزة الأداء عند دقة أعلى، حيث يحافظ FastVLM على سرعات معالجة أسرع مرتين من ConvLLaVA عبر معايير مختلفة.

نتائج الاختبارات:

  • يُطابق FastVLM أو يتجاوز أداء MM1 عبر معايير متنوعة باستخدام التدريب المسبق الوسيط مع 15 مليون عينة لتغيير حجم الدقة، مع توليد عدد أقل من الرموز البصرية (5 أضعاف).
  • يتفوق FastVLM ليس فقط على Cambrian-1، بل يعمل أيضًا أسرع بـ 7.9 مرة.
  • مع ضبط التعليمات المُحسّن، يُقدم نتائج أفضل مع استخدام عدد أقل من الرموز البصرية (2.3 مرة).

الخلاصة

يُمثل FastVLM تقدماً هاماً في نماذج معالجة اللغة والرؤية من خلال استخدام بنية FastViTHD للرؤية من أجل تشفير صور عالية الدقة بكفاءة. تساهم هذه البنية الهجينة، المُدرّبة على بيانات نصوص وصور مُعززة، في تقليل عدد الرموز البصرية مع الحفاظ على الحد الأدنى من التضحية بالدقة مقارنة بالنهج الحالية. يحقق FastVLM أداءً تنافسيًا عبر معايير نماذج معالجة اللغة والرؤية مع تقديم تحسينات ملحوظة في الكفاءة في كل من وقت الحصول على الرمز الأول وعدد معلمات بنية الرؤية. تُظهر الاختبارات الدقيقة على جهاز M1 MacBook Pro أن FastVLM يوفر توازنًا مثاليًا بين دقة الصورة ووقت الاستجابة والدقة، متفوقًا على الأساليب الحالية.

المصدر: MarkTechPost