FastVLM من آبل: ثورة في سرعة ودقة معالجة الصور عالية الدقة

تُعَدُّ نماذج اللغات البصرية (VLMs) أحد أهم التطورات في مجال الذكاء الاصطناعي، حيث تسمح بمعالجة كل من المدخلات النصية والمعلومات المرئية. لكن معالجة الصور عالية الدقة تُشكِّل تحديًا كبيرًا لهذه النماذج، نظرًا لزيادة متطلبات الحوسبة ووقت المعالجة. وقد طرحت آبل مؤخرًا نموذجًا جديدًا يُعرف باسم FastVLM، والذي يُعدُّ نقلة نوعية في هذا المجال.

تحديات معالجة الصور عالية الدقة في نماذج اللغات البصرية

تتمثل التحديات الرئيسية في معالجة الصور عالية الدقة في نماذج اللغات البصرية في النقاط التالية:

  • كفاءة الترميز: غالبًا ما تعاني المُشفِّرات البصرية المُدرَّبة مسبقًا من صعوبة في معالجة الصور عالية الدقة، بسبب متطلبات التدريب غير الفعالة.
  • تكلفة الحوسبة: تزيد تكلفة الحوسبة ووقت الانتظار بشكل كبير عند معالجة الصور عالية الدقة، سواءً من خلال معالجة صورة واحدة بدقة عالية أو من خلال تقسيم الصورة إلى أقسام أصغر.
  • زيادة عدد الرموز: تؤدي الصور عالية الدقة إلى زيادة عدد الرموز (tokens)، مما يزيد من وقت معالجة نموذج اللغة الكبير (LLM) ووقت الحصول على الرمز الأول (TTFT).

الهيكليات الحالية لنماذج اللغات البصرية

تعتمد العديد من نماذج اللغات البصرية الكبيرة، مثل Frozen و Florence، على آلية الانتباه المتبادل (cross-attention) لدمج التمثيلات النصية والمرئية داخل طبقات نموذج اللغة الكبير. كما تُعدُّ الهيكليات التلقائية الانحدارية (Auto-regressive) مثل LLaVA، و mPLUG-Owl، و MiniGPT-4، و Cambrian-1 فعالة في هذا المجال. وتبقى مُحوِّلات الرؤية (Vision Transformers) المُدرَّبة مسبقًا باستخدام CLIP واسعة الانتشار لترميز الصور بكفاءة، مع وجود العديد من المتغيرات مثل SigLIP، و EVA-CLIP، و InternViT، و DFNCLIP. وتُحاول بعض الطرق، مثل LLaVA-PruMerge و Matryoshka، تقليم الرموز ديناميكيًا، بينما تعمل الهياكل الهرمية مثل ConvNeXT و FastViT على تقليل عدد الرموز من خلال تقليل حجم الصورة تدريجيًا. وقد تم تقديم ConvLLaVA مؤخرًا، والذي يستخدم مُشفِّر رؤية بحتًا قائمًا على الالتفافات لترميز الصور.

FastVLM: حل آبل الأمثل

يُقدِّم FastVLM من آبل حلًا مُحسَّنًا للتوازن بين دقة الصورة، ووقت المعالجة، وعدد الرموز، وذلك من خلال تحليل العلاقة بين جودة الصورة، ووقت المعالجة، وعدد الرموز، وحجم نموذج اللغة الكبير. يستخدم FastVLM مُشفِّر رؤية هجين يُسمى FastViTHD، والذي يُصمَّم لإخراج عدد أقل من الرموز وتقليل وقت الترميز للصور عالية الدقة. يُحقق FastVLM توازنًا مثاليًا بين عدد الرموز المرئية ودقة الصورة من خلال تغيير حجم الصورة المُدخلة فقط.

إنجازات FastVLM:

  • تحسين وقت الحصول على الرمز الأول (TTFT) بمقدار 3.2 مرة في إعداد LLaVA1.5.
  • أداء متفوق على LLaVA-OneVision في أقصى دقة، باستخدام نفس نموذج اللغة الكبير (0.5 مليار معلمة).
  • سرعة أعلى بمقدار 85 مرة في وقت الحصول على الرمز الأول (TTFT)، مع استخدام مُشفِّر رؤية أصغر بمقدار 3.4 مرة.
  • تدريب جميع نماذج FastVLM على عقدة واحدة باستخدام 8 وحدات معالجة رسوميات NVIDIA H100-80GB، حيث يستغرق تدريب المرحلة الأولى من VLM حوالي 30 دقيقة فقط باستخدام مُشفِّر Qwen2-7B.

يُحسّن FastViTHD بنية FastViT الأساسية من خلال إضافة مرحلة إضافية مع طبقة تقليل حجم الصورة. وهذا يضمن أن تعمل آلية الانتباه الذاتي على مصفوفات مُصغَّرة بمقدار 32 بدلاً من 16، مما يقلل من وقت ترميز الصورة مع توليد عدد أقل من الرموز (أربعة أضعاف) لمُشفِّر نموذج اللغة الكبير. تحتوي بنية FastViTHD على خمس مراحل: تستخدم المراحل الثلاث الأولى كتل RepMixer لمعالجة فعالة، بينما تستخدم المرحلتان الأخيرتان كتل انتباه ذاتية متعددة الرؤوس، مما يُحقق توازنًا مثاليًا بين الكفاءة الحسابية وفهم الصور عالية الدقة.

مقارنة الأداء

عند مقارنة FastVLM مع ConvLLaVA باستخدام نفس نموذج اللغة الكبير ونفس بيانات التدريب، حقق FastVLM أداءً أفضل بنسبة 8.4% على TextVQA و 12.5% على DocVQA، مع سرعة أعلى بنسبة 22%. تزداد هذه الميزة في الأداء مع زيادة دقة الصور، حيث يحافظ FastVLM على سرعات معالجة أسرع مرتين من ConvLLaVA عبر معايير الأداء المختلفة. يُطابق FastVLM أو يتجاوز أداء MM1 عبر معايير الأداء المتنوعة باستخدام التدريب المسبق المتوسط مع 15 مليون عينة لتغيير حجم الصورة، مع توليد عدد أقل من الرموز المرئية (خمسة أضعاف). علاوة على ذلك، لا يتفوق FastVLM على Cambrian-1 فحسب، بل يعمل أيضًا أسرع بـ 7.9 مرة. مع ضبط التعليمات المُقَيَّمة، يُقدِّم نتائج أفضل مع استخدام عدد أقل من الرموز المرئية (2.3 مرة).

الخلاصة

يُمثِّل FastVLM تقدمًا كبيرًا في مجال نماذج اللغات البصرية، وذلك من خلال استخدام بنية FastViTHD لترميز الصور عالية الدقة بكفاءة. تُقلِّل البنية الهجينة المُدرَّبة على بيانات نصية ومرئية مُعزَّزة من عدد الرموز المرئية مع الحفاظ على دقة عالية مقارنة بالنهج الحالية. يُحقق FastVLM أداءً تنافسيًا عبر معايير الأداء المختلفة، مع تحسينات ملحوظة في كفاءة وقت الحصول على الرمز الأول (TTFT) وعدد معلمات مُشفِّر الرؤية. أظهرت الاختبارات الدقيقة على جهاز M1 MacBook Pro أن FastVLM يُقدِّم توازنًا مُحسَّنًا بين دقة الصورة ووقت المعالجة وسرعة الاستجابة، متفوقًا على الطرق الحالية.

المصدر: MarkTechPost