نموذج SmolVLA: ثورة في روبوتات التعلم الآلي بتكلفة منخفضة

يُعَدّ تطوير نماذج الرؤية واللغة والفعل (VLA) واسعة النطاق خطوةً هامةً في مجال التحكم الآلي بالروبوتات. إلا أنَّ نشر هذه النماذج في العالم الحقيقي ما زال محدوداً بسبب متطلبات الأجهزة والبيانات الضخمة. فمعظم نماذج VLA تعتمد على بنى قائمة على محولات (Transformers) تحتوي على مليارات المعلمات، مما يؤدي إلى تكاليف عالية من حيث الذاكرة والحوسبة. هذا الأمر يُقيد التجارب على المختبرات والمُعالجات السحابية عالية الموارد، ويُستبعد الباحثين الذين يعملون بأجهزة منخفضة التكلفة. إضافةً إلى ذلك، فإنَّ الكثير من التقدم الحالي في أبحاث VLA إما أنها ملكية خاصة أو تعتمد على منهجيات غير قابلة للتكرار، مما يُعيق البحث المفتوح. وأخيراً، فإنَّ اختلاف البيانات عبر منصات الروبوتات – اختلاف في الشكل، والمستشعرات، وأنماط التحكم – يُشكل تحديًا إضافيًا للتعميم والتعلم عبر المنصات المختلفة.

مقدمة نموذج SmolVLA: إطار عمل مفتوح وخفيف الوزن

يُقدم Hugging Face نموذج SmolVLA، وهو نموذج رؤية ولغة وفعل مضغوط مصمم لتحقيق التكلفة والفعالية في النشر. وعلى عكس نماذج VLA التقليدية، تم تدريب SmolVLA بالكامل على مجموعات بيانات تم جمعها من المجتمع، وهو مُحسّن للتشغيل على بيئات معالجات رسوميات (GPU) واحدة أو وحدات المعالجة المركزية (CPU). تُدمج بنية النموذج نسخة مُبسطة من نموذج رؤية ولغة مُدرّب مسبقاً (SmolVLM-2) وخبير فعل قائم على المحولات. تُمكّن هذه البنية التحكم الفعال على مستوى منخفض من خلال تعليمات اللغة الطبيعية ومدخلات كاميرا RGB.

مميزات نموذج SmolVLA:

  • التكلفة المنخفضة: يعمل بكفاءة على أجهزة منخفضة التكلفة.
  • الشفافية: متوفر برخصة مفتوحة مع كود المصدر، وبيانات التدريب، وأدوات النشر.
  • الاستنتاج غير المتزامن: يقلل من زمن الاستجابة ويزيد كفاءة التحكم.

نظرة عامة على البنية والتنازلات التصميمية

يتكون نموذج SmolVLA من مكونين رئيسيين:

وحدة الإدراك (SmolVLM-2):

  • مشفر رؤية ولغة مضغوط مُدرّب مسبقاً، يُعالِج تسلسلات صور RGB، وحالات الحسية الحركية، وتعليمات اللغة.
  • لتحقيق الكفاءة، يحد النموذج من الرموز المرئية من خلال تقليل الحجم، ويستخدم فقط النصف السفلي من طبقات المحول، وذلك بناءً على النتائج التجريبية التي تُظهر أن الطبقات المبكرة غالباً ما تُنتج ميزات أكثر قابلية للنقل.

خبير الفعل:

  • محول خفيف الوزن، مُدرّب باستخدام مطابقة التدفق، يتنبأ بتسلسلات من أفعال التحكم المستمرة.
  • يتناوب خبير الفعل بين طبقات الانتباه الذاتي وطبقات الانتباه المتبادل، مما يُوازن بين تماسك الفعل الداخلي والشرط على مدخلات الإدراك.
  • يتم تطبيق إخفاء السببية لفرض الاتساق الزمني.
  • يتم استخدام إسقاطات خطية لمواءمة أبعاد الرموز المتعددة الوسائط لتقليل العبء الحسابي.
  • يتم إنشاء أجزاء من الفعل بدلاً من تنبؤات خطوة واحدة، مما يقلل من تواتر استدعاءات الاستدلال.
  • يتم تدريب النموذج باستخدام دقة bfloat16 وتجميع Torch’s JIT لتحسين وقت التشغيل.

التقييم التجريبي: محاكاة والأداء في العالم الحقيقي

تم تقييم SmolVLA عبر معايير محاكاة (LIBERO و Meta-World) ومهام روبوتية في العالم الحقيقي باستخدام منصات SO100 و SO101 منخفضة التكلفة. تم تدريب النموذج من الصفر على حوالي 23 ألف حلقة عبر 481 مجموعة بيانات مجتمعية، مع توليد تسميات المهام تلقائيًا باستخدام نموذج VLM. تشمل مقاييس التقييم معدلات النجاح على مستوى المهمة في كل من الظروف المتوافقة وغير المتوافقة مع التوزيع.

  • في معيار LIBERO، حقق SmolVLA (0.45 مليار معلمة) معدل نجاح متوسطًا قدره 87.3٪، مطابقًا أو متجاوزًا نماذج أكبر مثل π₀ (3.3 مليار معلمة).
  • في Meta-World، يتفوق النموذج على سياسات الانتشار ونماذج VLA الأصغر حجمًا عبر مستويات صعوبة المهمة.
  • في الإعدادات الواقعية، يحقق SmolVLA معدلات نجاح متوسطة تبلغ 78.3٪ عبر مهام الالتقاط والوضع، والتكديس، والفرز – متفوقًا على كلا من ACT (المدرب من الصفر) و π₀ (المُحسّن).
  • علاوة على ذلك، يُعمّم SmolVLA عبر تجسيدات الروبوت، مع الحفاظ على الأداء على SO101 على الرغم من التدريب حصريًا على بيانات SO100.

الآثار المترتبة على الأداء للاستنتاج غير المتزامن

يُحسّن مكدس الاستنتاج غير المتزامن في SmolVLA من كفاءة التحكم من خلال تداخل التنبؤ والتنفيذ. مقارنةً بالاستنتاج المتزامن التقليدي، يقلل هذا النهج من متوسط وقت المهمة بنسبة 30٪ تقريبًا، ويضاعف عدد الإجراءات المكتملة في سيناريوهات زمنية ثابتة. هذا مفيد بشكل خاص لنشر الحافة حيث تؤدي تأخيرات الاستنتاج إلى تدهور الأداء في الوقت الفعلي.

الخاتمة

يُظهر SmolVLA أنَّ نماذج VLA المضغوطة، والقابل للتكرار، والمفتوحة المصدر، يمكن أن تدعم التحكم الآلي الكفؤ في الأجهزة منخفضة التكلفة. من خلال الخيارات المعمارية الدقيقة – تقليم الطبقات، والتنبؤ بالإجراءات المجزأة، والتنفيذ غير المتزامن – يحافظ SmolVLA على الأداء مع تقليل الطلبات الحسابية بشكل كبير. يُوفر مكدس التدريب والنشر المفتوح للنموذج، مقترنًا بالتقييمات الواقعية، أساسًا عمليًا لمزيد من البحث في تعلم الروبوتات بكفاءة وإمكانية الوصول. تشمل الاتجاهات المستقبلية توسيع مجموعات البيانات عبر التمثيلات، وتوسيع سعة النموذج دون التضحية بالوقت، واستكشاف التدريب المشترك على مجموعات بيانات متعددة الوسائط تتجاوز بيانات الروبوتات.

المصدر: MarkTechPost