نماذج العالم المرئية المتقدمة: ميتا تطلق V-JEPA 2 مفتوحة المصدر

يُسعدنا أن نعلن عن إطلاق ميتا لـ V-JEPA 2، وهو نموذج عالمي مفتوح المصدر وقابل للتطوير مصمم للتعلم من مقاطع الفيديو على نطاق الإنترنت، مما يُمكّن من فهم بصري قوي، والتنبؤ بالحالات المستقبلية، والتخطيط بدون بيانات تدريبية مسبقة.

بناءً على بنية التنبؤ بالدمج المشترك (JEPA)

يستند V-JEPA 2 إلى بنية التنبؤ بالدمج المشترك (JEPA)، ويُظهر كيف يمكن أن يُوفر التعلم الذاتي الخاضع للإشراف من مقاطع فيديو الإنترنت السلبية، بالإضافة إلى الحد الأدنى من بيانات تفاعل الروبوت، أساسًا وحدويًا للوكلاء الفيزيائيين الذكية.

التدريب المُسبق القابل للتطوير ذاتي الإشراف من مليون ساعة من الفيديو

تم تدريب V-JEPA 2 مُسبقًا على أكثر من مليون ساعة من مقاطع فيديو الإنترنت بالإضافة إلى مليون صورة. باستخدام هدف إزالة ضوضاء القناع البصري، يتعلم النموذج إعادة بناء الرقع المكانية والزمانية المُقنّعة في مساحة تمثيل كامنة. يتجنب هذا النهج عدم كفاءة التنبؤ على مستوى البكسل من خلال التركيز على ديناميكيات المشهد القابلة للتنبؤ مع تجاهل الضوضاء غير ذات الصلة.

لتوسيع نطاق تدريب JEPA المُسبق إلى هذا المستوى، أدخل باحثو ميتا أربع تقنيات رئيسية:

  • توسيع نطاق البيانات: تم إنشاء مجموعة بيانات مكونة من 22 مليون عينة (VideoMix22M) من مصادر عامة مثل SSv2 و Kinetics و HowTo100M و YT-Temporal-1B و ImageNet.
  • توسيع نطاق النموذج: تم توسيع سعة المُشفّر إلى أكثر من مليار معلمة باستخدام ViT-g.
  • جدول التدريب: تم اعتماد إستراتيجية دقة تدريجية وتم تمديد التدريب المُسبق إلى 252 ألف تكرار.
  • زيادة البيانات المكانية والزمانية: تم التدريب على مقاطع أطول وأعلى دقة تدريجيًا، ليصل إلى 64 إطارًا بدقة 384 × 384 بكسل.

أدت هذه الخيارات التصميمية إلى دقة متوسطة بلغت 88.2٪ عبر ستة مهام قياسية – بما في ذلك SSv2 و Diving-48 و Jester و Kinetics و COIN و ImageNet – متجاوزةً الخطوط الأساسية السابقة.

الفهم من خلال تعلم التمثيل المُقنّع

يُظهر V-JEPA 2 قدرات قوية في فهم الحركة. في معيار Something-Something v2، حقق دقة 77.3٪ من أعلى 1، متفوقًا على نماذج مثل InternVideo و VideoMAEv2. أما بالنسبة لفهم المظهر، فهو لا يزال تنافسيًا مع نماذج التدريب المُسبق المتقدمة للنصوص والصور مثل DINOv2 و PEcoreG. تم تقييم تمثيلات المُشفّر باستخدام مُستشعرات انتباهية، مما يُثبت أن التعلم الذاتي الخاضع للإشراف وحده يمكن أن يُنتج ميزات بصرية قابلة للتحويل وغير محددة بالمجال قابلة للتطبيق عبر مهام التصنيف المتنوعة.

التفكير الزمني من خلال الإجابة على أسئلة الفيديو

لتقييم التفكير الزمني، تم مواءمة مُشفّر V-JEPA 2 مع نموذج لغة كبير متعدد الوسائط وتم تقييمه على العديد من مهام الإجابة على أسئلة الفيديو. على الرغم من عدم وجود إشراف لغوي أثناء التدريب المُسبق، حقق النموذج:

  • 84.0٪ على PerceptionTest
  • 76.9٪ على TempCompass
  • 44.5٪ على MVP
  • 36.7٪ على TemporalBench
  • 40.3٪ على TOMATO

تُشكّل هذه النتائج تحديًا للافتراض القائل بأن المحاذاة بين اللغة والرؤية تتطلب تدريبًا مشتركًا من البداية، مما يُظهر أن مُشفّر الفيديو المُدرّب مُسبقًا يمكن مواءمته لاحقًا مع تعميم قوي.

V-JEPA 2-AC: تعلم نماذج العالم الكامنة للتخطيط الروبوتي

يُمثّل V-JEPA 2-AC، وهو متغير مُكيف مع الإجراءات من المُشفّر المُدرّب مُسبقًا، ابتكارًا رئيسيًا في هذا الإصدار. بعد ضبطه بدقة باستخدام 62 ساعة فقط من فيديو روبوت غير مُسمى من مجموعة بيانات Droid، يتعلم V-JEPA 2-AC التنبؤ بدمج الفيديو المستقبلي بشرط إجراءات الروبوت وأوضاعه. العمارة هي مُحوّل ذو 300 مليون معلمة مع اهتمام سببي بالكتل، مُدرّب باستخدام هدف تدريس قسري وهدف نشر. يسمح هذا بالتخطيط بدون بيانات تدريبية مسبقة من خلال التحكم التنبؤي بالنموذج. يستنتج النموذج تسلسلات الإجراءات من خلال تقليل المسافة بين الحالات المستقبلية المُتخيلة والأهداف البصرية باستخدام طريقة الانتروبيا المتقاطعة (CEM). يحقق نجاحًا عاليًا في مهام مثل الوصول والإمساك والاختيار والوضع على أذرع روبوت غير مرئية في مختبرات مختلفة – بدون أي إشراف مكافأة أو جمع بيانات إضافية.

المعايير: الأداء القوي وكفاءة التخطيط

مقارنةً بالخطوط الأساسية مثل Octo (استنساخ السلوك) و Cosmos (نماذج عالم الانتشار الكامن):

  • يُنفذ V-JEPA 2-AC الخطط في حوالي 16 ثانية لكل خطوة (مقابل 4 دقائق لـ Cosmos).
  • يصل إلى معدل نجاح 100٪ في مهام الوصول.
  • يتفوق على الآخرين في مهام الإمساك والتلاعب عبر أنواع الكائنات.

والجدير بالذكر أنه يعمل باستخدام كاميرا RGB أحادية بدون معايرة أو ضبط دقيق محدد للبيئة، مما يعزز قدرة التعميم لنموذج العالم المُتعلم.

الخلاصة

يُمثل V-JEPA 2 من ميتا تقدمًا كبيرًا في التعلم الذاتي القابل للتطوير للذكاء الفيزيائي. من خلال فصل تعلم الملاحظة عن شرط الإجراءات والاستفادة من مقاطع الفيديو السلبية على نطاق واسع، يُظهر V-JEPA 2 أنه يمكن تسخير التمثيلات البصرية متعددة الأغراض لكل من الإدراك والتحكم في العالم الحقيقي.

يمكنكم الاطلاع على الورقة البحثية، والنماذج على Hugging Face، وصفحة GitHub. جميع الحقوق لهذه الدراسة تخص الباحثين في هذا المشروع. تابعونا أيضًا على تويتر، وانضموا إلى مجتمعنا على ريديت، واشتركوا في قائمتنا البريدية.

المصدر: MarkTechPost