Meta CLIP 2: ثورة في معالجة اللغات والصور متعددة اللغات
تُعد تقنية التدريب المسبق التبايني للغة والصورة (CLIP) ركيزة أساسية في نماذج الرؤية متعددة الوسائط الحديثة، حيث تُمكّن تطبيقات مثل تصنيف الصور بدون بيانات تدريبية (Zero-shot) وتعمل كمشفرات بصرية في نماذج اللغات الكبيرة متعددة الوسائط (MLLMs). إلا أن معظم المتغيرات من CLIP، بما في ذلك Meta CLIP، تقتصر على البيانات الإنجليزية فقط، متجاهلة بذلك كمية هائلة من المحتوى غير الإنجليزي من شبكة الإنترنت العالمية.
التحديات في توسيع نطاق CLIP ليشمل اللغات المتعددة
يواجه توسيع نطاق CLIP ليشمل بيانات متعددة اللغات تحديين رئيسيين:
- نقص الطريقة الفعالة لجمع البيانات غير الإنجليزية على نطاق واسع: تُعتبر عملية جمع وتجهيز البيانات غير الإنجليزية على نطاق واسع عملية معقدة ومكلفة.
- انخفاض أداء النموذج باللغة الإنجليزية عند إضافة بيانات متعددة اللغات (لعنة تعدد اللغات): يُعرف هذا التحدي بانخفاض دقة النموذج في المهام الإنجليزية عند تدريبه على بيانات بلغات متعددة.
هذه المشاكل تعيق تطوير نماذج موحدة مُحسّنة لكل من المهام الإنجليزية وغير الإنجليزية. فقد اعتمدت طرق مثل OpenAI CLIP و Meta CLIP على البيانات الإنجليزية بشكل أساسي، بينما أدخلت أساليب التقطير (Distillation) تحيزات من نماذج المعلم الخارجية. كما أن SigLIP و SigLIP 2، على الرغم من محاولتهما استخدام بيانات من بحث الصور في جوجل، إلا أنهما يعتمدان على مصادر خاصة، مما يحد من قابليتهما للتوسع. أما نماذج CLIP متعددة اللغات، مثل M-CLIP و mCLIP، فتستخدم تقنيات التقطير، مع الاعتماد على CLIP الإنجليزية كمُشفّر بصري وتدريب مُشفرات نصية متعددة اللغات ببيانات منخفضة الجودة. بالإضافة إلى ذلك، تجمع الأساليب الهجينة مثل SLIP و LiT بين الإشراف اللغوي والتعلم الذاتي غير المُشرف (SSL) لتحقيق التوازن بين المحاذاة الدلالية والتمثيل البصري. لكن رغم كل هذه الجهود، لم تُحَلّ هذه المشاكل الأساسية.
Meta CLIP 2: الحلّ المُبتكر
قام باحثون من Meta و MIT وجامعة برينستون وجامعة نيويورك باقتراح Meta CLIP 2، وهي أول طريقة تُدرّب نماذج CLIP من الصفر باستخدام أزواج صور ونصوص عالمية دون الاعتماد على موارد خارجية مثل البيانات الخاصة أو الترجمة الآلية أو التقطير. يُزيل هذا النهج التبادلات بين أداء النماذج باللغة الإنجليزية واللغات الأخرى من خلال تصميم وتوسيع نطاق البيانات الوصفية، وجمع البيانات، وسعة النموذج، والتدريب بشكل مُتكامل.
ابتكارات Meta CLIP 2 لتوسيع النطاق عالميًا:
- بيانات وصفية قابلة للتوسع عبر أكثر من 300 لغة: يوفر هذا إمكانية تدريب النموذج على مجموعة واسعة من اللغات.
- خوارزمية لجمع البيانات لكل لغة لتحقيق توزيع متوازن للمفاهيم: ضمان تمثيل متوازن للمفاهيم في كل لغة.
- إطار عمل متقدم للتدريب: يُحسّن من كفاءة عملية التدريب وسرعتها.
إطار عمل تدريب Meta CLIP 2
يتبع إطار العمل إعدادات تدريب OpenAI و Meta CLIP وهيكلة النموذج، مع إضافة ثلاث ميزات:
- مُعالج نصي متعدد اللغات: يدعم معالجة النصوص بلغات متعددة.
- توسيع نطاق أزواج التدريب المرئية: زيادة حجم البيانات المستخدمة في التدريب.
- تحليل القدرة الدنيا للنموذج: تحديد الحد الأدنى من سعة النموذج اللازمة لأداء جيد.
لتحقيق قابلية التعميم، يستخدم الإعداد نماذج OpenAI CLIP’s ViT-L/14 و Meta CLIP’s ViT-H/14، مع تعديلات لدعم اللغات المتعددة. أظهرت الدراسات أن نموذج ViT-L/14 يعاني من “لعنة تعدد اللغات” بسبب سعة محدودة، بينما يُعتبر ViT-H/14 نقطة تحول، حيث يحقق مكاسب ملحوظة في المهام الإنجليزية وغير الإنجليزية.
النتائج
يتفوق Meta CLIP 2 (ViT-H/14) على نظيره الإنجليزي فقط (1.0×) ونظيره غير الإنجليزي (1.3×) في كل من المهام الإنجليزية والمتعددة اللغات عند تدريبه على بيانات عالمية وأزواج تدريب موسعة. إلا أن “لعنة تعدد اللغات” تستمر في الإعدادات غير الموسعة أو مع نماذج أصغر مثل ViT-L/14. يُظهر التحول من البيانات الوصفية الإنجليزية إلى نظيراتها العالمية أهمية هذا الجانب. فمثلاً، يؤدي إزالة عامل تصفية اللغة الإنجليزية على نصوص بديلة إلى انخفاض بنسبة 0.6% في دقة ImageNet، مما يُبرز دور عزل اللغة. أما استبدال البيانات الوصفية الإنجليزية ببيانات وصفية عالمية مُدمجة، فيُقلل من الأداء الإنجليزي في البداية، لكنه يُعزز القدرات المتعددة اللغات.
أظهرت التقييمات على معايير تصنيف الصور بدون بيانات تدريبية وتحديد المواقع الجغرافية ببيانات تدريبية قليلة أن التوسع من 13 مليار زوج إنجليزي إلى 29 مليار زوج عالمي يُحسّن النتائج، باستثناء الأداء المشبع في GeoDE.
الخلاصة
قدم الباحثون Meta CLIP 2، وهو أول نموذج CLIP مُدرّب من الصفر على أزواج صور ونصوص عالمية. يُظهر هذا أن توسيع نطاق البيانات الوصفية، وجمع البيانات، وسعة التدريب يمكن أن يُكسر “لعنة تعدد اللغات”، مما يُمكّن من تحقيق فوائد متبادلة لأداء النموذج باللغة الإنجليزية واللغات الأخرى. يتفوق Meta CLIP 2 (ViT-H/14) على نظيره الإنجليزي فقط في اختبار ImageNet (80.5% → 81.3%)، ويتفوق في معايير متعددة اللغات مثل XM3600 و Babel-IN و CVQA بنموذج موحد واحد. من خلال نشر البيانات الوصفية، وطرق جمع البيانات، وشفرة التدريب مفتوحة المصدر، يُمكّن Meta CLIP 2 مجتمع البحث من تجاوز الأساليب التي تركز على اللغة الإنجليزية واحتضان إمكانات الويب متعدد الوسائط العالمي. يمكنكم الاطلاع على الورقة البحثية وصفحة GitHub.




اترك تعليقاً