نموذج MiMo-VL-7B: ثورة في فهم الصور واللغة متعددة الوسائط
يُعدّ تطوير نماذج اللغة والرؤية (VLMs) أحد أهمّ التطوّرات في مجال الذكاء الاصطناعي متعدد الوسائط. فهذه النماذج تُمكّن الوكلاء الآليين من فهم البيئات المرئية، والتفكير في المحتوى متعدد الوسائط، والتفاعل مع العالمين الرقمي والفيزيائي. وقد أدّى ذلك إلى أبحاث مكثّفة في التصاميم المعمارية ومنهجيات التدريب، مما أسفر عن تقدّم سريع في هذا المجال. يقدّم باحثو شاومي نموذج MiMo-VL-7B، وهو نموذج لغة ورؤية صغير الحجم ولكنه قوي، ويتكوّن من ثلاثة مكونات رئيسية:
مكونات نموذج MiMo-VL-7B
- مشفّر محوّل الرؤية (ViT) بدقة وضوح أصلية: يحافظ هذا المكوّن على تفاصيل الصورة الدقيقة.
- مشروع متعدد الطبقات (MLP): يُستخدم لضمان محاذاة فعّالة بين الوسائط المختلفة.
- نموذج لغة MiMo-7B: مُحسّن لأداء مهام التفكير المعقدة.
عملية تدريب نموذج MiMo-VL-7B
يخضع نموذج MiMo-VL-7B لعملية تدريب تتكوّن من مرحلتين:
المرحلة الأولى: التدريب المسبق
تتضمّن هذه المرحلة أربع مراحل فرعية:
- مرحلة إعداد المُشروع: تهيئة مشروع MLP.
- مرحلة محاذاة اللغة والرؤية: ربط تمثيل اللغة والرؤية معاً.
- مرحلة التدريب المسبق متعدد الوسائط: تدريب النموذج على بيانات متعددة الوسائط.
- التحسين الخاضع للإشراف مع سياق طويل: تحسين النموذج باستخدام بيانات مُشرفة ذات سياق طويل.
استخدمت هذه المرحلة 2.4 تريليون وحدة رمزية من مجموعات بيانات عالية الجودة. ويُنتج هذا النموذج المُحسّن MiMo-VL-7B-SFT.
المرحلة الثانية: مرحلة التدريب اللاحقة
تُستخدم في هذه المرحلة تقنية التعلم المعزز متعدد السياسات (MORL)، والتي تُدمج إشارات مكافآت متنوعة تشمل: دقة الإدراك، ودقة التأسيس البصري، وقدرات التفكير المنطقي، وتفضيلات الإنسان. وينتج عن هذه المرحلة نموذج MiMo-VL-7B-RL.
النتائج الرئيسية
أظهرت النتائج أنّ دمج بيانات التفكير عالية الجودة وذات التغطية الواسعة في مرحلة التدريب المسبق يُحسّن أداء النموذج بشكل كبير. كما أظهرت النتائج صعوبة تحقيق تحسينات متزامنة مستقرة.
مجموعات البيانات المستخدمة
تضمنت مجموعة البيانات المستخدمة في التدريب المسبق 2.4 تريليون وحدة رمزية من بيانات متعددة الوسائط، بما في ذلك:
- عناوين الصور.
- بيانات متداخلة.
- بيانات التعرف الضوئي على الحروف (OCR).
- بيانات التأسيس.
- محتوى الفيديو.
- تفاعلات واجهة المستخدم الرسومية.
- أمثلة التفكير.
- تسلسلات نصية فقط.
التحسين باستخدام التعلم المعزز
استخدمت المرحلة الثانية من التدريب إطار عمل MORL الذي يُدمج بسلاسة التعلم المعزّز مع المكافآت القابلة للتحقق (RLVR) والتعلم المعزز المُوجه من قبل الإنسان (RLHF). يُستخدم RLVR لضمان التحسين الذاتي المستمر، بينما يُستخدم RLHF لمواءمة تفضيلات الإنسان وتخفيف السلوكيات غير المرغوب فيها.
التقييم والأداء
أظهر التقييم الشامل عبر 50 مهمة أنّ MiMo-VL-7B حقّق أداءً متقدّماً بين النماذج مفتوحة المصدر. فقد حقّق نتائج استثنائية في مهام اللغة والرؤية العامة، متفوّقاً على نماذج أكبر حجماً مثل Gemma 3 27B. كما تفوّق بشكل ملحوظ في مهام فهم الوثائق، والتفكير متعدد الوسائط، وفهم واجهة المستخدم الرسومية. وحصل على أعلى تصنيف Elo بين جميع نماذج VLMs مفتوحة المصدر المُقيّمة.
الخلاصة
يُقدّم هذا البحث نموذجين MiMo-VL-7B اللذين يحققان أداءً متقدّماً من خلال مجموعات بيانات تدريب مُحسّنة وعالية الجودة وإطار عمل MORL. كما يُقدّم البحث رؤى قيّمة للمجتمع العلمي. يمكن الوصول إلى الورقة البحثية، وصفحة GitHub، والنموذج على Hugging Face.
اترك تعليقاً