نموذج لغة Xiaomi MiMo-7B: تفوقٌ مذهلٌ رغم صغر حجمه

يُشهد العالم حاليًا إقبالًا متزايدًا على أنظمة الذكاء الاصطناعي القادرة على معالجة المهام التي تتطلب منطقًا متعدد الخطوات، وإثباتات رياضية، وتطوير برمجيات. وقد دفع هذا الطلب الباحثين إلى التركيز على تعزيز قدرات الاستدلال في النماذج اللغوية. فقد أصبحت هذه القدرة، التي كانت تُعتقد سابقًا أنها حكرًا على الذكاء البشري، هدفًا رئيسيًا في تطوير نماذج أصغر حجمًا، مما يجعلها أكثر كفاءة وسهولة في النشر.

تحديات تطوير نماذج الاستدلال

مع تزايد أهمية المهام القائمة على الاستدلال، والتي تشمل حل المشكلات الأكاديمية، وإثبات النظريات تلقائيًا، وتصميم الخوارزميات، و تصحيح الأخطاء المعقدة في البرمجيات، من المتوقع أن تتجاوز النماذج اللغوية دورها كوكلاء محادثة عامة الغرض، لتصبح حُلولًا مُتخصصة للمشكلات، تُساعد المهنيين والباحثين على حد سواء.

إحدى التحديات الرئيسية في بناء نماذج مُركزة على الاستدلال هي تحقيق أداء قوي ومتزامن في الرياضيات والبرمجة مع الحفاظ على حجم نموذج صغير نسبيًا. فمعظم النتائج التنافسية في هذه المجالات تُحرز بواسطة نماذج تحتوي على ما يقارب 32 مليار معلمة أو أكثر. وغالبًا ما تُستخدم هذه النماذج الكبيرة لأن النماذج الأصغر تعاني من تعميم وتخصيص المكافآت في مهام التعلم المعزز، خاصةً فيما يتعلق بحل المشكلات القائمة على البرمجة. فملاحظات المكافآت المتناثرة، والبيانات عالية الجودة المحدودة، وهيكل النموذج الأساسي الضعيف، تجعل من الصعب تطوير نماذج مدمجة وقوية في آن واحد. بالإضافة إلى ذلك، فإن البيانات المستخدمة لتدريب هذه النماذج ليست دائمًا مُعدّة بعناية مع مراعاة الاستدلال، مما يؤدي غالبًا إلى عدم كفاءة التدريب ومكاسب محدودة في قدرات حل المشكلات.

نموذج MiMo-7B: نهجٌ جديدٌ لتعزيز الاستدلال

لتجاوز هذه التحديات، قام فريق بحثي من Xiaomi بإدخال عائلة نماذج MiMo-7B اللغوية، مع التركيز على معالجة هذه العقبات. تكمن الابتكار في معاملة كل من مرحلتي ما قبل التدريب وما بعد التدريب على أنهما مرحلتان أساسيتان بنفس القدر لتطوير قدرات الاستدلال.

مرحلة ما قبل التدريب: بناء أساس قوي

تم تدريب النموذج الأساسي، MiMo-7B-Base، من الصفر باستخدام مجموعة بيانات ضخمة تتكون من 25 تريليون رمز. وقد تم إنشاء هذه المجموعة باستخدام استراتيجية خلط من ثلاث مراحل زادت تدريجيًا من حصة المحتوى الرياضي والبرمجي. تم أيضًا إدخال هدف تنبؤ متعدد الرموز (MTP) أثناء مرحلة ما قبل التدريب لتحسين كل من الأداء وسرعة الاستدلال.

تمت عملية استخراج المحتوى الغني بالاستدلال من صفحات الويب، والبحوث الأكاديمية، والكتب باستخدام أداة استخراج HTML مخصصة مصممة للحفاظ على المعادلات الرياضية ومقتطفات التعليمات البرمجية. على عكس خطوط الأنابيب العامة، احتفظت هذه الأداة بالعناصر الهيكلية المهمة لمجالات حل المشكلات. ثم قام الفريق بتحسين أدوات تحليل ملفات PDF لتفسير المحتوى العلمي والبرمجي بدقة. ولمنع تكرار البيانات، تم تطبيق إزالة التكرار العالمي باستخدام تقنيات قائمة على عنوان URL وتقنيات MinHash. تم تصفية مجموعة التدريب باستخدام نماذج لغوية صغيرة مُحسّنة لتصنيف جودة المحتوى، واستبدال المرشحات القائمة على الخوارزميات القديمة التي كانت غالبًا تزيل أمثلة استدلال قيّمة. كما تم إنشاء بيانات استدلال اصطناعية عالية الجودة من نماذج متقدمة وأُضيفت في المرحلة النهائية من التدريب. أدت هذه المقاربة ثلاثية المراحل إلى مزيج تدريب نهائي يتكون من 70% من بيانات الرياضيات والبرمجة في المرحلة الثانية و 10% إضافية من المحتوى الاصطناعي في المرحلة الثالثة. وتم تمديد أقصى طول للسياق من 8192 إلى 32768 رمزًا، مما يضمن قدرة النموذج على التعامل مع مشكلات الاستدلال طويلة الأمد.

مرحلة ما بعد التدريب: التعلم المعزز

تم تطوير مجموعة بيانات مُعدّة بعناية تتكون من 130,000 مشكلة رياضية وبرمجية قابلة للتحقق، تم وضع علامات عليها بدرجات صعوبة. ثم تم تطبيق التعلم المعزز باستخدام إطار عمل مكافآت مُدار بالصعوبة، مما يسمح بتغذية راجعة أكثر دقة وفعالية أثناء التدريب. وقد أسفر هذا عن نوعين رئيسيين: MiMo-7B-RL و MiMo-7B-RL-Zero.

في مرحلة التعلم المعزز، قام فريق البحث بإنشاء محرك نشر سلس لتسريع التدريب والتحقق. أدرجت هذه البنية الحاسوبية غير المتزامنة للمكافآت وآليات الإنهاء المبكر لتقليل وقت الخمول لوحدة معالجة الرسومات، مما أدى إلى تسريع التدريب بنسبة 2.29 مرة والتحقق بنسبة 1.96 مرة. تم تحسين سياسة النموذج باستخدام مكافآت دقيقة مشتقة من صعوبة حالات الاختبار، مما يعالج مشكلة ندرة المكافآت في معايير البرمجة. تم إدخال تقنيات إعادة أخذ عينات البيانات للحفاظ على استقرار التدريب وزيادة كفاءة أخذ عينات النشر. أتاحت هذه الاستراتيجيات مجتمعة لمتغيرات MiMo-7B التعلم بفعالية، حتى من حالات البدء البارد حيث لا يوجد تهيئة مُحسّنة مسبقًا.

نتائج مُذهلة: تفوقٌ على النماذج الأكبر

كشفت تقييمات الأداء أن MiMo-7B-Base حقق درجة 75.2 في مهمة Big-Bench Hard (BBH)، متجاوزًا نماذج 7B مفتوحة المصدر الأخرى. كما أدى أداءً جيدًا في SuperGPQA، والذي يتضمن أسئلة استدلال على مستوى الدراسات العليا. سجل MiMo-7B-RL المُدرب لاحقًا 55.4 في معيار AIME 2025، متجاوزًا OpenAI’s o1-mini بـ 4.7 نقطة. وفي مهام إنشاء التعليمات البرمجية، تفوق على نماذج أكبر بكثير مثل DeepSeek-R1-Zero-32B و Qwen2.5-32B-RL-Zero في كل من LiveCodeBench v5 و v6. تُظهر هذه النتائج أن نموذج 7B مُحسّن بشكل صحيح يمكنه منافسة أو حتى تفوق النماذج التي تحتوي على أكثر من أربعة أضعاف عدد المعلمات.

النقاط الرئيسية

  • تم تدريب MiMo-7B على مجموعة بيانات ضخمة تضم 25 تريليون رمز، تستهدف مهام الاستدلال من خلال استخدام خلطات البيانات المُهيكلة.
  • تم استخدام 130,000 مشكلة رياضية وبرمجية في تدريب التعلم المعزز، تم وضع علامات عليها بدرجات صعوبة لتمكين تشكيل المكافآت بفعالية.
  • رفعت عملية ما قبل التدريب ثلاثية المراحل محتوى الرياضيات والبرمجة إلى 70%، تليها 10% من بيانات حل المشكلات الاصطناعية.
  • زاد محرك النشر السلس سرعة تدريب التعلم المعزز بنسبة 2.29 مرة والتحقق بنسبة 1.96 مرة.
  • حقق MiMo-7B-RL درجة 55.4 في AIME 2025، متجاوزًا OpenAI o1-mini بـ 4.7 نقطة.
  • نماذج MiMo-7B متاحة للجمهور وتشمل جميع نقاط التفتيش: المتغيرات الأساسية، و SFT، و RL.
  • يُظهر نجاح النموذج أن النماذج الصغيرة المصممة جيدًا يمكنها منافسة أو تجاوز أداء نماذج 32B في مهام الاستدلال.

للمزيد من المعلومات

يمكنكم الاطلاع على الورقة البحثية وصفحة GitHub الخاصة بالمشروع.

المصدر: MarkTechPost