MiroMind-M1: ثورة المنطق الرياضي مفتوحة المصدر عبر التعلم المعزز متعدد المراحل
يُظهر هذا المقال كيفية تحقيق نماذج اللغات الكبيرة (LLMs) تقدماً ملحوظاً في الاستدلال متعدد الخطوات، حيث أصبح حل المشكلات الرياضية معياراً دقيقاً لتقييم قدراتها المتقدمة. بينما تُظهر النماذج الاحتكارية مثل GPT-4 و Claude Sonnet 4 أداءً رائداً، إلا أن طبيعتها المغلقة تعيق الشفافية وإمكانية التكرار. للتغلب على هذه العقبات، أطلقت MiroMind AI سلسلة MiroMind-M1، وهي خط أنابيب مفتوح المصدر بالكامل – يشمل مجموعات البيانات، والنماذج، وكود التدريب، ونصوص التقييم – والتي تُحدد معايير جديدة للانفتاح والاستدلال الرياضي المتطور ضمن نظام Qwen-2.5 البيئي.
الأساس المعماري والدافع
يعتمد MiroMind-M1 على بنية Qwen-2.5 القوية، مع تحسينات مُصممة خصيصاً للاستدلال الرياضي. يتبنى الفريق بروتوكول تدريب من مرحلتين:
- التحسين الدقيق المُشرف (SFT): يتم تحسين النموذج بدقة على 719 ألف مسألة رياضية مُدققة بعناية، مما يُكسبه قدرات قوية في الاستدلال خطوة بخطوة.
- التعلم المعزز مع مكافآت قابلة للتحقق (RLVR): بعد ذلك، يخضع النموذج للتعلم المعزز على 62 ألف مسألة رياضية صعبة وقابلة للتحقق بدقة، مستفيداً من إشارات المكافأة من مُحقق خارجي قوي. يُحفز هذا النهج بالحاجة إلى منطق رياضي قوي، وبالدروس المُستفادة من نماذج التعلم المعزز الرائدة: تقليد أمثلة سلسلة الأفكار يُحسّن الاستدلال العام، بينما يُحسّن التعلم المعزز، المُوجه بمكافآت دقيقة، الدقة والكفاءة أكثر.
شفافية البيانات وجودتها
سمة مميزة لمشروع MiroMind-M1 هي الانفتاح التام ونقاء بيانات التدريب:
- تركيب مجموعة SFT: تستمد من OpenR1، و OpenThoughts، و Light-R1، و Synthetic-1، مما يضمن أن تكون للمسائل حلول مُتحققة ومسارات استدلال غنية ومتعددة الخطوات.
- إزالة الازدواجية والتلوث الصارمة: تستخدم تصفية تداخل N-gram للقضاء على الازدواجية وتسريب البيانات مع مجموعات التقييم (مثل AIME24، AIME25، MATH500).
- التفضيل لمسارات طويلة: تُظهر التجارب أن التدريب على عينات ذات مسارات استدلال أطول يُعطي باستمرار درجات أعلى في المعايير، مما يُبرز أهمية المحتوى الدلالي العميق في إشارة الاستدلال.
تُوفر مجموعة البيانات الناتجة 719 ألف مسار تدريب مُتحقق – مما يُحسّن بشكل كبير البحث المفتوح القابل للتكرار مقارنة بالجهود السابقة.
التحسين الدقيق المُشرف: التميز التجريبي
بالنسبة لـ SFT، تم تهيئة MiroMind-SFT-7B من Qwen2.5-Math-7B وتم تدريبه باستخدام نافذة سياقية كبيرة (أقصى 32768 رمزاً) واستراتيجية عدم التعبئة لتجنب تلوث الانتباه بين العينات. يتجاوز أدائه في معايير الرياضيات الرئيسية نماذج مفتوحة المصدر نظيرة:
| النموذج | AIME24 | AIME25 | MATH500 | DeepSeek-R1-Distill |
|---|---|---|---|---|
| ModelA | 55.5 | 40.4 | 92.8 | |
| MiMo-7B-SFT | 58.7 | 44.3 | 93.0 | |
| MiroMind-SFT-7B | 60.4 | 45.0 | 94.6 |
تُثبت هذه النتائج فعالية تصميم جمع البيانات والتدريب: عينات أغنى وأعمق وعدم التعبئة يؤديان إلى أداء متفوق باستمرار.
CAMPO: تحسين السياسة متعدد المراحل المُدرك للسياق
ابتكار رئيسي في مرحلة RLVR في MiroMind-M1 هو خوارزمية CAMPO. تعالج CAMPO تحديين أساسيين في التعلم المعزز – عدم استقرار التدريب وعدم كفاءة الرموز – من خلال:
- التدريب متعدد المراحل مع حدود سياقية متوسعة: يبدأ التدريب بطول مخرجات مُقيدة (مثل 16 ألف رمز)، ثم يزداد تدريجياً للسماح باستدلال أعمق، مما يُوازن بين الكفاءة والدقة.
- عقوبة التكرار الديناميكية: يُعاقب ناقد التكرار المخصص المخرجات التي تُظهر تكراراً مبكراً أو مفرطاً، مما يمنع انهيار المنفعة ويُفرض تنوع المخرجات.
- مُحقق خارجي دقيق: تم تحسين نظام ردود المكافأة بشكل كبير لتسجيل إجابات الرياضيات بشكل قوي (بما في ذلك الحالات الصعبة مع الوحدات، و π، والنسب المئوية)، مما يضمن أن تكون إشارات التدريب مُحاذاة بشكل وثيق مع الصحة الحقيقية.
لا تُثبّت CAMPO ديناميكيات التعلم المعزز فحسب، بل تُنتج أيضاً نماذج تُحلّ المشكلات باستخدام رموز أقل وأكثر صلة – مما يُسرّع الاستدلال ويُقلل التكاليف دون التضحية بالدقة.
أداء المعايير: كفاءة متطورة
تحقق نماذج MiroMind المفتوحة نتائج تنافسية للغاية أو نتائج متطورة لأنماط الرياضيات القائمة على Qwen-2.5 المفتوحة (7 مليار/32 مليار معلمة):
| النموذج | AIME24 | AIME25 | MATH500 | DeepSeek-R1-7B |
|---|---|---|---|---|
| DeepSeek-R1-7B | 55.5 | 39.2 | ||
| MiMo-7B-RL | 68.2 | 55.4 | 95.8 | |
| Skywork-OR1-7B | 72.2 | 54.6 | ||
| MiroMind-RL-7B | 73.4 | 57.8 | 96.7 | |
| Skywork-OR1-32B | 77.1 | 68.2 | 97.5 | |
| MiroMind-RL-32B | 77.5 | 65.6 | 96.4 |
من الجدير بالذكر أن نماذج MiroMind-M1-RL لا تُطابق أو تتجاوز دقة النظراء فحسب، بل تفعل ذلك بكفاءة أكبر في الرموز – حيث يُنتج النموذج ذو 32 مليار معلمة حلولاً أقصر وأكثر إيجازاً دون فقدان الدقة، وذلك بفضل تدريب CAMPO.
المكدس الكامل وإمكانية التكرار
تم إصدار كل مكون من مكدس MiroMind-M1 بشكل مفتوح:
- أوزان النموذج (نقاط تفتيش SFT و RL لكل من مقياسي 7 مليار و 32 مليار)
- مجموعات البيانات (719 ألف SFT كاملة، 62 ألف RLVR)
- نصوص التدريب (دعم التدريب الموزع متعدد العقد على Ray)
- كود التقييم (نصوص موحدة وتكوينات معايير)
يمكن للباحثين تكرار وفحص وتوسيع MiroMind-M1 من البيانات الخام إلى النماذج المُدرّبة، مما يُحسّن إمكانية التكرار ويُسرّع البحث المفتوح الجديد.
الخلاصة
يُظهر MiroMind-M1 أنه مع جمع البيانات الدقيق، وخوارزميات التعلم المعزز المبتكرة (CAMPO)، والشفافية الجذرية، يمكن لأنماذج اللغات المفتوحة المصدر أن تُنافس الأنظمة الاحتكارية في الاستدلال الرياضي المتقدم. يُحدد هذا المشروع مستوى جديداً لإمكانية التكرار والتقدم التعاوني في نماذج LLMs الاستدلالية، مما يُوفر كل من مورد عالي الجودة ومنصة قوية للابتكار في المستقبل. يمكنكم الاطلاع على الورقة البحثية، وصفحة GitHub، والنموذج على Hugging Face. جميع حقوق هذا البحث تعود إلى باحثي هذا المشروع. كما يُرجى متابعتنا على Twitter، والانضمام إلى مجتمعنا ML SubReddit الذي يضم أكثر من 100 ألف عضو، والاشتراك في قائمتنا البريدية.





اترك تعليقاً