نماذج بولاريس: ثورة في الاستنتاج الرياضي والمنطقي
تُعدّ نماذج الاستنتاج المتقدمة في طليعة الذكاء الاصطناعي، خاصةً في مجالات حلّ المسائل الرياضية والاستنتاج الرمزي. تتميز هذه النماذج بقدرتها على إجراء عمليات حسابية متعددة الخطوات واستنتاجات منطقية، غالبًا ما تُنتج حلولًا تعكس عمليات التفكير البشرية. ولكن، يبقى توسيع نطاق هذه النماذج مع الحفاظ على كفاءتها تحديًا معقدًا. مع ازدياد الطلب على نماذج أصغر وأكثر كفاءة من حيث الموارد، مع الحفاظ على قدرة استنتاجية عالية، يتجه الباحثون الآن نحو استراتيجيات تعالج جودة البيانات، وطرق الاستكشاف، والتعميم في السياقات الطويلة.
تحديات التعلم المعزز في نماذج الاستنتاج الضخمة
من المشاكل المستمرة في التعلم المعزز لنماذج الاستنتاج واسعة النطاق، عدم التطابق بين قدرة النموذج وصعوبة بيانات التدريب. فعندما يتعرض النموذج لمهام بسيطة جدًا، يتباطأ منحنى تعلمه. وعلى العكس، قد تُثقل البيانات الصعبة للغاية كاهل النموذج ولا تُنتج أي إشارة تعلم. يُلاحظ هذا الاختلال في الصعوبة بشكل خاص عند تطبيق تقنيات ناجحة مع النماذج الصغيرة على نماذج أكبر. كما توجد مشكلة أخرى تتمثل في نقص الأساليب لتكييف تنوع عمليات الانتشار وطول المخرجات بكفاءة أثناء التدريب والاستنتاج، مما يقيد قدرات النموذج الاستنتاجية على المعايير المعقدة.
حدود الأساليب الحالية لما بعد التدريب في النماذج المتقدمة
أظهرت الأساليب السابقة، مثل DeepScaleR و GRPO، أن التعلم المعزز يمكن أن يحسّن أداء نماذج الاستنتاج الصغيرة التي تحتوي على 1.5 مليار معلمة فقط. ومع ذلك، فإن تطبيق نفس التقنيات على نماذج أكثر قدرة، مثل Qwen3-4B أو Deepseek-R1-Distill-Qwen-7B، يؤدي إلى مكاسب هامشية فقط أو حتى انخفاض في الأداء. ومن أهم القيود الطبيعة الثابتة لتوزيع البيانات وقلة تنوع أخذ العينات. لا تقوم معظم هذه الأساليب بتصفية البيانات بناءً على قدرة النموذج، كما أنها لا تُعدّل درجة حرارة أخذ العينات أو طول الاستجابة بمرور الوقت. ونتيجة لذلك، غالبًا ما تفشل في التوسع بكفاءة عند استخدامها مع هياكل أكثر تقدمًا.
مقدمة بولاريس: وصفة مُصممة لتوسيع نطاق التعلم المعزّز في مهام الاستنتاج
قدم باحثون من جامعة هونج كونج، وبايت دانس سيد، وجامعة فودان، بولاريس، وهي وصفة ما بعد التدريب مصممة خصيصًا لتوسيع نطاق التعلم المعزز لمهام الاستنتاج المتقدمة. وتتضمن بولاريس نموذجين تمهيديين: Polaris-4B-Preview و Polaris-7B-Preview. تم ضبط Polaris-4B-Preview بدقة من Qwen3-4B، بينما يعتمد Polaris-7B-Preview على Deepseek-R1-Distill-Qwen-7B. ركز الباحثون على بناء إطار عمل عام لا يعتمد على النموذج ويُعدّل صعوبة البيانات، ويشجع الاستكشاف المتنوع من خلال درجات حرارة أخذ عينات مُتحكمة، ويمدّ قدرات الاستنتاج من خلال استقراء الطول. تم تطوير هذه الاستراتيجيات باستخدام مجموعات بيانات وخطوط أنابيب تدريب مفتوحة المصدر، وكلا النموذجين مُحسّنان للتشغيل على وحدات معالجة الرسومات (GPUs) المتوفرة للمستهلكين.
ابتكارات بولاريس: موازنة الصعوبة، وأخذ العينات المُتحكم، والاستنتاج في السياقات الطويلة
تُطبق بولاريس العديد من الابتكارات. أولاً، يتم اختيار بيانات التدريب بعناية عن طريق إزالة المشكلات التي تكون إما سهلة جدًا أو غير قابلة للحل، مما يخلق توزيعًا على شكل حرف J معكوس للصعوبة. يضمن هذا تطور بيانات التدريب مع تطور قدرات النموذج. ثانيًا، يقوم الباحثون بضبط درجة حرارة أخذ العينات ديناميكيًا عبر مراحل التدريب – باستخدام 1.4، 1.45، و 1.5 لـ Polaris-4B و 0.7، 1.0، و 1.1 لـ Polaris-7B – للحفاظ على تنوع عمليات الانتشار. علاوة على ذلك، تستخدم هذه الطريقة تقنية استقراء تعتمد على Yarn لتمديد طول سياق الاستنتاج إلى 96 ألف رمز دون الحاجة إلى تدريب إضافي. يعالج هذا عدم كفاءة تدريب التسلسلات الطويلة من خلال تمكين نهج “التدريب القصير، والاختبار الطويل”. يستخدم النموذج أيضًا تقنيات مثل آلية إنقاذ عمليات الانتشار والاستبدال الإيجابي داخل الدُفعة لمنع دفعات المكافآت الصفرية وضمان الحفاظ على إشارات التدريب المفيدة، حتى عندما يُحفظ حجم عمليات الانتشار صغيرًا عند 8.
نتائج المعايير: تفوق بولاريس على نماذج تجارية أكبر
تحقق نماذج بولاريس نتائج متقدمة في العديد من معايير الرياضيات. يسجل Polaris-4B-Preview دقة 81.2٪ على AIME24 و 79.4٪ على AIME25، متفوقًا على Qwen3-32B في نفس المهام مع استخدام أقل من 2٪ من معالمه. يحصل على 44.0٪ على Minerva Math، و 69.1٪ على Olympiad Bench، و 94.8٪ على AMC23. كما يُظهر Polaris-7B-Preview أداءً قويًا، حيث يحصل على 72.6٪ على AIME24 و 52.6٪ على AIME25. تُظهر هذه النتائج تحسنًا ثابتًا مقارنة بنماذج مثل Claude-4-Opus و Grok-3-Beta، مما يجعل بولاريس نموذجًا تنافسيًا وخفيف الوزن يُقلّص الفجوة في الأداء بين النماذج المفتوحة الصغيرة والنماذج التجارية التي تتجاوز 30 مليار معلمة.
الخلاصة: التعلم المعزز الفعال من خلال استراتيجيات ما بعد التدريب الذكية
أظهر الباحثون أن مفتاح توسيع نطاق نماذج الاستنتاج ليس فقط حجم النموذج الأكبر، بل التحكم الذكي في صعوبة بيانات التدريب، وتنوع أخذ العينات، وطول الاستنتاج. تقدم بولاريس وصفة قابلة للتكرار تُعدّل هذه العناصر بفعالية، مما يسمح للنماذج الأصغر بمنافسة قدرة الأنظمة التجارية الضخمة على الاستنتاج.
اترك تعليقاً