نموذج ProRL من NVIDIA: ثورة في قدرات الاستدلال بالتعلم المعزز

يُشكل التقدم المُحرز مؤخراً في نماذج اللغات المُركزة على الاستدلال نقلة نوعية في مجال الذكاء الاصطناعي، خاصةً مع زيادة حجم الحسابات في وقت الاختبار. ويُعد التعلم المعزز (Reinforcement Learning – RL) أداةً أساسيةً في تطوير قدرات الاستدلال والتخفيف من مشكلة “اختراق المكافآت” (Reward Hacking). إلا أن نقاشاً أساسياً لا يزال قائماً: هل يُضيف التعلم المعزز قدرات استدلالية جديدة إلى النموذج الأساسي، أم أنه ببساطة يُحسّن كفاءة أخذ العينات من الحلول الموجودة؟

التحديات السابقة في مجال التعلم المعزز للاستدلال

تواجه الأبحاث الحالية في هذا المجال قيدين رئيسيين:

  1. الاعتماد الكبير على المجالات المتخصصة: مثل الرياضيات، حيث غالباً ما تكون النماذج مُفرطة التدريب، مما يُحدّ من إمكانية الاستكشاف.
  2. إنهاء تدريب التعلم المعزز قبل الأوان: حيث يُقتصر التدريب عادةً على مئات الخطوات، قبل أن تتمكن النماذج من تطوير قدرات استدلالية جديدة بالكامل.

تُمثل نماذج الاستدلال أنظمة ذكاء اصطناعي متخصصة، تقوم بعمليات تفكير مُفصلة وطويلة قبل توليد الإجابات النهائية. وقد وضعت منهجيات مُفصلة، مثل DeepSeek و Kimi، لتدريب نماذج الاستدلال باستخدام التعلم المعزز مع مكافآت قابلة للتحقق (RLVR)، مما جعل خوارزميات مثل GRPO، ونزول المرآة (Mirror Descent)، و RLOO شائعة الاستخدام. وقد أظهرت أساليب مثل AlphaGo و AlphaZero أن وكلاء الذكاء الاصطناعي يمكنهم تحسين أدائهم بشكل غير محدود، مُبرهنين على أن تدريب التعلم المعزز يُساعد الوكلاء على تطوير تقنيات جديدة غير موجودة في نماذجهم الأساسية. مع ذلك، تشكك أعمال سابقة في ما إذا كان تدريب التعلم المعزز يُحسّن بالفعل قدرة الاستدلال في نماذج اللغات الكبيرة، مُجادلة بأن RLVR لا يُوسّع قدرة الاستدلال، كما يتضح من مقاييس pass@k التي لا تُظهر أي تحسن مقارنةً بالنماذج الأساسية.

ProRL: حلول نيڤيديا لتعزيز قدرات الاستدلال

اقترح باحثون من NVIDIA طريقةً جديدةً أسموها ProRL، وهي مصممة لتمكين فترات تدريب RL مُمتدة، مما يُساعد على استكشاف أعمق لاستراتيجيات الاستدلال. يدعم ProRL أكثر من 2000 خطوة تدريب، ويُوسّع بيانات التدريب عبر مهام متنوعة، مثل الرياضيات، والترميز، ومسائل العلوم، والألغاز المنطقية، واتباع التعليمات.

باستخدام ProRL، طور الباحثون نموذج Nemotron-Research-Reasoning-Qwen-1.5B، وهو أفضل نموذج استدلال في العالم بسعة 1.5 مليار معلمة، والذي يتفوق على نموذجه الأساسي DeepSeek-R1-1.5B، ويتفوق أيضاً على DeepSeek-R1-7B عبر معايير مُختلفة. يُثبت هذا أن التعلم المعزز يمكنه اكتشاف مسارات حلول جديدة تماماً غير موجودة في النماذج الأساسية عند إعطائه وقت تدريب كافٍ وتطبيقه على مهام استدلال جديدة، مما يُشير إلى توسيع حقيقي لقدرات الاستدلال يتجاوز التدريب الأولي.

بيانات التدريب وطريقة العمل

قام الباحثون ببناء مجموعة بيانات تدريب مُتنوعة وقابلة للتحقق تضم 136,000 مثال عبر خمسة مجالات مهمة: الرياضيات، والترميز، و STEM، والألغاز المنطقية، واتباع التعليمات. يستخدم التدريب إطار عمل verl لتنفيذ RL، مع تبني تحسينات لطريقة GRPO التي اقترحتها DAPO.

معايير التقييم

تم استخدام مجموعة واسعة من معايير التقييم عبر مجالات متعددة لاختبار النموذج المقترح:

  • التقييم الرياضي: يتضمن AIME2024، AIME2025، AMC، MATH، Minerva Math، و Olympiad Bench.
  • تقييم الترميز: يستخدم مجموعة التحقق PRIME، و HumanevalPlus، و LiveCodeBench.
  • تقييم الألغاز المنطقية: يحتفظ بـ 100 عينة من مهام Reasoning Gym.
  • الاستدلال STEM واتباع التعليمات: يتم تقييمهما باستخدام مجموعات فرعية مُنتقاة من GPQA Diamond و IFEval على التوالي.

النتائج

حقق نموذج Nemotron-Research-Reasoning-Qwen-1.5B تحسناً متوسطاً بنسبة 15.7% عبر معايير التقييم الرياضي، بينما أظهرت مهام البرمجة التنافسية تحسناً بنسبة 14.4% في دقة pass@1. أسفرت مجالات الاستدلال STEM واتباع التعليمات عن مكاسب بنسبة 25.9% على GPQA Diamond و 22.0% على IFEval. أظهر النموذج تحسناً بنسبة 54.8% في المكافأة، مُبيناً دقة عالية في ألغاز Reasoning Gym المنطقية. كشف التقييم خارج التوزيع عن تحسينات كبيرة في ثلاث مهام Reasoning Gym غير مرئية، مُسلطاً الضوء على تعميم فعال يتجاوز توزيع التدريب. مقارنةً بنماذج متخصصة في المجال مثل DeepScaleR-1.5B و DeepCoder-1.5B، حقق النموذج المُدرّب بـ ProRL درجات pass@1 أعلى في كل من الرياضيات (+4.6%) والترميز (+6.5%).

الخلاصة

في هذا البحث، قدم الباحثون ProRL، والذي يُقدم دليلاً على أن التدريب المُمتد والمُستقر على RL يُطور أنماط استدلال جديدة تتجاوز القدرات الأولية للنموذج الأساسي. بناءً على هذه الطريقة، طور الباحثون نموذج Nemotron-Research-Reasoning-Qwen-1.5B، وهو أفضل نموذج استدلال في العالم بسعة 1.5 مليار معلمة. يُظهر ProRL قدرته على حل المهام التي تعاني منها النماذج الأساسية في البداية، مُبيناً أن التدريب المُمتد على RL يُساعد النماذج على استيعاب أنماط استدلال مُجردة، قابلة للتحويل إلى ما وراء توزيعات التدريب. تُناقض هذه النتائج الافتراضات السابقة حول قيود RL، وتُثبت أن وقت التدريب الكافي مع التقنيات المناسبة يمكن أن يُزيد من حدود الاستدلال، مما يُمهد الطريق لتطوير نماذج استدلال أكثر قدرة.

المصدر: MarkTechPost