تعزيز قدرات نماذج اللغات الكبيرة عبر التعلم المعزز

يُظهر التقدم المُحرز في مجال نماذج اللغات الكبيرة (LLMs) قدراتٍ مذهلة في حلّ المسائل المعقدة، لا سيما من خلال استخدام تقنية “سلسلة الأفكار” (CoT) بالتحسين عبر تقنية التعلم المعزّز (RL). وقد برهنت نماذج مثل Deepseek-R1-Zero على قدرات استنتاجية قوية من خلال تطبيق التعلم المعزز مباشرةً على النماذج الأساسية. وبالمثل، تُظهر طرق مثل SimpleRL و Open-ReasonerZero تحسينات في نماذج أصغر حجماً مثل سلسلة Qwen. إلا أن تحقيق النجاح عبر عائلات النماذج الأساسية المختلفة لا يزال يمثل تحديًا. علاوة على ذلك، فإن تطبيق تدريب نمط R1-Zero على نماذج أساسية مثل سلسلة Llama يواجه صعوبات، مما يُثير تساؤلاً أساسياً حول العوامل الكامنة التي تجعل النماذج الأساسية المختلفة تتصرّف بشكلٍ غير متناسق أثناء التعلم المعزز.

تحديات توسيع نطاق التعلم المعزز على نماذج Llama

حققت التطورات واسعة النطاق في مجال التعلم المعزز في نماذج مثل o1 و o3 من OpenAI، و R1 من DeepSeek، نتائج مبهرة في حلّ مسائل رياضية عالية المستوى. وقد حفز هذا الأمر البحث في تطبيق التعلم المعزز على نماذج أصغر حجمًا، بأقل من 100 مليار بارامتر. لكن هذه الطرق اقتصرت على عائلة نماذج Qwen، بينما يبقى تكرار النتائج على عائلات مثل Llama صعبًا. كما أن الافتقار إلى الشفافية في خطوط أنابيب التدريب المسبق جعل من الصعب فهم كيف يؤثر التدريب المسبق على توسيع نطاق التعلم المعزز. وقد دفع هذا الأمر إلى إجراء دراسات غير تقليدية، وجدت أن التوجيه بمثال واحد يحسّن الاستدلال في Qwen ولكنه يوفر فائدة ضئيلة في Llama. وقد أحرزت جهود إنشاء مجموعات بيانات رياضية عالية الجودة من خلال مشاريع مثل OpenWebMath و MathPile و InfiMM-Web-Math و FineMath تقدماً، لكنها تظل محدودة الحجم بأقل من 100 مليار رمز.

استكشاف التدريب المتوسط باستراتيجية “الاستقرار ثم التضاؤل”

يُجري باحثون من جامعة جياو تونغ في شنغهاي دراسةً حول كيفية تأثير استراتيجيات التدريب المتوسط على ديناميكيات التعلم المعزز، مع التركيز على Qwen و Llama. وقد توصلت الدراسة إلى عدة رؤى:

  • أولاً: تُحسّن مجموعات البيانات الرياضية عالية الجودة، مثل MegaMath-Web-Pro، من نتائج كل من النموذج الأساسي والتعلم المعزز.
  • ثانياً: يُعزز استخدام بيانات على شكل أسئلة وأجوبة، خاصةً تلك التي تتضمن استدلالًا طويلاً لسلسلة الأفكار، من نتائج التعلم المعزز.
  • ثالثاً: يُدخِل استدلال سلسلة الأفكار الطويل وضوحًا وعدم استقرارًا في تدريب التعلم المعزز.
  • رابعاً: يؤدي تطبيق التوسيع أثناء التدريب المتوسط إلى أداء أقوى في التعلم المعزز اللاحق.

وقد قدّم الباحثون استراتيجية تدريب متوسطة من مرحلتين تسمى “الاستقرار ثم التضاؤل”، حيث يتم تدريب النماذج الأساسية أولاً على 200 مليار رمز، ثم على 20 مليار رمز عبر ثلاثة فروع مُركزة على سلسلة الأفكار، مما ينتج عنه نماذج OctoThinker التي تُظهر توافقًا قويًا مع التعلم المعزز.

تكوين التعلم المعزز وتقييم المعايير

استخدم الباحثون مجموعة بيانات MATH8K لتوجيهات تدريب التعلم المعزز. ويشمل التكوين حجم دفعة تدريب عالمي يبلغ 128، و 16 استجابة مُتدحرجة لكل استعلام، وحجم دفعة صغيرة PPO يبلغ 64، مع إجراء التجارب على نماذج Llama-3.2-3B-Base و Qwen2.5-3B-Base. لأغراض التقييم، تم استخدام التوجيه ذي القليل من الأمثلة للنماذج اللغوية الأساسية، والتوجيه بدون أمثلة للنماذج المُحسّنة بالتعلم المعزز عبر مهام المؤشرات، بما في ذلك GSM8K و MATH500 و OlympiadBench و AMC23. أثناء تدريب التعلم المعزز، تُظهر نماذج Qwen زيادة في أطوال الاستجابة التي تظل معقولة طوال الوقت، بينما تُظهر Llama سلوكًا شاذًا، حيث تتزايد أطوال الاستجابة المتوسطة إلى 4096 رمزًا. يكشف التقييم كذلك أن Qwen2.5-3B المُحسّنة بالتعلم المعزز تحقق تحسينات عبر المعايير، بينما تُظهر Llama-3.2-3B مكاسب هامشية فقط.

تفوق OctoThinker على Llama في توافق التعلم المعزز

يُظهر كل فرع من فروع OctoThinker تحسنًا بنسبة 10٪ إلى 20٪ مقارنةً بنموذج Llama الأساسي الأصلي، ومكاسب ثابتة مقارنةً بنموذج مرحلة الاستقرار عبر جميع الأحجام عند تقييمه على 13 معيارًا رياضيًا. تُظهر عائلات OctoThinker-Zero سلوكيات تفكير متنوعة أثناء توسيع نطاق التعلم المعزز، مع أداء قوي من متغير OctoThinker-Long. عند مقارنة ثلاثة نماذج أساسية بحجم 3 مليارات بارامتر أثناء تدريب التعلم المعزز، يتفوق OctoThinker-Long-3B على نموذج Llama-3.2-3B الأصلي ويصل إلى مستوى أداء مماثل لـ Qwen2.5-3B، وهو نموذج معروف بقدراته الاستنتاجية القوية وتدريبه المسبق الواسع. تُظهر الفروع الهجينة والقصيرة أداءً أقل قليلاً، خاصةً في المعايير الصعبة.

الخاتمة والأعمال المستقبلية: نحو نماذج أساسية مُجهزة للتعلم المعزز

تُحقق هذه الورقة البحثية في سبب اختلاف سلوك النماذج الأساسية مثل Llama و Qwen أثناء التعلم المعزز للاستدلال، مُظهرةً أن التدريب المتوسط يلعب دورًا رئيسيًا في قابلية توسيع نطاق التعلم المعزز. تحوّل استراتيجية التدريب المتوسط من مرحلتين Llama إلى نموذج أساسي أكثر ملاءمة للتعلم المعزز، مما ينتج عنه نماذج OctoThinker. وتشمل اتجاهات البحث المستقبلية:

  • إنشاء مجموعات بيانات رياضية عالية الجودة لتحسين التدريب المتوسط.
  • إنشاء نماذج أساسية صديقة للتعلم المعزز باستخدام وصفات مفتوحة بدون تقطير من نماذج استدلال سلسلة الأفكار الطويلة.
  • فصل تنسيق السؤال والإجابة عن المحتوى لفهم مساهماتهما بشكلٍ فردي.
  • توسيع عائلة OctoThinker بفروع جديدة، مثل الاستدلال المُدمج بالأدوات.

المصدر: MarkTechPost