دمج الاستدلال والتحقق في نماذج اللغات الكبيرة عبر التعلم المعزز بدون دالة القيمة: تقنية RL^V

تُظهر نماذج اللغات الكبيرة (LLMs) قدرات استثنائية في مجال الاستدلال، وذلك بفضل تقنيات التعلم المعزز (RL) التي تعتمد على مكافآت تتعلق بصحة الإجابات. وقد ابتعدت خوارزميات التعلم المعزز الحديثة، مثل GRPO و VinePPO و Leave-one-out PPO، عن نهج PPO التقليدي من خلال إلغاء شبكة دالة القيمة المُتعلمة، واعتمادها على عوائد مُقدرة تجريبياً. يُقلل هذا النهج من المتطلبات الحسابية واستهلاك ذاكرة وحدة معالجة الرسومات (GPU)، مما يجعل تدريب التعلم المعزز أكثر سهولة مع نماذج اللغات الكبيرة المتزايدة الحجم.

التحديات المتعلقة بإلغاء دالة القيمة

لكن هذه الكفاءة تأتي على حساب قدرة مهمة، ألا وهي دالة القيمة التي تُعد بمثابة مُحقق قوي لنتائج الاستدلال، وتُقيّم مدى صحة سلسلة التفكير. فبدون هذه المكونة، تفقد نماذج اللغات الكبيرة قدرة التحقق القيّمة التي من شأنها تعزيز الاستنتاج من خلال استراتيجيات البحث المتوازية، مثل اختيار الأفضل من بين N (Best-of-N) أو التصويت بالأغلبية المُرجّحة.

تقنية RL^V: حلّ مُبتكر

اقترح باحثون من جامعات McGill و مونتريال، بالإضافة إلى مايكروسوفت ريسيرش وجوجل ديب مايند، تقنية RL^V لمعالجة إمكانات الإشارات الشبيهة بقيمة دالة القيمة في التعلم المعزز لنماذج اللغات الكبيرة. تُعزز RL^V الطرق “الخالية من دالة القيمة” بمُحقق توليدي دون المساس بقدرة التدريب على التوسع. تستخدم RL^V قدرات توليد نماذج اللغات الكبيرة من خلال البيانات الغزيرة المُنتجة أثناء تدريب التعلم المعزز لتحسين النموذج كـ مُستدلّ ومُحقق في آن واحد. يُحدد هذا النهج المزدوج الوظيفة عملية التحقق كمهمة تنبؤ بالرمز التالي، مما يُمكّن نفس نموذج اللغة الكبيرة من توليد الحلول وتوفير درجة مُتَجِهة.

النتائج والتحسينات

أظهرت النتائج الأولية لـ RL^V زيادةً في دقة حل مسائل الرياضيات بنسبة تزيد عن 20% مقارنةً بطرق التعلم المعزز الأساسية عند استخدام أخذ العينات المتوازية، وحققت كفاءةً أعلى في الحسابات أثناء اختبار النموذج تتراوح بين 8 و 32 مرة. تُوحّد RL^V المُستدلّ والمُحقق التوليدي داخل نموذج لغة كبير واحد، مُعالجة أربعة أسئلة بحثية رئيسية حول:

  • التوسع الحسابي المتوازي أثناء الاختبار.
  • منهجيات تدريب المُحقق.
  • استراتيجيات الاستخدام أثناء الاختبار.
  • التفاعلات مع التوسع التسلسلي في نماذج التفكير.

أُجري التدريب باستخدام مجموعة بيانات Hendycks’ MATH للتعلم المعزز، على أربع وحدات معالجة رسومات NVIDIA A100 80G لمدة 3 ساعات، مع تقارير للتقييم عبر معايير MATH500 و MATH2 و GPQA و AIME’24. استخدم الباحثون نموذج Qwen2.5 Math 1.5B، وقاموا بضبطه الدقيق باستخدام خوارزميات GRPO و Leave-One-Out PPO و VinePPO مع التحقق الموحد ودونه، في تجربة سلسلة تفكير أقصر.

تحليل النتائج و الاستنتاجات

أظهرت RL^V قدرات رائعة في التوسع الحسابي أثناء الاختبار، حيث حققت كفاءةً أعلى تصل إلى 32 مرة ودقة أعلى بنسبة 4% من الطرق الأساسية على MATH500 مع 512 عينة. يكشف اختبار استراتيجيات التحقق المثلى أن التصويت المرجّح يتفوق على التصويت بالأغلبية ونهج Best-of-N عند أخذ عينات من 8 حلول أو أكثر لكل مسألة، لكل من نماذج سلسلة التفكير القصيرة والطويلة. تُثبت RL^V أنها تُكمّل التوسع الحسابي للاستنتاج التسلسلي، حيث حققت طريقة GRPOV أعلى معدلات النجاح على AIME 24 عند أطوال توليد أطول. يتطلب تدريب المُحقق الموحد موازنة دقيقة من خلال معامل التحقق λ، والذي يمثل تنازلاً هامًا في تطبيق GRPOV – حيث يؤدي زيادة λ إلى تحسين دقة المُحقق (من ~50% إلى ~80%).

الخلاصة والمستقبل

في هذه الورقة، قدّم الباحثون RL^V، التي تُدمج التحقق في أطر RL “الخالية من دالة القيمة” دون زيادة كبيرة في التكلفة الحسابية، وتُظهر تحسينات في دقة الاستدلال، وكفاءة الحساب أثناء الاختبار، والتعميم عبر المجالات المختلفة في مجموعات بيانات MATH و MATH² و GPQA و AIME 24. تتضمن اتجاهات البحث المستقبلية إمكانية تعزيز المُحقق التوليدي لإنتاج تفسيرات صريحة لسلسلة التفكير، على الرغم من أن هذا التقدم سيتطلب بيانات سلسلة تفكير خاصة بالتحقق أو عمليات تدريب تعلم معزز مخصصة. يُنشئ الإطار الموحد لتوليد الحلول والتحقق من خلال التعلم المعزز أساسًا قيّماً لمواصلة التقدم في قدرات الاستدلال لنماذج اللغات الكبيرة.

المصدر: MarkTechPost