تحسين محاذاة نماذج اللغات الكبيرة باستخدام تقنية التعزيز التعلمي شبه المباشر
يُعدّ محاذاة نماذج اللغات الكبيرة (LLMs) مع احتياجات المستخدمين خطوةً بالغة الأهمية لضمان أدائها الأمثل. وتُعتبر تقنيات التعلم المعزز (Reinforcement Learning) أداةً فعّالة لتحقيق هذا الهدف، حيث تُمكّن النماذج من اتخاذ قراراتٍ مُحسّنة بناءً على تغذية راجعة من المستخدمين أو على أساس دقة المهمات الموكلة إليها. يُساهم هذا التحسين الدقيق في جعل النماذج أكثر توافقًا مع توقعات المستخدمين، مما يجعلها مناسبةً للتطبيقات القائمة على التعليمات أو المهام الرياضية الدقيقة.
تحديات اختيار استراتيجيات التعلم المعزز غير المباشر والمباشر
يواجه الباحثون تحديًا رئيسيًا عند اختيار الطريقة الأنسب لإجراء هذا التحسين الدقيق. تتباين طرق التدريب بين النهجين المتطرفين: النهج غير المباشر (Offline) الذي يعتمد على بياناتٍ ثابتة مُولّدة مسبقًا، والنهج المباشر (Online) الذي يُحدّث باستمرار مع كل تفاعل جديد. لكل منهما تحدياته الخاصة:
- النهج غير المباشر: يفتقر إلى القدرة على التكيّف أثناء التدريب، مما يُحدّ من أدائه.
- النهج المباشر: يتطلّب موارد حاسوبية أكبر بكثير.
كما تُضيف ضروة ضمان أداء النماذج بشكلٍ جيد في كل من المهام الرياضية (القابلة للتحقّق) والمهام المفتوحة (غير القابلة للتحقّق) المزيد من التعقيد في اختيار النهج الأنسب.
خوارزميات المحاذاة: DPO و GRPO
تاريخيًا، تم استخدام أدوات مثل تحسين التفضيل المباشر (Direct Preference Optimization – DPO) وتحسين سياسة المجموعة النسبية (Group Relative Policy Optimization – GRPO) لمحاذاة النماذج.
- DPO: يعمل بشكلٍ غير مباشر ويُصمّم للعمل مع أزواج البيانات القائمة على التفضيلات. يتميز ببساطته وكفاءته في استخدام البيانات، لكنه يفتقر إلى قابلية التكيّف التي تتمتع بها الطرق المباشرة.
- GRPO: يعتمد على خوارزمية PPO ويتعامل مع التحسين الدقيق المباشر من خلال مقارنة مجموعات النتائج لحساب المزايا النسبية. بينما يتكيّف GRPO في الوقت الفعلي ويناسب أنظمة المكافآت الديناميكية، إلا أن طبيعته “ضمن السياسة” (on-policy) تزيد من الحمل الحسابي وتجعل التجريب أكثر تطلبًا.
نهج متوازن لتحسين محاذاة نماذج اللغات الكبيرة
قام بحثٌ مشترك بين ميتا وجامعة نيويورك باستكشاف طريقةٍ للتغلّب على هذه القيود من خلال إعداد تدريب شبه مباشر. تُعدّل هذه التقنية مدى تكرار مزامنة مكونات توليد النموذج وتدريبه، بدلاً من التحديث في كل خطوة تدريب كما هو الحال في الطرق المباشرة تمامًا، أو عدم التحديث على الإطلاق كما هو الحال في الإعدادات غير المباشرة. يُحقق النهج شبه المباشر توازناً من خلال ضبط معدل المزامنة.
صمم الباحثون هذا النهج لتقليل وقت التدريب والحفاظ على قابلية التكيّف العالية للنموذج. كما سمح لهم الإعداد المعياري بتطبيق DPO أو GRPO مع نماذج مكافآت خاصة بالمهمة بطريقة مرنة.
اتباع التعليمات والتفكير الرياضي
تضمنت المنهجية إجراء تحسين دقيق لنموذج Llama-3.1-8B-Instruct باستخدام نوعين من المهام: اتباع التعليمات المفتوحة وحل مسائل الرياضيات.
- المهام غير القابلة للتحقّق: تم أخذ عينات من مطالبات المستخدم من مجموعة بيانات WildChat-1M وتقييمها باستخدام نموذج مكافأة Athene-RM-8B، الذي يُعيّن درجات قياسية لكل مطالبة.
- المهام القابلة للتحقّق: استخدم الفريق مجموعة بيانات NuminaMath بالاقتران مع مجموعة أدوات Math-Verify، والتي تتحقّق مما إذا كانت الإجابات المُولّدة تتوافق مع النتائج المتوقعة.
أُجريت تجارب التدريب على 32 وحدة معالجة رسوميات NVIDIA H200 للتدريب و 8 وحدات معالجة رسوميات للاستنتاج، مع إعدادات مختلفة تُقارن بين فترات المزامنة غير المباشرة وشبه المباشرة والمباشرة.
مكاسب الأداء عبر المهام القابلة للتحقّق وغير القابلة للتحقّق
لوحظت اختلافات في الأداء. على سبيل المثال، في اختبار Math500، وصلت دقة DPO غير المباشر إلى 53.7٪، بينما حقق DPO شبه المباشر مع فاصل مزامنة s = 100 نسبة 58.9٪. أظهرت DPO المباشرة و GRPO نتائج مماثلة عند 58.7٪ و 58.1٪ على التوالي. تم ملاحظة اتجاهات مماثلة في معيار NuminaMath، حيث حقق DPO غير المباشر 36.4٪، وزادت المتغيرات شبه المباشرة هذا الرقم إلى 39.4٪ (s = 10).
لم تقتصر مكاسب الأداء على المهام الرياضية. عندما تم تقييم المهام غير القابلة للتحقّق باستخدام معايير AlpacaEval 2.0 و Arena-Hard، فقد أدت النماذج المُدرّبة بأنواع مكافآت مختلطة إلى أداء أفضل باستمرار. أدى الجمع بين مكافآت قابلة للتحقّق وغير قابلة للتحقّق في إعداد تدريب واحد إلى درجات متوسطة أعلى، مما يشير إلى أن الطريقة تعممت بشكلٍ فعّال.
نهج مرن وقابل للتطوير للتعلم المعزز في نماذج اللغات الكبيرة
تُظهر هذه الدراسة أن تحسين نماذج اللغات الكبيرة لا يتطلب الالتزام الصارم بالإعدادات غير المباشرة أو المباشرة. من خلال تقديم نظام مزامنة مرن، زاد فريق البحث من ميتا وجامعة نيويورك من كفاءة التدريب مع الحفاظ على الأداء أو تحسينه. تُظهر النتائج أن موازنة أنواع المكافآت وتردد مزامنة التدريب بعناية تؤدي إلى نماذج تعمل بشكلٍ جيد عبر أنواع المهام دون تكبد تكاليف حسابية عالية.
اترك تعليقاً