هل تستطيع نماذج اللغات الكبيرة حقًا الحكم بالمنطق؟ نماذج المنطق المكافئة لتوسيع نطاق الحوسبة وقت الاختبار
يُعد التعلم المعزز (RL) نهجًا أساسيًا في تدريب نماذج اللغات الكبيرة (LLMs) بعد التدريب الأولي، حيث يستخدم إشارات الإشراف من التغذية الراجعة البشرية (RLHF) أو المكافآت القابلة للتحقق (RLVR). بينما تُظهر تقنية RLVR وعدًا في المنطق الرياضي، إلا أنها تواجه قيودًا كبيرة بسبب اعتمادها على استعلامات التدريب ذات الإجابات القابلة للتحقق. يُحد هذا الشرط من تطبيقات التدريب واسع النطاق على استعلامات المجال العام حيث يثبت التحقق صعوبته. علاوة على ذلك، لا تستطيع نماذج المكافآت الحالية، المصنفة إلى أنواع قياسية وتوليدية، توسيع نطاق الحوسبة وقت الاختبار بشكل فعال لتقدير المكافآت. تطبق الأساليب الحالية موارد حاسوبية موحدة عبر جميع المدخلات، وتفتقر إلى القدرة على التكيف لتخصيص موارد إضافية للاستعلامات الصعبة التي تتطلب تحليلاً دقيقًا.
نماذج المكافآت الحالية: تحديات وتقنيات
تتميز نماذج المكافآت باستراتيجيات الصياغة ومخططات التسجيل. تُخصص الأساليب العددية درجات قياسية لأزواج الاستعلام-الاستجابة، بينما تُنتج الأساليب التوليدية تغذية راجعة بلغة طبيعية. يتبع التسجيل التقييم المطلق للأزواج الفردية أو المقارنة التمييزية للاستجابات المرشحة. تقدم نماذج المكافآت التوليدية، المتوافقة مع نموذج “النموذج اللغوي الكبير كقاضٍ”، تغذية راجعة قابلة للتفسير، لكنها تواجه مخاوف تتعلق بالموثوقية بسبب الأحكام المتحيزة.
تُعد أساليب توسيع نطاق وقت الاستنتاج قابلة للتكيف ديناميكيًا مع الموارد الحاسوبية، بما في ذلك الاستراتيجيات المتوازية مثل أخذ عينات متعددة وتوسيع نطاق قائم على الأفق لتتبعات المنطق الممتدة. ومع ذلك، فإنها تفتقر إلى التكيف المنتظم مع تعقيد الإدخال، مما يحد من فعاليتها عبر أنواع الاستعلامات المتنوعة.
نماذج المنطق المكافئة: حلول مبتكرة
اقترح باحثون من مايكروسوفت ريسيرش وجامعة تسينغهوا وجامعة بكين نماذج المنطق المكافئة (RRMs)، التي تقوم بالتفكير الصريح قبل إنتاج المكافآت النهائية. تسمح مرحلة التفكير هذه لـ RRMs بتخصيص موارد حاسوبية إضافية بشكل تكيفي عند تقييم الاستجابات للمهام المعقدة. تُدخل RRMs بعدًا جديدًا لتعزيز نمذجة المكافآت من خلال توسيع نطاق الحوسبة وقت الاختبار مع الحفاظ على التطبيق العام عبر سيناريوهات التقييم المتنوعة.
من خلال التفكير المتسلسل، تستخدم RRMs موارد حاسوبية إضافية وقت الاختبار للاستعلامات المعقدة حيث لا تكون المكافآت المناسبة واضحة على الفور. يشجع هذا RRMs على تطوير قدرات التفكير في المكافآت ذاتيًا دون تتبعات تفكير صريحة كبيانات تدريب.
تستخدم RRMs نموذج Qwen2 مع بنية مُشفّر-فكّ مُحول، وصياغة نمذجة المكافآت كتعبئة نصية حيث تُنشئ RRMs عمليات التفكير تلقائيًا متبوعة بالأحكام النهائية. يحتوي كل إدخال على استعلام واستجابتين لتحديد التفضيل دون السماح بالتعادلات.
تقييم الأداء ونتائج التجارب
يستخدم الباحثون مستودع RewardBench لإرشاد التحليل المنتظم عبر معايير التقييم، بما في ذلك دقة التعليمات، والمساعدة، والدقة، والسلامة، ومستوى التفصيل. تدعم RRMs تقييم الاستجابات المتعددة من خلال أنظمة تصنيف ELO وبطولات الإقصاء، وكلاهما قابل للجمع مع التصويت بالأغلبية لتعزيز استخدام الحوسبة وقت الاختبار. يقوم هذا بأخذ عينات متعددة من RRMs للمقارنات الثنائية، ويقوم بالتصويت بالأغلبية للحصول على نتائج مقارنة قوية.
تُظهر نتائج التقييم أن RRMs تحقق أداءً تنافسيًا ضد خطوط الأساس القوية في معايير RewardBench وPandaLM Test، حيث حقق RRM-32B دقة 98.6٪ في فئات المنطق. تُظهر المقارنة مع نماذج DirectJudge المدربة على نفس البيانات فجوات أداء كبيرة، مما يشير إلى أن RRMs تستخدم بكفاءة الحوسبة وقت الاختبار للاستعلامات المعقدة.
في الاستنتاج الموجه بالمكافآت لأفضل N، تتفوق RRMs على جميع نماذج خط الأساس دون حوسبة إضافية وقت الاختبار، مع توفير التصويت بالأغلبية تحسينات كبيرة عبر المجموعات الفرعية المُقيّمة. تُظهر تجارب ما بعد التدريب تحسينات ثابتة في الأداء التطبيقي على MMLU-Pro و GPQA. تؤكد تجارب التوسيع عبر نماذج 7B و 14B و 32B أن آفاق التفكير الأطول تُحسّن الدقة باستمرار.
الخلاصة
في الختام، قدم الباحثون RRMs لأداء عمليات التفكير الصريحة قبل تعيين المكافآت لمعالجة عدم مرونة الحوسبة في أساليب نمذجة المكافآت الحالية. يُمكّن التعلم المعزز القائم على مكافآت قائمة على القواعد RRMs من تطوير قدرات تفكير معقدة دون الحاجة إلى تتبعات تفكير صريحة كإشراف. تستخدم RRMs الحوسبة وقت الاختبار بكفاءة من خلال أساليب التوسيع المتوازية والمتسلسلة. يُظهر فعالية RRMs في التطبيقات العملية، بما في ذلك الاستنتاج الموجه بالمكافآت لأفضل N والتغذية الراجعة بعد التدريب، إمكاناتها كبدائل قوية لنماذج المكافآت القياسية التقليدية في تقنيات المحاذاة. يمكنكم الاطلاع على الورقة البحثية والنماذج على Hugging Face. جميع حقوق هذا البحث تخص الباحثين في هذا المشروع.
اترك تعليقاً