إطار عمل كروم: ثورة في بناء نماذج مكافآت متينة وقائمة على السببية لتحسين محاذاة نماذج اللغات الكبيرة
تُعد نماذج المكافآت عنصرًا أساسيًا في محاذاة نماذج اللغات الكبيرة (LLMs) مع التغذية الراجعة البشرية. ومع ذلك، تواجه هذه النماذج تحديًا رئيسيًا يتمثل في مشكلة “اختراق المكافآت” (Reward Hacking). حيث تركز هذه النماذج على سمات سطحية مثل طول الاستجابة أو التنسيق، بدلاً من تحديد مؤشرات الجودة الحقيقية مثل الدقة والملاءمة. تنشأ هذه المشكلة لأن أهداف التدريب القياسية تفشل في التمييز بين الارتباطات الوهمية الموجودة في بيانات التدريب، والدوافع السببية الحقيقية لجودة الاستجابة. ويؤدي هذا الفشل في الفصل بين هذه العوامل إلى نماذج مكافآت هشة (RMs) تولد سياسات غير محاذاة. وبالتالي، هناك حاجة إلى طريقة تستخدم فهمًا سببيًا لتكوين التفضيلات لتدريب نماذج مكافآت حساسة لصفات الجودة السببية، وثابتة تجاه الإشارات الوهمية المختلفة.
قصور أساليب نماذج المكافآت الحالية والحاجة إلى المتانة السببية
تحاول الأساليب الحالية حل مشكلة اختراق المكافآت في أنظمة RLHF القياسية التي تعتمد على طرق تصنيف برادلي- تيري أو الترتيب الزوجي. يشمل ذلك التعديلات المعمارية، مثل أودين (Odin)، والتعديلات على مستوى السياسات، والأساليب التي تركز على البيانات والتي تتضمن مجموعات أو عمليات تحقق من الاتساق. تستخدم الأساليب المستوحاة من السببية مؤخراً تنظيم MMD ضد عوامل وهمية محددة مسبقًا، أو تقدير التأثيرات السببية من خلال عمليات إعادة كتابة مصححة. ومع ذلك، تستهدف هذه الأساليب فقط العوامل الوهمية المحددة مسبقًا، متجاهلة الارتباطات غير المعروفة. في حين تظل استراتيجيات التوسيع تقريبية، وتفشل الأساليب التي تركز على التقييم في تزويد نماذج المكافآت بآليات تدريب متينة ضد التغيرات الوهمية المتنوعة.
تقديم كروم: نمذجة مكافآت متينة سببيًا لـ LLMs
اقترح باحثون من جوجل ديب مايند وجامعة ماكجيل ومعهد ميلّا للذكاء الاصطناعي في كيبيك إطار عمل كروم (Crome – Causally Robust Reward Modeling)، وهو إطار عمل مبني على نموذج سببي صريح لتوليد الإجابات. يدرب كروم نماذج المكافآت على التمييز بين دوافع الجودة الحقيقية والإشارات السطحية من خلال إضافة مجموعات بيانات تفضيلية مع أمثلة مضادة مُولدة بواسطة نماذج اللغات الكبيرة. علاوة على ذلك، يقوم بإنشاء نوعين من أزواج التدريب الاصطناعية:
- التوسيعات السببية (Causal Augmentations): تُدخِل تغييرات على سمات سببية محددة، مثل الدقة، لفرض الحساسية للتحولات الحقيقية في الجودة.
- التوسيعات المحايدة (Neutral Augmentations): تُفرض الثبات على سمات وهمية مثل الأسلوب باستخدام تسميات التعادل.
يعزز كروم المتانة، ويزيد من دقة RewardBench بنسبة تصل إلى 4.5٪، ويعزز السلامة والتفكير.
النهج التقني: التوسيع المضاد للوقائع وتحسين خسارة المركبة
يعمل كروم من خلال مرحلتين رئيسيتين: توليد بيانات مضادة للوقائع واعية بالسمات بناءً على نموذج سببي، وتدريب نموذج المكافآت بخسارة متخصصة على البيانات المجمعة. يقدم تحليلًا نظريًا لكيفية عزل التوسيع السببي لدوافع المكافآت الحقيقية عن الارتباطات الوهمية ضمن نموذج مثالي. يستخدم كروم مجموعة بيانات UltraFeedback مع مضادات للوقائع مُولدة باستخدام Gemini 2.0 Flash، ويُقيّم الأداء على RewardBench و reWordBench. يستخدم الباحثون نماذج LLMs أساسية متنوعة في تجاربهم، بما في ذلك Gemma-2-9B-IT و Qwen2.5-7B و Gemma-2-2B لكل من نماذج مكافآت Pairwise Preference و Bradley-Terry، مع تأثير محاذاة أسفل مجرى النهر من خلال اختيار Best-of-N على مهام متعددة.
مكاسب الأداء: من RewardBench إلى WildGuardTest
على RewardBench، يحقق كروم تحسينات في دقة التصنيف على RRM عبر نماذج أساسية متنوعة، مع مكاسب كبيرة في فئات السلامة (حتى 13.18٪) والتفكير (حتى 7.19٪). يُظهر كروم مكاسب في الدقة الكلية تصل إلى 9.1٪ على reWordBench مع Gemma-2-9B-IT في إعدادات PairPM، وأداءً متفوقًا على 21 من أصل 23 تحويلًا. علاوة على ذلك، يُظهر انخفاضًا أقل في دقة التصنيف من RewardBench إلى reWordBench مقارنةً بـ RRM (19.78٪ مقابل 21.54٪). يُظهر كروم تحسينات ممتازة في السلامة على WildGuardTest مع اختيار Best-of-N، محققًا معدلات نجاح هجوم أقل على المطالبات الضارة مع الحفاظ على معدلات رفض مماثلة على المطالبات الحميدة.
الخلاصة والاتجاهات المستقبلية في التوسيع البيانات السببية
في الختام، قدم الباحثون كروم، وهو إطار عمل سببي يحل مشاكل اختراق المكافآت أثناء تدريب نماذج المكافآت. يستخدم استراتيجيتي توسيع بيانات اصطناعية مستهدفتين: التوسيعات السببية والتوسيعات المحايدة. يتفوق كروم على الخطوط الأساسية القوية عبر نماذج أساسية متعددة وتقنيات نمذجة مكافآت على RewardBench، ومتانة فائقة على reWordBench ضد الارتباطات الوهمية. تفتح هذه الطريقة التدريبية التي تركز على معالجة البيانات (أي كروم) اتجاهات بحثية جديدة في توليد البيانات الاصطناعية لتدريب النماذج الأساسية، حيث يمكن أن يكون التحقق من السمات السببية مفيدًا للغاية للتطورات المستقبلية في محاذاة نماذج اللغات المتينة.
اترك تعليقاً