إطار عمل J1 الجديد من ميتا: تعليم نماذج اللغات الكبيرة الحكم بمنطق ودقة باستخدام بيانات محدودة
تُستخدم نماذج اللغات الكبيرة حاليًا في مهام التقييم والحكم، متجاوزة بذلك دورها التقليدي في توليد النصوص. وقد أدى هذا إلى ظهور مفهوم “نموذج اللغة الكبير كحكم” (LLM-as-a-Judge)، حيث تُقيّم هذه النماذج مخرجات نماذج لغات أخرى. تُعدّ هذه التقييمات ضرورية في خطوط أنابيب التعلم المعزز، واختبارات المقاييس، ومواءمة النظام. تعتمد نماذج الحكم هذه على التفكير الداخلي المتسلسل، مما يُحاكي عمليات الحكم البشرية. وعلى عكس نماذج المكافآت التقليدية التي تُقدم درجات مباشرة، تُحاكي هذه النماذج التقييم المتأمل، مما يجعلها أكثر ملاءمة للمهام المعقدة مثل حل مسائل الرياضيات، والتفكير الأخلاقي، وتفسير نوايا المستخدم. إن قدرتها على تفسير و التحقق من صحة الاستجابات عبر اللغات والمجالات تُعزز من الأتمتة وقابلية التوسع في تطوير نماذج اللغات.
تحديات نماذج الحكم الحالية
ومع ذلك، تواجه أنظمة الحكم بالذكاء الاصطناعي الحالية مشاكل تتعلق بالاتساق والتفكير السطحي. فكثير منها يعتمد على مقاييس أساسية أو تعليقات ثابتة، وهي غير كافية لتقييم الاقتراحات الذاتية أو المفتوحة. ومن المشاكل الشائعة التحيز للموضع، حيث يؤثر ترتيب الإجابات على القرار النهائي، مما يُمسّ بالإنصاف. كما أن جمع البيانات المُعلّقة يدويًا على نطاق واسع مكلف ويستغرق وقتًا طويلًا، مما يحد من تعميم هذه النماذج.
J1: حلول مبتكرة لتحديات الحكم الآلي
قدمت باحثو فرق GenAI وFAIR في ميتا إطار عمل J1 لمعالجة القيود المذكورة أعلاه. يُدرّب J1 نماذج الحكم من خلال إطار عمل قائم على التعلم المعزز، مما يجعلها قادرة على التعلم من خلال إشارات مكافأة قابلة للتحقق. استخدم الفريق بيانات اصطناعية لإنشاء استجابات عالية الجودة ومنخفضة الجودة لسؤال واحد، محولًا المهام الذاتية إلى أحكام زوجية قابلة للتحقق. تضمنت هذه المجموعة من البيانات الاصطناعية 22,000 زوج تفضيل، موزعة بين 17,000 سؤال من مجموعة بيانات WildChat و 5,000 استعلام رياضي. تم استخدام هذه البيانات لتدريب نسختين من J1: J1-Llama-8B و J1-Llama-70B، بدءًا من نماذج Llama-3.1-8B-Instruct و Llama-3.3-70B-Instruct الأساسية على التوالي.
استراتيجية التدريب المتقدمة
تم تدريب النماذج باستخدام خوارزمية تحسين السياسة النسبية الجماعية (GRPO)، وهي خوارزمية تعليم معزز تلغي الحاجة إلى نماذج الناقد وتُسرّع من التقارب. يعتمد جوهر استراتيجية التدريب على التعلم الذي لا يعتمد على الموضع، حيث يتم استخدام كل من صيغ الإدخال (x, a, b) و (x, b, a) في التدريب لمنع التحيز للموضع. كما يتم تطبيق مكافآت قائمة على الاتساق فقط عندما يقدم النموذج أحكامًا صحيحة عبر ترتيبي الإجابة. يسمح هذا الهيكل للحكم بأن يكون عادلًا وموثوقًا بغض النظر عن السؤال أو ترتيب الإجابة.
تنسيقات الحكم المتعددة
يدعم إطار العمل التدريبي العديد من الاختلافات: يمكن للنماذج إخراج أحكام نهائية، أو درجات رقمية لكل إجابة، أو كليهما. ويتضمن ذلك متغيرًا للحكم النقطي، والذي يُقيّم الاستجابات الفردية باستخدام درجات من 0 إلى 10. تجعل هذه التنسيقات J1 نظامًا متعدد الاستخدامات وقابلًا للتعميم قادرًا على الحكم على مهام متنوعة.
نتائج مبهرة و تفوق على أقرانه
كشفت النتائج التي تم الحصول عليها باستخدام نماذج J1 عن تحسينات كبيرة في الأداء مقارنة بالأنظمة الحالية. في مقياس تقييم الوكيل التفضيلي (PPE) المستخدم على نطاق واسع، حقق J1-Llama-70B دقة إجمالية بلغت 69.6٪، متفوقًا على النماذج المدربة باستخدام بيانات تزيد عن عشرة أضعاف. في المقابل، سجلت نماذج مثل DeepSeek-GRM-27B و EvalPlanner-Llama-70B 67.2٪ و 65.6٪ على التوالي. حتى النموذج الأصغر J1-Llama-8B تجاوز الأنظمة الأساسية مثل EvalPlanner-Llama-8B، مسجلًا 62.2٪ مقابل 55.5٪. أظهر J1 أيضًا أداءً متميزًا في مقاييس حاسمة أخرى مثل RewardBench و RM-Bench و JudgeBench و FollowBenchEval، مما يدل على تعميم قوي عبر المهام القابلة للتحقق والذاتية. هذه التحسينات ليست هامشية فحسب، بل كبيرة، بالنظر إلى البيانات التدريبية المحدودة المستخدمة في J1 مقارنة بمجموعات البيانات الواسعة في النماذج الأخرى.
النقاط الرئيسية
- تم تدريب J1 باستخدام 22,000 زوج تفضيل اصطناعي، بما في ذلك 17,000 من WildChat و 5,000 من المهام الرياضية.
- يستخدم التدريب GRPO، مما يُبسط التعلم المعزز عن طريق تجنب الحاجة إلى نماذج ناقد منفصلة.
- يُدخِل التعلم الذي لا يعتمد على الموضع، مما يقلل من التحيز للموضع من خلال مكافآت قائمة على الاتساق.
- تم تدريب متغيرين رئيسيين للنموذج، J1-Llama-8B و J1-Llama-70B، على بيانات متواضعة لكنهما تفوقا على النماذج واسعة النطاق.
- سجل J1-Llama-70B 69.6٪ على PPE، متجاوزًا DeepSeek-GRM-27B (67.2٪) و EvalPlanner-Llama-70B (65.6٪).
- يدعم تنسيقات حكم متعددة: زوجية مع أحكام، زوجية مع درجات، ودرجات نقطية.
- يتفوق على النماذج المقطرة من DeepSeek-R1 و o1-mini من OpenAI في العديد من المهام.
- يُظهر أن جودة التفكير، وليس فقط حجم مجموعة البيانات، أمر بالغ الأهمية للحكم الدقيق.
- يجعل إطار عمل J1 منه حكمًا عامًا ينطبق على المهام القابلة للتحقق وغير القابلة للتحقق.
الخاتمة
يُعيد نهج J1 تعريف كيفية تدريب وتقييم نماذج الحكم بشكل أساسي. تتجاوز البيانات الاصطناعية والتعلم المعزز الحاجة التقليدية للتعليقات المكلفة مع تعزيز التقييمات العادلة والمنطقية والمتسقة. يُوضح هذا العمل أن الحكم القائم على التفكير يمكن أن يتفوق على النماذج الأكبر التي تعتمد بشكل كبير على حجم البيانات وتقنيات المحاذاة الثابتة. كما أنه يُؤكد على فكرة أن نماذج الحكم يجب أن تكون مفكرة أولاً، ثم مُدرّجة للنقاط ثانيًا. مع أداء يُضاهي وغالباً ما يتجاوز أنظمة متطورة، يُحدد J1 معيارًا جديدًا في تدريب أنظمة “نموذج اللغة الكبير كحكم”.
اترك تعليقاً