إطار عمل QwenLong-L1: تعزيز الاستدلال في نماذج اللغات الكبيرة ذات السياقات الطويلة
يُظهر البحث الحديث في مجال نماذج اللغات الكبيرة (LLMs) إمكانيات مذهلة في مجال الاستدلال، خاصةً في السياقات القصيرة. لكنّ هذه الإمكانيات لا تمتد بسهولة إلى السياقات الطويلة. تتطلب تطبيقات مثل الإجابة على الأسئلة متعددة الوثائق، وتلخيص البحوث، والتحليل القانوني أو المالي، معالجة سلاسل نصية تتجاوز 100 ألف رمز، وهو ما يُشكل تحديًا كبيرًا. تُعاني تقنيات التعلم المعزز (Reinforcement Learning – RL) في هذه الحالات من مشاكل عديدة، منها بطء تقارب المكافآت، وعدم استقرار تحديثات السياسات بسبب تقلبات اختلاف Kullback-Leibler (KL)، وانخفاض استكشاف الحلول بسبب انهيار الانتروبيا. هذه التحديات تُبرز فجوة أساسية في تطوير نماذج اللغات الكبيرة قادرة على التعامل مع السياقات الطويلة.
QwenLong-L1: إطار عمل مُحسّن للاستدلال في السياقات الطويلة
للتغلب على هذه القيود، يُقدم فريق بحث Qwen إطار عمل QwenLong-L1، وهو إطار عمل جديد للتعلم المعزز مصمم خصيصًا لتكييف نماذج اللغات الكبيرة مع مهام الاستدلال في السياقات الطويلة. يتألف الإطار من ثلاث مراحل رئيسية:
1. ضبط دقيق مُشرف (SFT) للتدريب الأولي:
- يوفر هذا التدريب الأولي المُشرف باستخدام مجموعات بيانات من الأسئلة والسياقات والإجابات المُعدة بعناية، بدايةً مستقرة لنموذج السياسات.
- يضمن هذا النموذج الأساسي الفهم السليم للسياق واستخراج الإجابات.
2. التعلم المعزز التدريجي المُوجه بالمناهج الدراسية:
- يتضمن هذا المرحلة تدريبًا تدريجيًا بزيادة أطوال السياق تدريجيًا.
- يسمح هذا النهج للنموذج باكتساب سلوكيات الاستدلال في السياقات الطويلة بشكل تدريجي، دون زعزعة استقرار تحديثات السياسات.
3. أخذ العينات الرجعية المُدركة للصعوبة:
- يُعزز هذا الاستكشاف من خلال الاحتفاظ بأمثلة صعبة من المراحل السابقة، مع وزنها حسب صعوبتها.
- هذا يُشجع على تفكير أعمق وقوة أكبر للنموذج مع مدخلات متنوعة.
يتم دعم هذه المراحل بآليات مكافآت هجينة، تجمع بين التحقق الدقيق القائم على القواعد وتقييم دلالي بواسطة نموذج لغة كبير خفيف الوزن، مما يضمن الدقة والاستدعاء أثناء تدريب السياسات.
التصميم التقني والمزايا المنهجية
يُدمج QwenLong-L1 التطورات الحديثة في تحسين التعلم المعزز النسبي للجماعة، وتحديداً GRPO و DAPO، لتقليل العبء الحسابي المرتبط بتقدير قيمة السياق الطويل:
- تُقدّر GRPO الميزة عن طريق تطبيع المكافآت داخل المجموعات المُختارة، مما يلغي الحاجة إلى شبكة قيمة منفصلة ويشجع على أنماط توليد متنوعة.
- تُدمج DAPO آليات مثل أخذ العينات الديناميكي، وعقاب تجاوز الطول، وعتبات القص غير المتماثلة لمنع انهيار الانتروبيا والتخفيف من تحيزات الطول أثناء التدريب.
تُعرّف دالة المكافأة على أنها الحد الأقصى لإشارتين: مطابقة حتمية قائمة على القواعد، وحكم دلالي من نموذج مُقيم مُدمج (مثل Qwen2.5-1.5B). يتجنب هذا النهج الهجين الإفراط في التكيّف مع التنسيقات الجامدة مع الحفاظ على صحة الإجابة عبر تدوين وتصاغ مختلفة.
علاوة على ذلك، تم تحسين الإطار من خلال التحجيم التدريجي للسياق، حيث ينتقل إطار العمل من أطوال مدخلات 20 ألف رمز إلى 60 ألف رمز في مراحل مُتحكمة، مما يُثبّت ديناميكيات التدريب ويُسهّل تعميم السياسات.
النتائج التجريبية وأداء المقاييس
تم تقييم QwenLong-L1 على سبعة مقاييس معيارية للإجابة على الأسئلة في وثائق ذات سياقات طويلة، بما في ذلك DocMath و Frames و 2WikiMultihopQA و HotpotQA و Musique و NarrativeQA و Qasper. أظهر متغير 32B، QwenLong-L1-32B، أداءً تجريبيًا قويًا:
- تفوق على نماذج أساسية مثل R1-Distill-Qwen-32B بنسبة 5.1 نقطة.
- تجاوز أنظمة ملكية رائدة مثل OpenAI-o3-mini و Qwen3-235B-A22B.
- كان أداءه مُقارباً لـ Claude-3.7-Sonnet-Thinking، مما يُشير إلى قدرات استدلال تنافسية تحت أطوال سياقات قصوى.
كشف تحليل Pass@K عن تحسينات ثابتة مع زيادة أخذ العينات، حيث بلغ متوسط Pass@2 نسبة 73.7، متجاوزًا DeepSeek-R1 و OpenAI-o1-preview، حتى بمعدلات أخذ عينات منخفضة. أكدت دراسات الاستبعاد مساهمات كل من ضبط دقيق مُشرف، والتعلم المعزز التدريجي، وأخذ العينات الرجعية. تجدر الإشارة إلى أن التعلم المعزز لعب دورًا حاسمًا في تمكين سلوكيات الاستدلال الناشئة مثل التأسيس، وتحديد الأهداف الفرعية، والتحقق، والتراجع – وهي سمات لم يتم حثها بفعالية من خلال ضبط دقيق مُشرف وحده.
الخلاصة
يمثل QwenLong-L1 نهجًا منهجيًا لتزويد نماذج اللغات الكبيرة بقدرات استدلال قوية في السياقات الطويلة من خلال التعلم المعزز. يُعالج تصميمه بفعالية الفجوة بين الخبرة في السياقات القصيرة ومتطلبات البيئات الغنية بالمعلومات من خلال الجمع بين التهيئة المُشرفة، وتوسيع نطاق السياق المُدار بالمناهج الدراسية، واستراتيجيات التقييم الهجينة. لا يُحقق الإطار نتائج متقدمة في المقاييس المعيارية للسياقات الطويلة فحسب، بل يُظهر أيضًا ظهور أنماط استدلال قابلة للتفسير أثناء التدريب.
يمكنكم الاطلاع على الورقة البحثية، والنموذج على Hugging Face، وصفحة GitHub. جميع الحقوق محفوظة لباحثين هذا المشروع. تابعونا على تويتر، وانضموا إلى مجتمعنا على ريديت (أكثر من 95 ألف عضو)، واشتركوا في قائمتنا البريدية.
اترك تعليقاً