LongWriter-Zero: إطارٌ جديدٌ لِتوليد النصوص الطويلة للغاية باستخدام تقنيات تعلم التعزيز دون الحاجة إلى بيانات اصطناعية
يُمثّل توليد النصوص الطويلة للغاية، التي تمتد لآلاف الكلمات، تحديًا متزايد الأهمية في العديد من التطبيقات الواقعية، مثل كتابة القصص والقضايا القانونية والمواد التعليمية. ومع ذلك، لا تزال نماذج اللغات الكبيرة تواجه صعوباتٍ كبيرة في هذا المجال، تتضمن قيودًا على الطول ومشاكل في الجودة كلما زاد طول المخرجات. وتشمل هذه المشاكل: عدم الاتساق، وتشتت الموضوع، والتكرار، وضعف البنية.
التحديات في توليد النصوص الطويلة للغاية
كانت الطرق السابقة، مثل LongWriter، تعتمد على ضبط دقيق مُشرف باستخدام بيانات اصطناعية للتغلب على هذه المشكلة. لكنّ هذه البيانات مكلفةٌ في إنشائها، وصعبة التوليد، وغالبًا ما تبدو غير طبيعية. علاوةً على ذلك، فإن الاعتماد على نماذج اللغات الكبيرة الموجودة لإنشاء بيانات التدريب يحد من الإبداع، كما أن طرق التدريب التقليدية لا تُحسّن بشكل فعال من تماسك المخرجات الطويلة أو تنسيقها.
تطور أساليب توليد النصوص طويلة الشكل
ركزت الأبحاث الحديثة في مجال توليد النصوص طويلة الشكل على تحسين الاتساق والتخصيص، وزيادة طول المخرجات لما يتجاوز 2000 كلمة. استخدمت النماذج المبكرة، مثل Re3 و DOC، استراتيجياتٍ متكررة للحفاظ على البنية، بينما أدخلت LongLaMP وغيرها التخصيص من خلال التدريب الذاتي المُدرك للمنطق. بنى Suri مجموعة بيانات كبيرة تتبع التعليمات، لكنها اقتصرت على مخرجات أقل من 5000 رمز بسبب اعتمادها على الترجمة العكسية. طوّر LongWriter هذا من خلال توليد مخرجات تتراوح بين 6000 و 20000 رمز باستخدام ضبط دقيق مُشرف وتحسين التفضيلات، على الرغم من أنه احتفظ ببعض التحيزات من نماذج المعلم. من ناحية أخرى، حسّن تعلم التعزيز الاستدلال في نماذج اللغات الكبيرة مثل DeepSeek-R1 و QwQ-32B، إلا أن تعلم التعزيز لا يزال غير مستكشف بشكل كافٍ في مجال توليد النصوص الطويلة للغاية.
LongWriter-Zero: تعلم التعزيز بدون بيانات اصطناعية
يُقدّم باحثون من جامعة Tsinghua وجامعة SUTD نموذج LongWriter-Zero. يستخدم هذا النهج تعلم التعزيز لتدريب نماذج اللغات الكبيرة على توليد نصوص طويلة للغاية، دون الاعتماد على بيانات مُعلّمة أو اصطناعية. انطلاقًا من نموذج Qwen2.5-32B الأساسي، يطبقون تعلم التعزيز مع نماذج مكافآت مُصممة بعناية تستهدف طول النص وجودته وبنيته. يستلهم إطار عملهم من النجاحات التي تحققت في مهام الرياضيات والترميز، ويستكشف ثلاثة عوامل رئيسية: تصميم المكافآت، وتوسيع نطاق الاستدلال، والتدريب المُستمر المسبق. يتفوّق LongWriter-Zero على طرق الضبط الدقيق المُشرف التقليدية، محققًا أداءً متقدمًا على WritingBench و Arena-Write، متجاوزًا حتى نماذج تتجاوز 100 مليار معلمة مثل DeepSeek-R1.
استراتيجية تحسين جديدة ومعايير قياسية
تُدخِل الدراسة نهجًا قائمًا على تعلم التعزيز لتحسين توليد النصوص الطويلة للغاية باستخدام نماذج اللغات الكبيرة. يعتمد الباحثون على PPO مع طريقة تُسمى Group Relative Policy Optimization، مدربين نموذجًا بـ 32 مليار معلمة على بيانات تتبع التعليمات مع حد أقصى لإخراج 14000 رمز. يقيمون المخرجات باستخدام معيار قياس جديد، وهو Arena-Write، ويصممون نظام مكافآت يُوازن بين طول النص، وسلاسة الكلام، والاتساق، والتنسيق. تتمثل إحدى الأفكار الرئيسية في جعل النموذج “يفكر” قبل الكتابة باستخدام خطوات استدلال وسيطة، مما يؤدي إلى بنية وتحكم أفضل. تُحرز مكاسب إضافية من خلال التدريب المُسبق على بيانات غنية بالكتابة، مما يؤكد أهمية الأساس القوي والمركز على الكتابة.
النتائج على معايير قياس توليد النصوص طويلة الشكل
يُقيّم LongWriter-Zero من خلال عملية من خطوتين: تدريب مُسبق مُستمر على كتب طويلة باستخدام 30 مليار رمز، متبوعًا بضبط دقيق لتعلم التعزيز على مدى 150 خطوة مع مطالبات “فكر” لتشجيع الاستدلال. يحصل على درجة 8.69 على WritingBench، متفوقًا على GPT-4o (8.16)، و Qwen2.5-Max (8.37)، و DeepSeek-R1 (8.55)، ويُحقق الصدارة في خمسة من ستة مجالات. في Arena-Write، يحقق أعلى درجة Elo وهي 1447. يؤدي إزالة مطالبات “فكر” أو التدريب المُسبق إلى انخفاض كبير في الأداء، مما يؤكد أهميتهما. يحقق النموذج أيضًا معدل فوز يبلغ 98.2% في المقارنات القائمة على GPT-4.1، مع تأكيد التقييمات البشرية لقوته في الكتابة طويلة الشكل.
الخاتمة والنظرة المستقبلية لتصميم المكافآت
في الختام، يقترح LongWriter-Zero نهجًا قائمًا على تعلم التعزيز لتوليد نصوص طويلة للغاية، وبالتالي تجنب الحاجة إلى مجموعات بيانات اصطناعية أو مُعلّمة. بُني على Qwen2.5-32B ودرّب من الصفر، ويستخدم نماذج مكافآت تستهدف التحكم في الطول وجودة الكتابة والتنسيق. يحقق أعلى الدرجات على WritingBench (8.69) و Arena-Write (Elo 1447)، متفوقًا على GPT-4o (8.16)، و DeepSeek-R1 (8.55)، و Qwen3-235B-A22B (Elo 1343). تُظهر التقييمات البشرية والقائمة على GPT-4.1 معدلات فوز تصل إلى 98.2%. ومع ذلك، فإنه يواجه مشكلة اختراق نموذج المكافآت، مثل تضخيم الطول من خلال التكرار أو إدخال كلمات رئيسية مثل “التشابك الكمي” للحصول على درجات أعلى. يتطلب معالجة هذه القيود تصميمًا أفضل للمكافآت واستراتيجيات تفاعلية بشرية.
اترك تعليقاً