تحسين دقة نماذج اللغات الكبيرة وخفض تكلفة تدريبها عبر اختيار الرموز عالية الإنتروبيا

تُنتج نماذج اللغات الكبيرة (LLMs) استجابات خطوة بخطوة تُعرف باسم “سلسلة الأفكار” (CoTs)، حيث يساهم كل رمز في سردٍ متماسك ومنطقي. ولتحسين جودة الاستنتاج، تم استخدام تقنيات متنوعة من تعلم التعزيز. تسمح هذه الأساليب للنموذج بالتعلم من آليات التغذية الراجعة من خلال مواءمة المخرجات المُولدة مع معايير الصحة.

تحديات تدريب نماذج الاستنتاج باستخدام تعلم التعزيز

مع تزايد تعقيد نماذج اللغات الكبيرة وسعتها، بدأ الباحثون في دراسة البنية الداخلية لعملية توليد الرموز للكشف عن الأنماط التي تُعزز أو تحد من الأداء. أحد المجالات التي تحظى باهتمام متزايد هو توزيع إنتروبيا الرمز، وهو مقياس لعدم اليقين في التنبؤ بالرمز، والذي يُرتبط الآن بقدرة النموذج على اتخاذ قرارات منطقية مُفيدة أثناء الاستنتاج.

تتمثل إحدى القضايا الرئيسية في تدريب نماذج الاستنتاج باستخدام تعلم التعزيز في معاملة جميع رموز الإخراج على قدم المساواة. عند تحسين النماذج باستخدام تعلم التعزيز مع مكافآت قابلة للتحقق (RLVR)، تتضمن عملية التحديث تقليديًا كل رمز في التسلسل المُولّد، بغض النظر عن دوره الوظيفي. يُفشل هذا المعالجة الموحدة في التمييز بين الرموز التي تؤدي إلى تحولات كبيرة في الاستنتاج وتلك التي تُطيل الهياكل اللغوية الموجودة فقط. نتيجة لذلك، قد يتم توجيه جزء كبير من موارد التدريب إلى الرموز التي تقدم مساهمة ضئيلة في قدرات النموذج على الاستنتاج. بدون إعطاء الأولوية للرموز القليلة التي تلعب أدوارًا حاسمة في التنقل بين مسارات المنطق المختلفة، تفوت هذه الأساليب فرصًا للتحسين المُركّز والفعال.

تُعمل معظم أطر عمل RLVR، بما في ذلك تقريب تحسين السياسة (PPO)، وتحسين السياسة النسبية الجماعية (GRPO)، وتحسين سياسة أخذ العينات الديناميكية (DAPO)، من خلال تقييم تسلسلات كاملة من مخرجات الرموز مقابل دوال المكافآت التي تُقيّم الصحة. يعتمد PPO على تثبيت تحديثات السياسة من خلال دالة هدف مقصوصة. يُحسّن GRPO هذا من خلال تقدير قيم الميزة باستخدام استجابات مُجَمّعة، بدلاً من شبكة قيمة منفصلة. يُقدم DAPO تحسينات إضافية، مثل آلية “القص الأعلى” وتشكيل المكافأة الطويلة جدًا. ومع ذلك، لا تأخذ هذه الأساليب في الاعتبار إنتروبيا الرمز على مستوى الرمز أو تُميّز أهمية الرموز الفردية في سلسلة الاستنتاج، بل تُطبق تحديثات التدرج الموحدة على نطاق واسع.

منهجية جديدة تعتمد على إنتروبيا الرمز

في محاولة لتحسين كيفية تأثير تدريب RLVR على استنتاج نماذج اللغات الكبيرة، قدم باحثون من شركة علي بابا وجامعة تسينغهوا منهجية جديدة تركز على أنماط إنتروبيا الرمز. لاحظوا أنه في تسلسلات CoT التي أنتجتها نماذج Qwen3، تُظهر مجموعة فرعية صغيرة من الرموز، حوالي 20%، إنتروبيا أعلى بكثير. غالبًا ما تتوافق هذه الرموز، التي تُسمى “رموز التفرع”، مع اللحظات التي يجب على النموذج فيها الاختيار بين مسارات استنتاج متعددة. عادةً ما تُظهر الـ 80% المتبقية من الرموز إنتروبيا منخفضة وتعمل كمُوسّعات للبيانات السابقة.

من خلال الحد من تحديثات تدرج السياسة فقط إلى رموز الإنتروبيا العالية هذه، تمكن فريق البحث ليس فقط من الحفاظ على الأداء، ولكن في كثير من الحالات، تحسينه على معايير استنتاج صعبة.

النتائج التجريبية

أجرى فريق البحث تجارب واسعة النطاق عبر ثلاثة أحجام نماذج: Qwen3-8B، وQwen3-14B، وQwen3-32B. عند تدريب أعلى 20% فقط من رموز الإنتروبيا العالية، حقق نموذج Qwen3-32B درجة 63.5 على AIME’24 و 56.7 على AIME’25، وكلاهما يُمثل معيارًا جديدًا للأداء للنماذج التي تقل عن 600 مليار معلمة. علاوة على ذلك، أدى زيادة الحد الأقصى لطول الاستجابة من 20 ألف إلى 29 ألف رمز إلى رفع درجة AIME’24 إلى 68.1. في المقابل، تسبب التدريب على أدنى 80% من رموز الإنتروبيا المنخفضة في انخفاض الأداء بشكل كبير.

النقاط الرئيسية

  • حوالي 20% من الرموز تُظهر إنتروبيا عالية وتعمل كنقطة تفرع توجه مسارات الاستنتاج.
  • التدريب فقط على رموز الإنتروبيا العالية هذه يُوفر أداءً مساويًا أو أفضل من التدريب على مجموعة الرموز الكاملة.
  • حقق نموذج Qwen3-32B درجات 63.5 على AIME’24 و 56.7 على AIME’25، متفوقًا على النماذج الأكبر حجمًا التي تم تدريبها تقليديًا.
  • تمديد طول الاستجابة من 20 ألف إلى 29 ألف رمز زاد من درجة AIME’24 إلى 68.1.
  • التدريب على الـ 80% المتبقية من رموز الإنتروبيا المنخفضة أدى إلى تدهور حاد في الأداء.
  • الحفاظ على عتبة 20% لرموز الإنتروبيا العالية يُحقق التوازن الأمثل بين الاستكشاف والأداء.

الخلاصة

يُعيد هذا البحث التفكير بشكل فعال في تطبيق تعلم التعزيز على نماذج اللغات الكبيرة من خلال التركيز على إنتروبيا الرمز على مستوى الرمز. من خلال تحسين الأقلية فقط التي تُؤثر على مسارات الاستنتاج، تُعزز هذه الطريقة الأداء مع تقليل العبء الحسابي. وهي تُقدم خارطة طريق عملية للجهود المستقبلية لتحسين الاستنتاج في نماذج اللغات الكبيرة دون تعقيدات غير ضرورية.

المصدر: MarkTechPost