تحسين استجابة نماذج اللغات الكبيرة: نهج التعلم المعزز لإجابات وسيطة أسرع وأدق
قدم باحثون من أبل وجامعة ديوك نهجًا جديدًا قائمًا على تقنية التعلم المعزز (Reinforcement Learning) يُمكّن نماذج اللغات الكبيرة (LLMs) من تقديم إجابات وسيطة أثناء عملية الاستنتاج، مما يُحسّن من سرعة الاستجابة ودقتها. يُعالج هذا النهج، الذي يُطلق عليه “الاستنتاج المتداخل” (Interleaved Reasoning)، بعضًا من قيود أساليب الاستنتاج التقليدية.
تحديات أساليب الاستنتاج التقليدية
تُحسّن عمليات الاستنتاج الطويلة والمتسلسلة (Chain of Thought – CoT) أداء نماذج اللغات الكبيرة في المهام المعقدة، إلا أنها تعاني من بعض العيوب:
- بطء الاستجابة: تتطلب طريقة “التفكير ثم الإجابة” وقتًا أطول، مما يُعيق التفاعلات في الوقت الفعلي، مثل تلك الموجودة في روبوتات الدردشة.
- زيادة احتمالية الخطأ: يمكن أن تؤدي الأخطاء في خطوات الاستنتاج الأولية إلى إجابة نهائية خاطئة.
- عدم التفاعل مع المستخدم: على عكس البشر الذين غالبًا ما يشاركون أفكارًا أو استنتاجات جزئية أثناء المحادثات، تؤجل نماذج اللغات الكبيرة استجاباتها حتى اكتمال عملية الاستنتاج بالكامل.
التعلم المعزز والنماذج اللغوية الكبيرة
يُستخدم التعلم المعزز على نطاق واسع لتحسين عملية الاستنتاج في نماذج اللغات الكبيرة، مستفيدًا من نجاحه في مواءمة النماذج مع تفضيلات المستخدم. هناك نوعان شائعان من المكافآت في هذا السياق:
- مكافآت تعتمد على النتيجة (ORM): تركز على الإجابة النهائية فقط.
- مكافآت تعتمد على العملية (PRM): تُقدم ملاحظات على خطوات الاستنتاج الوسيطة.
تُعتبر مكافآت PRM أكثر تفصيلًا، لكنها غالبًا ما تعتمد على الت annotations البشرية ونماذج إضافية، مما يجعلها معقدة وعرضة لمشاكل مثل “اختراق المكافآت” (Reward Hacking).
الاستنتاج المتداخل: نهج جديد لتحسين الاستجابة
يُقدم البحث نهج “الاستنتاج المتداخل”، وهو إطار عمل للتعلم المعزز يُمكّن نماذج اللغات الكبيرة من التناوب بين التفكير وتقديم إجابات وسيطة للمستخدم. يتم مشاركة كل خطوة وسيطة بمجرد وصول النموذج إلى مرحلة مُهمة في عملية الاستنتاج.
آلية العمل:
- قالب تدريب متخصص: يستخدم قالب تدريب مُخصص يحتوي على علامات
<think>
و<answer>
. - مكافآت قائمة على القواعد: يستخدم نهج المكافآت القائمة على القواعد، مع التركيز على:
- تنسيق الإجابة.
- دقة الإجابة النهائية.
- دقة الإجابات الوسيطة المشروطة.
- تطبيق المكافآت المشروطة: يتم تطبيق المكافآت الوسيطة فقط عند استيفاء معايير محددة، مما يُضمن أن يُعطي النموذج الأولوية للدقة الكلية.
- استراتيجيات مكافآت مُختلفة: تم اختبار مخططات مكافآت مختلفة، مثل: “الكل أو لا شيء”، و”الائتمان الجزئي”، و”مكافآت مُخصومة زمنيًا”.
النتائج:
تم تقييم نهج الاستنتاج المتداخل على مجموعات بيانات مألوفة وغير مألوفة باستخدام نماذج Qwen2.5 (1.5B و 7B). أظهرت النتائج تحسينًا كبيرًا:
- زيادة السرعة: سرعة استجابة أسرع بنسبة تزيد عن 80%.
- تحسين الدقة: دقة أعلى بنسبة تصل إلى 19.3%.
- التعميم الجيد: قدرة على التعميم على معايير أداء أكثر تحديًا مثل MATH، و GPQA، و MMLU.
الخلاصة
يُظهر هذا البحث كيف يُمكن لنهج “الاستنتاج المتداخل” تحسين أداء نماذج اللغات الكبيرة واستجابتها بشكل كبير. يُعد هذا النهج بديلاً فعالاً للأساليب التقليدية، حيث يُحسّن من جودة الاستنتاج وكفاءته دون الاعتماد على أدوات خارجية.
اترك تعليقاً