تعزيز البحث الذكي في نماذج اللغات الكبيرة: إطار عمل SEM من مجموعة Ant
يُظهر التقدم المُحرز مؤخراً في نماذج اللغات الكبيرة (LLMs) إمكاناتها الهائلة في أداء مهام الاستدلال المعقدة واستخدام الأدوات الخارجية بكفاءة، مثل محركات البحث. ومع ذلك، لا يزال تعليم هذه النماذج لاتخاذ قرارات ذكية بشأن متى تعتمد على معرفتها الداخلية ومتى تلجأ إلى البحث يُشكل تحديًا رئيسيًا.
التحديات الحالية في استخدام نماذج اللغات الكبيرة مع محركات البحث
في حين أن الأساليب البسيطة القائمة على المطالبات (prompts) يمكن أن توجه النماذج لاستخدام الأدوات، إلا أن نماذج LLMs ما زالت تُعاني من صعوبة في السلوكيات الأكثر دقة، مثل إدراك خطأ البحث الأولي والقرار بإجراء بحث آخر. وقد تم استكشاف التعلم المعزز (Reinforcement Learning – RL) لتحسين هذه السلوكيات من خلال مكافأة الاستخدام الفعال للبحث. ومع ذلك، غالباً ما يؤدي التعلم المعزز إلى استخدام غير ضروري للأدوات، حيث تقوم النماذج بإجراء عمليات بحث متكررة حتى في المهام البسيطة، مما يُبرز عدم الكفاءة التي يجب معالجتها.
وقد تم استخدام استراتيجيات RL متنوعة، بما في ذلك:
- تحسين السياسة القريبة (Proximal Policy Optimization – PPO): للموازنة بين استكشاف التعلم والحفاظ على استقرار السياسة.
- تحسين التفضيل المباشر (Direct Preference Optimization – DPO): لتبسيط المُواءمة من خلال تحسين استجابات النموذج مباشرةً بناءً على تفضيلات المستخدم.
- تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization – GRPO): لإدخال تقييمات قائمة على المجموعات لالتقاط التحسينات الدقيقة في الاستدلال بشكل أفضل.
إطار عمل SEM: حلّ ذكي لتحسين كفاءة البحث
في سياق معالجة هذه التحديات، تقدم مجموعة Ant إطار عمل التعلم المعزز بعد التدريب (post-training reinforcement learning) المسمى SEM، والذي يُصمم لتعليم نماذج LLMs متى تستخدم أدوات البحث ومتى تعتمد على معرفتها الداخلية. من خلال التدريب على مجموعة بيانات مُتوازنة تجمع بين الأسئلة التي تتطلب استرجاعًا خارجيًا وتلك التي لا تتطلبه، يُوجه SEM النموذج لإصدار طلبات البحث فقط عند الضرورة.
باستخدام تنسيق استدلال مُنظم وإطار عمل GRPO، يُكافئ الإطار الإجابات الدقيقة بدون بحث ويعاقب استخدام الأدوات غير الضروري. تُظهر النتائج أن SEM يُحسّن دقة الاستجابة وكفاءتها، مما يُساعد النماذج على الحكم بشكل أفضل على متى تكون المعلومات الخارجية ضرورية، وبالتالي يُعزز الاستدلال في السيناريوهات المعقدة.
آلية عمل إطار عمل SEM
لتكامل أدوات البحث في عملية استدلال النموذج، يستخدم SEM التعلم المعزز لتعليم النماذج متى وكيفية استخدام البحث بكفاءة. تتضمن بيانات التدريب مجموعتي بيانات MuSiQue (أسئلة تحتاج إلى معلومات خارجية) و MMLU (أسئلة قابلة للإجابة من المعرفة السابقة)، مما يساعد النماذج على تعلم الحكم على متى يكون البحث ضروريًا.
باستخدام إطار عمل GRPO، يتم مكافأة النموذج على الإجابات الدقيقة والفعالة، مما يُثبط عمليات البحث غير الضرورية ويشجعها عندما تكون المعرفة الداخلية غير كافية. يُوَحّد تنسيق الاستجابة المُنظم (<فكر>، <إجابة>، <بحث>، <نتيجة>) التدريب ويسمح بتعيين المكافآت بدقة، مما يُحسّن جودة الاستدلال وصنع القرار المتعلق بالبحث.
تقييم أداء إطار عمل SEM
يُقيّم الدراسة نموذجًا مُدربًا على تحديد متى يعتمد على معرفته الداخلية ومتى يستخدم بحثًا خارجيًا. ويُجمع بين مجموعتي بيانات MuSiQue (أسئلة غير مألوفة) و MMLU (أسئلة مألوفة) للتدريب ويُقيّم الأداء على مجموعات بيانات مثل HotpotQA و GSM8K و MMLU. تتفوق طريقة SEM المقترحة على الأساليب الأخرى مثل Naive RAG و ReSearch في دقة الإجابة وكفاءة البحث. يُقلل SEM من عمليات البحث غير الضرورية حول الأسئلة المعروفة مع تحسين الاستدلال حول الأسئلة غير المعروفة. تُؤكد دراسات الحالة ومنحنيات التدريب على التعلم المُستقر وصنع القرار الذكي لـ SEM. بشكل عام، يُعزز SEM قرارات الاسترجاع والاستدلال الداخلي في نماذج اللغات الكبيرة.
الخلاصة
يُعد SEM إطار عمل تعليم مُعزز بعد التدريب مُصمم لتحسين كيفية استخدام نماذج اللغات الكبيرة لأدوات البحث الخارجية. يتم تدريب النموذج على مجموعة بيانات تجمع بين MuSiQue و MMLU، مما يُساعده على التمييز بين الأسئلة التي يمكنه الإجابة عليها داخليًا وتلك التي تتطلب استرجاعًا خارجيًا. يستخدم SEM نهجًا مُنظمًا للاستدلال ودالة مكافأة تُعاقب عمليات البحث غير الضرورية مع تعزيز الاسترجاع الدقيق والفعال. تُظهر التجارب على معايير مثل HotpotQA و GSM8K و MMLU أن SEM يُقلل من عمليات البحث الزائدة ويُحسّن الدقة. يُعزز هذا النهج كفاءة الاستدلال والاستخدام الذكي للمعرفة الخارجية في نماذج LLMs.
اترك تعليقاً