ZeroSearch: ثورة آلية جديدة لتدريب نماذج اللغات الكبيرة بدون الحاجة للبحث الفعلي

تُعد نماذج اللغات الكبيرة (LLMs) ركيزة أساسية في العديد من التطبيقات، بدءًا من البرمجة ووصولاً إلى التدريس الأكاديمي والمساعدين الآليين. ومع ذلك، لا تزال هناك قيود جوهرية في تصميم هذه النماذج، أبرزها اعتمادها على مجموعات بيانات ثابتة تصبح عتيقة بسرعة. يُشكل هذا تحديًا أساسيًا لأن نماذج اللغات لا تستطيع تحديث معلوماتها أو التحقق من صحة استجاباتها بناءً على بيانات حقيقية وعصرية. ونتيجة لذلك، على الرغم من الأداء القوي لهذه النماذج في مهام الاستدلال أو الاستعلامات المنظمة، إلا أن إجاباتها قد تتضمن معلومات مُختلقة أو عتيقة، مما يقلل من فعاليتها في الاستخدامات الواقعية.

الحاجة إلى البحث الديناميكي في نماذج اللغات الكبيرة

لضمان المصداقية، خاصةً في التطبيقات التي تتطلب معلومات مُحدثة مثل الأخبار، والأبحاث، أو مراجعات المنتجات، يجب أن تتفاعل النماذج مع مصادر بيانات خارجية بطريقة سريعة وفعالة من حيث التكلفة. تكمن المشكلة الأساسية في تعليم هذه النماذج كيفية استرجاع المعلومات الخارجية ودمجها بشكل فعال. في حين أن التدريب المُحسّن يُساعد في بناء فهم أساسي قوي، إلا أن القدرة على إجراء عمليات بحث مُعنى وديناميكية مفقودة.

يُطرح تحدي كبير عند تزويد نماذج اللغات بهذه القدرة، حيث تُفرض قيود عملية. فمحركات البحث المستخدمة لاسترجاع المعلومات الخارجية تقدم جودة مُتفاوتة للوثائق، مما يُؤدي إلى عدم اتساق في تدريب النموذج. علاوة على ذلك، يتطلب دمج التعلم المعزز لمحاكاة البحث في العالم الحقيقي تفاعلات واسعة النطاق مع واجهات برمجة التطبيقات (APIs) الحية، مما يؤدي إلى استهلاك مئات الآلاف من الطلبات، وهو أمر مكلف للغاية. يُشكل هذا عقبة أمام البحث الأكاديمي والانتشار التجاري، حيث تُعد التكلفة وقابلية التدريب للتوسع من العوامل الحاسمة.

الحلول السابقة وتحدياتها

طُورت العديد من الأساليب لتعزيز قدرات البحث والاسترجاع في نماذج اللغات. اعتمدت بعض التقنيات المبكرة على تعليمات تعتمد على المطالبات (prompts) التي توجه النموذج خلال عمليات مثل إنشاء استعلامات فرعية أو إدارة عمليات بحث متعددة الخطوات. ومع ذلك، اعتمدت هذه الأساليب بشكل كبير على الضبط اليدوي، وغالبًا ما تتطلب موارد حسابية ضخمة لضمان اتساق المخرجات.

اتبعت نهجًا أخرى عملية ضبط دقيقة مُشرف عليها لأنماط أصغر لأداء استرجاع أكثر استهدافًا، مع ظهور نماذج مثل Self-RAG و RetroLLM في هذا المجال. كانت هناك أيضًا تجارب مع تقنيات مثل بحث شجرة مونت كارلو (Monte Carlo Tree Search) لتوسيع مسارات الإجابة المحتملة أثناء الاستنتاج ديناميكيًا. سمحت حلول تعتمد على التعلم المعزز مثل Search-R1 و DeepResearcher للنماذج بالتفاعل مباشرة مع محركات بحث حقيقية، مما يُوفر تجربة تدريب أقرب إلى سلوك المستخدمين. ومع ذلك، لا تزال هذه الابتكارات تعاني من التعقيد، أو الطلب الحسابي العالي، أو التكلفة المالية بسبب قيود التفاعل الحي.

ZeroSearch: حل مبتكر من مختبرات تونغي في مجموعة علي بابا

قدّم باحثون من مختبرات تونغي في مجموعة علي بابا حلًا مبتكرًا يُسمى ZeroSearch. يُزيل إطار عمل التعلم المعزز هذا الحاجة إلى البحث القائم على واجهات برمجة التطبيقات (APIs) الحية تمامًا. بدلاً من ذلك، يستخدم نموذج لغة آخر لمحاكاة سلوك محرك البحث. يتم ضبط نموذج المحاكاة بدقة من خلال التدريب المُشرف لإنشاء وثائق إما تُساعد أو تُضلّل نموذج السياسة، بناءً على ما إذا كان المحتوى مُصممًا ليكون ذا صلة أم ضوضاء. يسمح هذا بالتحكم الكامل في جودة الوثائق والتكلفة مع تمكين تجربة تدريب استرجاع واقعية.

مزايا ZeroSearch:

  • التعلم القائم على المناهج الدراسية: يُقدم ZeroSearch تعلمًا قائمًا على المناهج الدراسية، حيث يتم تقديم مهام الاسترجاع الأصعب تدريجيًا عن طريق ضبط كمية الضوضاء الموجودة في الوثائق المُولدة. يساعد هذا التقدم نموذج السياسة على تطوير المرونة وقدرات استدلال أفضل بمرور الوقت دون الحاجة لإجراء استعلام بحث حقيقي.
  • التفاعل المُهيكل: يتضمن هيكل ZeroSearch مراحل مُتميزة في عملية الاستدلال. يُفكر النموذج أولاً داخليًا باستخدام علامات مُخصصة، ثم يُنشئ استعلامات إذا قرر أن هناك حاجة إلى معلومات إضافية. وأخيرًا، يُخرج إجابة فقط عند الحصول على سياق كافٍ. يُعزز هذا النهج المُهيكل الوضوح في صنع القرار، وقد ثبت أنه يُحسّن الشفافية وجودة الإجابة.
  • التحكم الدقيق في جودة البيانات: يُمكن تغيير بسيط في المطالبات توجيه إنشاء وثائق لمحرك البحث المُحاكى، والذي يتحكم في ما إذا كانت الوثيقة تبدو مفيدة أو مُضللة.
  • مكافآت قائمة على معيار F1: يستخدم ZeroSearch تصميم مكافآت قائم على معيار F1 بدلاً من المطابقة الدقيقة، مما يُثبط النموذج من إنشاء إجابات طويلة بشكل مفرط فقط لزيادة تداخل الكلمات الرئيسية.
  • آلية إخفاء التدرجات: يستخدم ZeroSearch آلية إخفاء أثناء انتشار الخلفية لضمان حساب التدرجات فقط على مخرجات نموذج السياسة، مما يُثبّت التدريب دون التضحية بالأداء.

النتائج والخلاصة

أظهرت النتائج أن نموذجًا يحتوي على 3 مليارات معلمة تمكن من محاكاة عملية الاسترجاع بفعالية لأغراض التدريب دون أي تكلفة APIs. أصبح الأداء أكثر لفتًا مع النماذج الأكبر حجمًا. فقد حقق نموذج استرجاع يحتوي على 7 مليارات معلمة مستوى مُماثل لمحرك بحث جوجل من حيث جودة الاستجابة. حتى أن نموذجًا يحتوي على 14 مليار معلمة تجاوز معايير محرك بحث جوجل. أظهر ZeroSearch أيضًا مرونة، حيث يعمل بكفاءة عبر نماذج LLMs الأساسية ونماذج LLMs المُضبوطة تعليميًا ذات الأحجام المختلفة.

يُقدم ZeroSearch بديلاً واضحًا وفعالًا عن الاعتماد على محرك بحث في الوقت الحقيقي. يُزيل استخدام توليد الوثائق المُحاكاة الحاجة إلى واجهات برمجة التطبيقات (APIs) عالية التكلفة، ويتم التحكم في جودة مُدخلات التدريب بدقة. كما تعزز هذه الطريقة قدرة النموذج على الاستدلال من خلال إدخال ضوضاء وعدم يقين تدريجي، مما يُحاكي بشكل فعال كيفية فشل استرجاع البيانات في العالم الحقيقي أو يُضلّل. يتم تدريب نموذج السياسة على استخراج المعلومات الأكثر فائدة. تجعل هذه السمات من ZeroSearch حلاً قابلًا للتوسع وعمليًا للتطبيقات التجارية.

النقاط الرئيسية:

  • نموذج 3 مليارات معلمة حاكى استرجاع وثائق واقعية بفعالية بدون أي تكلفة APIs.
  • نموذج استرجاع 7 مليارات معلمة طابق أداء محرك بحث جوجل في اختبارات المقارنة المعيارية.
  • نموذج 14 مليار معلمة تجاوز أداء محركات البحث الحقيقية.
  • تم إجراء التعلم المعزز باستخدام نشر قائم على المناهج الدراسية أدخل الضوضاء تدريجيًا.
  • أنتج نموذج محاكاة LLMs وثائق ذات صلة ووثائق ضوضاء من خلال ضبط دقيق مُشرف خفيف.
  • حسّنت مراحل التفاعل المُهيكل (<فكر>، <ابحث>، <أجب>) وضوح ودقة النموذج.
  • مكافآت قائمة على F1 ثبطت استغلال المكافآت عن طريق معاقبة طول الإجابة غير ذات الصلة.
  • متوافق مع خوارزميات التعلم المعزز الرئيسية بما في ذلك PPO، GRPO، و Reinforce++.
  • تم تثبيت التدريب باستخدام آلية إخفاء التدرجات لمنع عدم الاستقرار من الرموز المُحاكاة.

المصدر: MarkTechPost