نموذج Nemotron-Tool-N1: تعزيز قدرات نماذج اللغات الكبيرة على استخدام الأدوات عبر التعلم المعزز

أصبح تزويد نماذج اللغات الكبيرة (LLMs) بأدوات أو وظائف خارجية نهجًا شائعًا، وقد أظهر نتائج ممتازة في مجالات متنوعة. إلا أن الأبحاث السابقة اعتمدت بشكل كبير على توليد كميات ضخمة من بيانات استخدام الأدوات عبر نماذج لغوية متقدمة وتقنيات التدريب الدقيق (SFT) لتحسين قدرة نماذج اللغات الكبيرة على استدعاء الأدوات. لكن هذا النهج يعاني من قصور رئيسي يتمثل في عدم قدرة مجموعات البيانات الاصطناعية على التقاط خطوات التفكير الصريحة، مما يؤدي إلى تدريب سطحي على استدعاء الأدوات.

قيود الأساليب التقليدية: التفكير السطحي مقابل التفكير العميق

في كثير من الحالات، يتم إما حذف التفكير تمامًا أثناء التدريب أو تأجيله إلى مرحلة الاستنتاج من خلال تقنيات المطالبات. هذا يؤدي إلى ما يمكن اعتباره “تفكيراً زائفاً”: حيث تحاكي النماذج فقط الأنماط السطحية دون فهم حقيقي لعملية صنع القرار الكامنة.

نهجان رئيسيان لتحسين استخدام الأدوات في نماذج اللغات الكبيرة:

ركزت الأساليب السابقة على استراتيجيتين رئيسيتين لتحسين تعلم استخدام الأدوات:

  1. تحسين جودة البيانات وصقل النموذج: ركز هذا النهج على إنشاء مجموعات بيانات مُشرفة واسعة النطاق، وتطبيق تقنيات تدريب متقدمة مثل SFT وتقنيات التعلم المعزز القائمة على توزيع الجوائز (DPO). تم دمج نماذج اللغات الكبيرة مع أدوات خارجية متنوعة، بما في ذلك محركات البحث، والآلات الحاسبة، وأدوات الرؤية، ومفسرات بايثون، لتوسيع قدراتها الوظيفية.

  2. تحسين عملية التفكير: انتقل هذا النهج من تقنيات التدريب التقليدية إلى استراتيجيات أكثر تعقيدًا في مرحلة الاختبار. اعتمدت الأساليب السابقة على الإشراف على مستوى الخطوات، وتعلم نماذج المكافآت لتوجيه مسارات التفكير.

Nemotron-Tool-N1: ثورة في استخدام الأدوات عبر التعلم المعزز

اقترح باحثون من NVIDIA وجامعة ولاية بنسلفانيا وجامعة واشنطن سلسلة Nemotron-Research-Tool-N1 لمعالجة قيود أساليب استخدام الأدوات الحالية. يختلف هذا النهج عن تقنيات SFT التقليدية وتقنيات استخلاص مسارات التفكير من خلال تطبيق نموذج فريد للتعلم المعزز (RL).

مستوحاة من نجاح نموذج DeepSeek-R1، تم تطوير طريقة إشراف خفيفة الوزن تركز على صحة البنية وسلامة الوظيفة في استدعاءات الأدوات. يستخدم نموذج Nemotron-Research-Tool-N1 آلية مكافآت ثنائية (صواب/خطأ) تمكن النموذج من تطوير استراتيجيات تفكير ذاتيًا دون الاعتماد على مسارات تفكير مُعلّمة بشكل صريح.

مجموعة البيانات والهيكل:

قام الباحثون بدمج ومعالجة البيانات من مجموعات بيانات استدعاء الأدوات الحالية، مثل xLAM، ومجموعة فرعية من ToolACE، والتي توفر مسارات اصطناعية لاستدعاء الأدوات أحادية الدورة ومتعددة الدورات. تم إنشاء قالب مطالبة خفيف الوزن لتوجيه إنشاء استدعاءات الأدوات، مع تعليمات صريحة للتفكير الوسيط ضمن علامات <think>…</think>، واستدعاء الأدوات محاط بعلامات <tool_call>…</tool_call>. يساعد هذا القالب على تقليل القيود الصارمة للتنسيق وتقليل خطر الإفراط في التكيّف مع أنماط المطالبات المحددة.

النموذج الأساسي والتقييم:

النموذج الأساسي المستخدم هو Qwen2.5-7B/14B-Instruct، وللتقييم قدرة الطريقة المقترحة على التعميم، تم إجراء تقييمات على نماذج أساسية بديلة، بما في ذلك عدة متغيرات من عائلة LLaMA.

النتائج: تفوق Nemotron-Tool-N1

أظهرت النتائج على معايير BFCL و API-Bank تفوق نماذج Nemotron-Research-Tool-N1. على معيار BFCL، تفوقت نماذج Tool-N1-7B/14B على نماذج مغلقة المصدر مثل GPT-4o ونماذج مُدربة بدقة مثل xLAM-2-70B و ToolACE-8B. كما تجاوزت النماذج خطوط الأساس المدربة بتقنية SFT على نفس مصادر البيانات، مما يبرز فعالية نهج التعلم المعزز من نمط R1. كما أكد معيار API-Bank هذه النتائج، حيث حققت نماذج Tool-N1-7B/14B دقة أعلى بنسبة 4.12% و 5.03% من GPT-4o.

الخلاصة:

قدم الباحثون نموذج Nemotron-Research-Tool-N1، وهو تقدم كبير في قدرات استخدام الأدوات في نماذج اللغات الكبيرة. أظهر البحث تحولًا في المنظور من منهجيات SFT التقليدية من خلال تقديم نهج جديد للتعلم المعزز القائم على القواعد. تمكن هذه الطريقة النماذج من تطوير استراتيجيات تفكير متطورة دون الاعتماد على مسارات تفكير مُعلّمة بشكل صريح. أكدت تقييمات المعايير عبر BFCL و API-Bank باستمرار فعالية هذا النهج، مُظهرة تحسينات كبيرة في الأداء مقارنة بخطوط الأساس الحالية. تفتح هذه النتائج آفاقًا جديدة لتطوير نماذج لغوية أكثر تكيفًا وذكاءً قادرة على توليد استراتيجيات تفكير ذاتيًا. يمكنكم الاطلاع على الورقة البحثية وصفحة GitHub.

المصدر: MarkTechPost