إتقان وكلاء نماذج اللغات الكبيرة تلقائيًا باستخدام MCP-RL و ART
يُمثّل تمكين نماذج اللغات الكبيرة (LLMs) من التفاعل بسلاسة مع بيئات العالم الحقيقي الديناميكية تحديًا جديدًا في هندسة الذكاء الاصطناعي. يوفر بروتوكول سياق النموذج (MCP) بوابة موحدة تتيح لـ LLMs التواصل مع أنظمة خارجية عشوائية -واجهات برمجة التطبيقات، وأنظمة الملفات، وقواعد البيانات، والتطبيقات، أو الأدوات- دون الحاجة إلى كتابة أكواد ربط مخصصة أو استخدام أساليب توجيه هشة في كل مرة. ومع ذلك، لا يزال الاستفادة من هذه الأدوات بطريقة برمجية، مع استخدام المنطق القوي في المهام متعددة الخطوات، يمثل تحديًا كبيرًا. هنا يأتي دور الجمع بين MCP-RL (حلقة التعلم المعزز التي تستهدف خوادم MCP) ومكتبة ART (مدرب التعزيز للوكلاء) مفتوحة المصدر، ليقدما نقلة نوعية: حيث يمكنك الآن امتلاك وكيل يستكشف، ويتخصص، ويحسّن نفسه ذاتيًا لأي خدمة MCP بحد أدنى من التصميم البشري، ودون بيانات مُعلّمة، مع موثوقية متقدمة. يستعرض هذا المقال الآليات الدقيقة، ومسارات التنفيذ، والتعقيدات التقنية -حتى مستوى الكود- لهذا النظام.
ما هو MCP-RL؟
MCP-RL هو بروتوكول تدريب مُعزز مصمم للسماح لأي وكيل LLM بالتعلم، من خلال التعلم المعزز (RL)، لتشغيل مجموعة الأدوات التي تعرضها خادم MCP. يُعد MCP-RL جزءًا من مشروع Agent Reinforcement Trainer (ART). بإعطاء عنوان URL للخادم فقط:
- يستكشف الوكيل الخادم، ويكتشف تلقائيًا الأدوات المتاحة (الدوال، واجهات برمجة التطبيقات، نقاط النهاية) مع مخططاتها.
- يتم تصميم مهام اصطناعية بشكل آني ليشمل تطبيقات الأدوات المتنوعة.
- نظام التسجيل النسبي (RULER) يقيس أداء الوكيل، حتى بدون بيانات ذهبية مُعلّمة، على كل مسار.
- يتم ضبط الوكيل بشكل متكرر لتحقيق أقصى قدر من نجاح المهمة.
هذا يعني أن LLM يمكنه اكتساب الكفاءة على أي خادم مدعوم بالأدوات المُطابقة -واجهات برمجة تطبيقات للطقس، وقواعد بيانات، وبحث الملفات، وإصدار التذاكر، إلخ- فقط من خلال توجيه MCP-RL إلى نقطة النهاية الصحيحة.
ART: مدرب التعزيز للوكلاء
يوفر ART (Agent Reinforcement Trainer) خط أنابيب RL المُنسق الأساسي لـ MCP-RL، ويدعم معظم النماذج المتوافقة مع vLLM/HuggingFace (مثل Qwen2.5، Qwen3، Llama، Kimi) وبيئة الحوسبة المُوزعة أو المحلية. تم تصميم ART مع:
- فصل العميل/الخادم: يتم فصل الاستنتاج وتدريب RL؛ يمكن تشغيل الوكلاء من أي عميل بينما يتم نقل التدريب تلقائيًا.
- التكامل الجاهز للاستخدام: تدخل ضئيل في قواعد البيانات الحالية؛ ما عليك سوى ربط عميل ART بحلقة تمرير الرسائل الخاصة بالوكيل.
- خوارزمية GRPO: نهج مُحسّن لضبط RL الدقيق من أجل الاستقرار وكفاءة التعلم، مع الاستفادة من LoRA و vLLM للنشر القابل للتطوير.
- لا حاجة لبيانات مُعلّمة: تحل السيناريوهات الاصطناعية ونظام المكافآت النسبية (RULER) محل مجموعات البيانات المصممة يدويًا.
شرح عملية استخدام MCP-RL مع الأمثلة البرمجية
يُمكن تلخيص جوهر سير العمل في مقتطف الكود التالي من وثائق ART:
from art.rewards import ruler_score_group
# تحديد عنوان URL لخادم MCP (مثال: خدمة الطقس الوطنية)
MCP_SERVER_URL = "https://server.smithery.ai/@smithery-ai/national-weather-service/mcp"
# توليد دفعة من السيناريوهات الاصطناعية التي تغطي أدوات الخادم
scenarios = await generate_scenarios(num_scenarios=24, server_url=MCP_SERVER_URL)
# تشغيل عمليات نشر الوكيل بالتوازي، وجمع مسارات الاستجابة
# كل مسار = (رسائل النظام، المستخدم، المساعد...)
# تعيين المكافآت لكل مجموعة باستخدام التسجيل النسبي لـ RULER
scored_groups = []
for group in groups:
judged_group = await ruler_score_group(group)
scored_groups.append(judged_group)
# إرسال المسارات المجمعة لضبط RL الدقيق (GRPO)
await model.train(scored_groups)
شرح الخطوات:
- توليد السيناريوهات: لا حاجة لمهام مُصممة يدويًا.
generate_scenariosيقوم بتصميم تلقائي لمطالبات/مهام متنوعة بناءً على الأدوات المكتشفة من خادم MCP. - تنفيذ النشر: يقوم الوكيل بالتشغيل، ويستدعي مكالمات الأدوات عبر MCP، ويحصل على مسارات لاستخدام الأدوات وإخراجها خطوة بخطوة.
- تسجيل RULER: بدلاً من مكافأة ثابتة، يستخدم RULER التقييم النسبي داخل كل دفعة لقياس المكافآت تلقائيًا، ويتعامل بشكل قوي مع الصعوبة المتغيرة وجدّة المهمة.
- حلقة التدريب: يتم إرسال دفعات من المسارات والمكافآت إلى خادم ART، حيث يتم إعادة تدريب مُهايئات LoRA تدريجيًا باستخدام خوارزمية التدرج السيّاسي GRPO. تتكرر الحلقة – مما يجعل الوكيل أكثر كفاءة في دمج أدوات الخادم لحل المهام الاصطناعية.
التكامل العملي
- التثبيت:
pip install openpipe-art - المرونة: يعمل ART مع الحوسبة المحلية أو السحابية، عبر vLLM أو الخلفيات المتوافقة.
- أدوات التصحيح: مُتكاملة مع W&B، Langfuse، OpenPipe للمراقبة.
- إمكانية التخصيص: يمكن للمستخدمين المتقدمين ضبط توليد السيناريوهات، وتشكيل المكافآت، وأحجام الدفعات، وتكوينات LoRA.
الخلاصة
يُسهّل الجمع بين MCP-RL و ART سنوات من تصميم أتمتة RL، مما يسمح لك بتحويل أي LLM إلى وكيل يستخدم الأدوات، ويُحسّن نفسه ذاتيًا، بغض النظر عن المجال ودون بيانات تدريب مُعلّمة. سواء كانت بيئتك واجهات برمجة تطبيقات عامة أو خوادم مؤسسية مُخصصة، يتعلم الوكيل أثناء العمل ويحقق أداءً قابلاً للتطوير وقويًا. للمزيد من التفاصيل، ودفاتر الملاحظات العملية، والمعايير المحدثة، تفضل بزيارة مستودع ART.




اترك تعليقاً