DeepSWE: وكيل ترميز مفتوح المصدر مدرب بتقنية التعلم المعزز يحقق نتائج مذهلة
أعلنت شركة Together AI عن إطلاق DeepSWE، وهو وكيل هندسة برمجيات متطور ومفتوح المصدر بالكامل، تم تدريبه باستخدام تقنية التعلم المعزز (Reinforcement Learning – RL). ويعتمد DeepSWE على نموذج اللغة الضخم Qwen3-32B، وقد حقق دقة بلغت 59% على معيار SWEBench-Verified، و 42.2% في اختبار Pass@1، متفوقًا بذلك على جميع النماذج المفتوحة المصدر الأخرى. يمثل هذا الإطلاق تحولًا هامًا لشركة Together AI، من خطوط أنابيب التدريب التقليدية إلى إنشاء وكلاء لغة ذاتية التعلم، والتي تتعلم وتتحسن باستمرار من خلال التغذية الراجعة من العالم الحقيقي.
التعلم المعزز يلتقي بجيل الأكواد
يُعد DeepSWE نتيجة لتدريب نموذج Qwen3-32B الأساسي باستخدام إطار عمل التعلم المعزز rLLM من Agentica، وهو إطار مُصمم خصيصًا لوكلاء اللغة. وعلى عكس أساليب الضبط الدقيق المُشرف عليها التقليدية، يُمكّن rLLM الوكلاء من التكيف مع سير العمل في العالم الحقيقي من خلال الخبرة. تم تدريب DeepSWE خصيصًا لحل مهام هندسة البرمجيات المعقدة باستخدام حلقة تغذية راجعة، بدلاً من مجموعات البيانات الثابتة. تُدمج خط أنابيب التدريب مجموعة بيانات R2EGym من Agentica، وهي معيار هندسة برمجيات مُصمم لتطوير وكلاء نمط RL. يركز هذا الإطار على تدريب نماذج اللغة بأهداف موجهة نحو الإجراءات، مثل إصلاح الأخطاء، وإكمال الوظائف، وتحرير التعليمات البرمجية، بدلاً من مجرد التنبؤ بتوزيعات الرموز التالية. هذا يُقرب DeepSWE أكثر من طريقة عمل المهندسين البشريين الذين يتعلمون من النتائج.
معايير الأداء والقدرات
على معيار SWEBench-Verified، وهو المعيار الأكثر صرامة لوكلاء هندسة البرمجيات، سجل DeepSWE 59% مع قياس وقت الاختبار. يتفوق هذا الأداء بشكل كبير على نماذج الوزن المفتوح السابقة. في تقييمات Pass@1 – التي تقيس احتمالية حل الوكيل للمشكلة بشكل صحيح في المحاولة الأولى – وصل DeepSWE إلى نسبة رائعة تبلغ 42.2%. تُبرز هذه النتائج قوة التدريب القائم على RL في تعزيز السلوك الوكالي، خاصة في المجالات التي تتطلب التفكير التكراري والمخرجات الدقيقة، مثل توليد التعليمات البرمجية. تُمكّن بنية النموذج، المُستمدة من Qwen3-32B، من التوسع بكفاءة مع الحفاظ على ملاءمته للتطبيقات الواقعية.
المصدر المفتوح وإمكانية التكرار جوهر العملية
من أبرز ميزات هذا الإصدار شفافيته الكاملة. قامت Together AI و Agentica بجعل DeepSWE مفتوح المصدر بالكامل، بالإضافة إلى وصفة التدريب الكاملة، بما في ذلك إطار عمل rLLM، ومجموعة بيانات R2EGym، ونصوص تكوين التدريب. هذا يُعزز إمكانية التكرار ويدعو مجتمعات البحث والمطورين الأوسع نطاقًا إلى توسيع DeepSWE أو البناء عليه دون قيود.
يمكن للمطورين الوصول إلى DeepSWE و rLLM من خلال:
- أوزان النموذج: Hugging Face – DeepSWE
- إطار عمل التدريب: مستودع GitHub لـ rLLM
- وثائق التدريب: نظرة عامة على تدريب DeepSWE
من المُفكرين اللغويين إلى وكلاء اللغة
يمثل DeepSWE تحولًا فلسفيًا وعمليًا: من بناء نماذج تُفكر في اللغة إلى بناء وكلاء يتعلمون من خلال التفاعل. أظهرت نماذج اللغة الكبيرة التقليدية قدرات استدلالية قوية، لكنها غالبًا ما تفتقر إلى القدرة على التكيف مع التغذية الراجعة أو التحسن مع الاستخدام. يُمكّن التعلم المعزز هذه النماذج ليس فقط من الأداء الجيد عند الإطلاق، بل من التحسن بمرور الوقت، والتكيف مع توزيعات المشكلات والمجالات الجديدة. يفتح هذا النهج أيضًا الباب للنشر المحلي. نظرًا لأن DeepSWE مفتوح المصدر بالكامل وقابل للتركيب، فيمكن توسيعه وإعادة تدريبه لاستخدامات محددة لكل منظمة. يمكن للمطورين والباحثين بناء وكلاءهم الخاصين على DeepSWE باستخدام rLLM لخدمة مجالات متنوعة مثل تصفح الويب، والروبوتات، أو المساعدة البحثية الذاتية.
الخلاصة
يُعد DeepSWE علامة فارقة في تطور الذكاء الاصطناعي التوليدي لهندسة البرمجيات. من خلال تطبيق التعلم المعزز على نماذج اللغة الكبيرة مثل Qwen3-32B وإصدار البنية التحتية الكاملة للتدريب، تُمكّن Together AI مستقبلاً لا تقتصر فيه الوكلاء على التدريب المسبق والنشر، بل يتم تدريبهم وتحسينهم باستمرار. لهذه القفزة من فهم اللغة إلى الوكالة الموجهة نحو الإجراءات آثار كبيرة عبر البرمجة، والأتمتة، وتصميم الأنظمة الذكية.
جميع الحقوق محفوظة للباحثين الذين ساهموا في هذا البحث.
اترك تعليقاً