إطار عمل CURE: تطوير متزامن للشيفرة واختبارات الوحدات في نماذج اللغات الكبيرة

يُقدّم هذا المقال شرحًا مفصلاً لإطار عمل CURE، وهو إطار عمل قائم على التعلم المعزز ذاتي الإشراف، مصمم لتطوير قدرات نماذج اللغات الكبيرة (LLMs) على توليد الشيفرة واختبارات الوحدات لها بشكل متزامن، ودون الحاجة إلى بيانات مُشرفة.

التحديات في توليد اختبارات الوحدات التقليدية

تعتمد أساليب توليد اختبارات الوحدات التقليدية على:

  • طرق تحليل البرمجيات القائمة على القواعد: هذه الطرق جامدة وغير مرنة، وقد لا تستطيع التعامل مع تعقيدات الشيفرة الحديثة.
  • تقنيات الترجمة الآلية العصبية: غالبًا ما تفتقر هذه التقنيات إلى المحاذاة الدلالية، مما يؤدي إلى توليد اختبارات غير دقيقة أو غير فعالة.

على الرغم من تحسين الأداء من خلال الأساليب الحديثة القائمة على المطالبات والوكلاء، إلا أنها لا تزال تعتمد بشكل كبير على الشيفرة المُشرفة لضبط النموذج الدقيق. هذا الاعتماد يُقيّد القدرة على التكيّف والتوسع، خاصة في سيناريوهات النشر واسعة النطاق في العالم الحقيقي.

CURE: نهج تطور مشترك ذاتي الإشراف

يُقدّم باحثون من جامعة شيكاغو وجامعة برينستون وجامعة بكين وبايت دانس، إطار عمل CURE، وهو إطار عمل قائم على التعلم المعزز ذاتي الإشراف، يقوم بتدريب مُولّد الشيفرة ومُولّد اختبارات الوحدات بشكل مُتزامن ودون الحاجة إلى أي بيانات شيفرة مُشرفة.

يعمل CURE باستخدام آلية اللعب الذاتي، حيث:

  1. يقوم نموذج اللغة الكبير بتوليد شيفرة صحيحة وأخرى خاطئة.
  2. يتعلم مُولّد اختبارات الوحدات التمييز بين أوضاع الفشل ويُحسّن نفسه وفقًا لذلك.

هذا التطور المشترك ثنائي الاتجاه يُحسّن كل من توليد الشيفرة والتحقق منها دون إشراف خارجي.

بنية CURE و منهجيتها

النماذج الأساسية واستراتيجية أخذ العينات

يعتمد CURE على نماذج Qwen2.5-7B و 14B Instruct، مع استخدام نموذج Qwen3-4B للنسخ الطويلة لسلسلة الأفكار (CoT). في كل خطوة تدريب، يتم أخذ عينات من:

  • 16 إكمالًا مُرشحًا للشيفرة.
  • 16 اختبار وحدة مُشتق من المهمة.

يتم أخذ العينات باستخدام vLLM مع درجة حرارة 1.0 و top-p 1.0. بالنسبة للنماذج الطويلة لسلسلة الأفكار، يُطبّق تحويل مُراعي لطول الاستجابة يُعاقب المخرجات الطويلة، مما يُحسّن كفاءة وقت الاستدلال.

دالة المكافأة والتحسين

يُقدّم CURE صياغة رياضية مُدروسة لدالة المكافأة:

  • تعظيم دقة المكافأة: تُعرّف بأنها احتمالية أن تحصل الشيفرة الصحيحة على درجة أعلى من الشيفرة الخاطئة عبر اختبارات الوحدات المُولّدة.
  • تطبيق تعديلات على المكافأة بناءً على الاستجابة: للردود الطويلة، وذلك لتقليل زمن الانتظار.

يُجري التحسين عبر طرق تدرج السياسات، ويُحدّث مُولّد الشيفرة ومُولّد اختبارات الوحدات بشكل مُتزامن لتحسين أدائهما المتبادل.

مجموعات البيانات القياسية و مقاييس الأداء

تم تقييم CURE على خمس مجموعات بيانات ترميز قياسية:

  • LiveBench
  • MBPP
  • LiveCodeBench
  • CodeContests
  • CodeForces

يتم قياس الأداء عبر:

  • دقة اختبارات الوحدات
  • دقة توليد الشيفرة بمحاولة واحدة
  • دقة أفضل من N (BoN) باستخدام 16 عينة من الشيفرة و الاختبارات.

مكاسب الأداء والكفاءة

حققت نماذج ReasonFlux-Coder المُشتقة عبر CURE:

  • زيادة بنسبة +37.8% في دقة اختبارات الوحدات.
  • زيادة بنسبة +5.3% في دقة توليد الشيفرة بمحاولة واحدة.
  • زيادة بنسبة +9.0% في دقة BoN.

ومن الجدير بالذكر أن ReasonFlux-Coder-4B حقق انخفاضًا بنسبة 64.8% في متوسط طول استجابة اختبار الوحدة، مما يُحسّن بشكل كبير سرعة الاستدلال. تتفوق هذه النماذج على النماذج المُدرّبة المُشرفة تقليديًا (مثل Qwen2.5-Coder-Instruct) في جميع المعايير.

التطبيق على نماذج اللغات الكبيرة التجارية

عند إقران ReasonFlux-Coder-4B بنماذج سلسلة GPT:

  • GPT-4o-mini يحقق زيادة بنسبة +5.5% في دقة BoN.
  • GPT-4.1-mini يحقق تحسينًا بنسبة +1.8%.

يتم تقليل تكاليف واجهة برمجة التطبيقات (API) مع تعزيز الأداء، مما يشير إلى حل فعال من حيث التكلفة لأنابيب الاستدلال على مستوى الإنتاج.

استخدام مُولّد اختبارات الوحدات كنموذج مكافأة للتدريب بدون بيانات مُشرفة

يمكن إعادة استخدام مُولّدات اختبارات الوحدات المُدرّبة بواسطة CURE كنماذج مكافأة في تدريب التعلم المعزز. يُعطي استخدام اختبارات الوحدات المُولّدة بواسطة ReasonFlux-Coder-4B تحسينات مُقارنة بالإشراف على اختبارات مُعلّمة يدويًا، مما يُمكّن خطوط أنابيب التعلم المعزز الخالية تمامًا من البيانات المُشرفة.

قابلية التطبيق الأوسع والاتجاهات المستقبلية

يتكامل ReasonFlux-Coder بسلاسة مع أطر عمل الترميز الوكيلية مثل:

  • MPSC (Multi-Perspective Self-Consistency)
  • AlphaCodium
  • S*

وتستفيد هذه الأنظمة من قدرة CURE على صقل كل من الشيفرة والاختبارات بشكل متكرر. كما يعزز CURE دقة توليد اختبارات الوحدات الوكيلية بأكثر من 25.1%، مما يعزز تنوعه.

الخاتمة

يمثل CURE تقدمًا كبيرًا في التعلم ذاتي الإشراف لتوليد الشيفرة والتحقق منها، مما يُمكّن نماذج اللغات الكبيرة من تطوير قدراتها على توليد الشيفرة واختبارات الوحدات لها بشكل مُتزامن دون الاعتماد على الشيفرة المُشرفة. من خلال الاستفادة من إطار عمل التعلم المعزز التطوري المُتزامن، لا يُحسّن CURE مقاييس الأداء الأساسية مثل الدقة بمحاولة واحدة واختيار أفضل من N فحسب، بل يُحسّن أيضًا كفاءة الاستدلال من خلال التحسين المُراعي لطول الاستجابة. تُعدّ توافقه مع خطوط أنابيب الترميز الوكيلية القائمة وقدرته على العمل كنموذج مكافأة خالٍ من البيانات المُشرفة حلاً قابلاً للتوسع وفعال من حيث التكلفة لكل من سيناريوهات التدريب والنشر.

المصدر: MarkTechPost