ديفيوكودر: ثورة في توليد الشفرات البرمجية باستخدام نماذج اللغة الضخمة القائمة على الانتشار
أحدثت نماذج اللغة الضخمة (LLMs) ثورة في معالجة اللغات الطبيعية، محققة نتائج مبهرة في مهام متنوعة، بدءًا من الحوار ووصولاً إلى توليد الشفرات البرمجية. برزت نماذج الانتشار المُقنّعة (Masked Diffusion Models) كبديل، وقد تم توسيع نطاقها لتشمل نماذج لغة ضخمة قائمة على الانتشار مثل LLaDA و Dream. تعمل هذه النماذج على صقل التسلسل بأكمله بشكل متكرر وبالتوازي، مما يسمح بالتخطيط الشامل للمحتوى. يُعد نهج نماذج اللغة الضخمة القائمة على الانتشار مناسبًا لتوليد الشفرات البرمجية، لأن كتابة الشفرة غالبًا ما تتضمن عمليات تنقيح متكررة غير متسلسلة. ومع ذلك، لا يزال من غير الواضح كيف تؤدي نماذج الانتشار مفتوحة المصدر في مهام البرمجة. ذلك لأن جهود ما بعد التدريب الحالية تُظهر مكاسب هامشية أو تعتمد على فك التشفير شبه التلقائي، وهو ما ينحرف عن طبيعة التخطيط الشامل للانتشار.
تطور نماذج انتشار النص وتأثيرها على توليد الشفرات البرمجية
تشمل نماذج انتشار النص المبكرة نماذج الانتشار المُقنّعة، مع جهود توسيع نطاق حديثة أنتجت نماذج لغة ضخمة قائمة على الانتشار مثل DiffuLLaMA و LLaDA و Dream. يقترح انتشار الكتل نهجًا هجينًا يطبق الانتشار داخل كل كتلة. تجمع النماذج متعددة الوسائط مثل LaViDa و MMaDA و Dimple بين نماذج انتشار النص ونماذج الرؤية. في مجال توليد الشفرات البرمجية، كان CodeFusion أول من يجمع بين نماذج الانتشار وتوليد الشفرات البرمجية، ولكنه يقتصر على النماذج صغيرة الحجم والمهام البسيطة. تُظهر نماذج اللغة الضخمة القائمة على الانتشار على نطاق تجاري حديث مثل Mercury و Gemini أداءً مُقارباً لأفضل نماذج الشفرات التلقائية. ومع ذلك، تعتمد طرق التعزيز المعزز الحالية (RL) لنماذج اللغة الضخمة القائمة على الانتشار، مثل d1 و MMaDA باستخدام GRPO، على فك تشفير انتشار الكتل أثناء نشر النتائج والتقييم.
ديفيوكودر: نموذج انتشار مُتخصص من أبل وجامعة هونج كونج
اقترح باحثون من أبل وجامعة هونج كونج نموذج ديفيوكودر، وهو نموذج انتشار مُقنّع بحجم 7 مليارات معامل مُتخصص في توليد الشفرات البرمجية، وقد تم تدريبه على 130 مليار رمز فعال. مما يجعله أداة اختبار قيّمة لاستكشاف سلوك نماذج اللغة الضخمة القائمة على الانتشار وتطوير طرق ما بعد التدريب. قدم الباحثون مقاييس تلقائية محلية وعالمية لقياس مدى اقتراب عملية التوليد من النمط من اليسار إلى اليمين. يكشف التحليل أن نماذج اللغة الضخمة القائمة على الانتشار تُظهر تأثير “مصرف الانتروبيا”، مما يتسبب في تحيز سببي قوي أثناء التوليد الشرطي. يصبح ديفيوكودر أكثر مرونة في ترتيب توليد الرموز مع زيادة درجة الحرارة للعينات من 0.2 إلى 1.2، مما يُحرره من القيود الصارمة من اليسار إلى اليمين ويحقق دقة أعلى في pass@10.
خط أنابيب تدريب من أربع مراحل: الاستفادة من RefineCode و Coupled-GRPO
قام الباحثون بتكييف نموذجهم من Qwen-2.5-Coder كنماذج أساسية، وأجروا تدريبًا مُستمرًا مُسبقًا باستخدام مجموعة بيانات تدريب شفرة تتكون من 400 مليار رمز من RefineCode و Stackv2. يتكون التدريب من أربع مراحل:
- مرحلة التكييف المُسبق للتدريب: مع إيقاف مبكر بعد معالجة 65 مليار رمز.
- مرحلة التدريب المتوسطة: باستخدام 16 مليار رمز من بيانات شفرة التلدين.
- مرحلة ضبط التعليمات: باستخدام 436 ألف عينة من تدريب التعلم المُشرف القوي (SFT).
- مرحلة ما بعد التدريب: باستخدام Coupled-GRPO مع 21 ألف عينة صعبة من Acecoder-87K.
تم تدريب المرحلة الثانية لمدة 4 دورات، مما أدى إلى إجمالي 65 مليار رمز.
نتائج المقارنة المعيارية: أداء ديفيوكودر ورؤى التحسين
حقق ديفيوكودر، المدرب على 130 مليار رمز شفرة، أداءً مُماثلًا لـ Qwen2.5-Coder و OpenCoder. ومع ذلك، تُظهر جميع نماذج اللغة الضخمة القائمة على الانتشار تحسنًا هامشيًا فقط على نماذجها الأساسية بعد ضبط التعليمات، مقارنةً بـ Qwen2.5-Coder+SFT، الذي يحقق تحسينات كبيرة من ضبط التعليمات على نفس البيانات. علاوة على ذلك، يُظهر تدريب Coupled-GRPO فعالية قوية، بينما تميل المتغيرات الأساسية مثل d1، وإكمال القناع الكامل، والعينات المُنفصلة إلى إظهار سلوك تعليم مكافأة غير مستقر. يُزيد ضبط التعزيز المعزز من درجة حرارة أخذ العينات المثلى أثناء التقييم من 0.2 إلى قيم أعلى، مما يشير إلى أن التدريب يُحسّن توزيع كل رمز. هذا يقلل من اعتماد النموذج على فك التشفير التلقائي الصارم ويعزز قدرته على توليد الرموز بالتوازي.
Coupled-GRPO ومستقبل نماذج الشفرات القائمة على الانتشار
في هذه الورقة البحثية، يقدم الباحثون ديفيوكودر، وهو نموذج انتشار مفتوح المصدر بحجم 7 مليارات معامل لتوليد الشفرات البرمجية، يتمتع بأداء قوي، بالإضافة إلى وصفة تدريبه الكاملة وتحليل مفصل لنماذج اللغة الضخمة القائمة على الانتشار لتوليد الشفرات البرمجية. كما يُقدمون Coupled-GRPO، وهي خوارزمية تعزيز معزز تحترم الطبيعة غير التلقائية لنماذج اللغة الضخمة القائمة على الانتشار من خلال تقنية أخذ عينات مُقترنة لتقدير الاحتمالية الأكثر دقة. يُحسّن Coupled-GRPO أداء ديفيوكودر، مما يُظهر فعالية طرق التعزيز المعزز المُتوافقة مع مبادئ الانتشار. يوفر هذا العمل للمجتمع نظرة أعمق في نماذج اللغة الضخمة القائمة على الانتشار، ويثبت أساسًا متينًا للأبحاث المستقبلية لتطبيقاتها في الاستنتاج المعقد والمهام التوليدية.





اترك تعليقاً