إطار عمل G-ACT: توجيه تحيز لغات البرمجة في نماذج اللغات الكبيرة
تُظهر نماذج اللغات الكبيرة (LLMs) تقدماً مذهلاً في معالجة اللغة الطبيعية، مما يُمكّن تطوير أنظمة قادرة على إدارة سير العمل المعقدة. ومع ذلك، لا يزال استخدام هذه النماذج في توليد الشيفرات العلمية مجالاً غير مستكشف بشكل كافٍ. يعتمد البرمجيات العلمية بشكل أساسي على لغات برمجة منخفضة المستوى مثل C++ و CUDA، والتي تُمثّل بنسبة ضئيلة في معظم مجموعات البيانات المستخدمة في تدريب هذه النماذج. نتيجة لذلك، قد تحتوي الشيفرات التي تُولّدها نماذج اللغات الكبيرة على أخطاء نحوية أو دلالية، مما يؤدي إلى مشاكل في عملية التجميع أو سلوك غير مستقر أثناء التشغيل.
تحديات أساليب التوجيه الحالية
تعتمد الأساليب الحالية لتوجيه نماذج اللغات الكبيرة بشكل كبير على بدائيات التحكم التي يحددها المستخدم، بالإضافة إلى مطالبات مُصممة بعناية، والتي قد تُفسر بشكل خاطئ، مما يؤدي إلى تدفقات تنفيذ غير متوقعة. كما أن النهج الحديثة التي تهدف إلى معالجة تحديات توجيه نماذج اللغات الكبيرة، مثل تقنيات تعديل الوزن، وتعلم التعزيز من خلال التغذية المرتدة البشرية (RLHF)، تُعاني من تكلفة حسابية عالية، وقد تُقلل من متانة النموذج وأدائه العام. وبالرغم من اعتماد تقنية تصحيح التنشيط على نطاق واسع للتحكم الدقيق في المخرجات، إلا أنها تتطلب عمليات مسح واسعة النطاق للنموذج، تتضمن ملايين التقييمات، وتُستخدم بشكل رئيسي في معايير الاختبارات متعددة الخيارات، وليس في سيناريوهات النشر في العالم الحقيقي.
إطار عمل G-ACT: حل مبتكر
للتغلب على هذه التحديات، اقترح باحثون من جامعة ميشيغان إطار عمل G-ACT (إطار عمل التوجيه التكيفي المُحسّن بالتدرج)، وهو إطار عمل مُبتكر يهدف إلى توجيه توليد الشيفرات العلمية نحو لغات برمجة محددة في نماذج اللغات الكبيرة. يعتمد هذا الإطار على تحليل خمسة نماذج لغات كبيرة مُدرّبة على تعليمات، حيث يقوم بتجميع اختلافات التنشيط لكل مطالبة في اتجاهات توجيه، ويستخدم مُستشعرات خفيفة الوزن لكل طبقة، يتم تدريبها وتنقيتها عبر الإنترنت لاختيار متجهات التوجيه المناسبة. يُوفر هذا الإطار تحكماً على مستوى المفاهيم مع ضمان قابلية التوسعة والقابليّة على التفسير، مما يُقدّم طريقة عملية لتحقيق سلوك قابل للتكرار في الأنظمة التي تتطلب خيارات لغة برمجة ثابتة لمهام الحوسبة العلمية.
تقييم النموذج والتحيزات الأساسية
قام الباحثون بتقييم خمسة نماذج لغات كبيرة مُدرّبة على تعليمات، بما في ذلك Llama-3.2-3B-Instruct، Llama-3.3-70B-Instruct، Qwen2.5-Coder-32B-Instruct، Qwen2.5-14B-Instruct-1M، و QwQ-32B. تم اختبار كل نموذج على 84 سؤالاً معيارياً مع 25 تكراراً لكل مطالبة عند درجة حرارة أخذ العينات 1.0 لضمان الاستقرار الإحصائي. أظهرت النتائج تفضيلات لغات مُختلفة، حيث أظهرت Llama-3.2-3B تفضيلاً قوياً لـ Java (76.2%)، بينما فضّلت Llama-3.3-70B لغة Python (73.8%). أظهرت نماذج Qwen تحيزات مُختلفة، حيث فضّلت Qwen2.5-Coder لغة Python (59.5%) وفضّلت Qwen2.5-14B لغة Julia (66.7%). تُظهر هذه القياسات الأساسية أن حجم النموذج، والتصميم المعماري، وبيانات الضبط الدقيق مجتمعة تُخلق تحيزات قابلة للتكرار.
تنشيط الخلايا العصبية الثابتة وتحيز لغة البرمجة
يتضمن تحليل الطريقة الثابتة تحريض تحيز تفضيل اللغة واختبار توليد الشفرة. أظهرت نتائج تحيز التفضيل أن التنشيط الانتقائي للخلايا العصبية الفردية في اختبارات الأساس مع Llama-3.2-3B-Instruct يحقق تحكماً سببيّاً قوياً في اختيار لغة البرمجة. عند استهداف توليد شفرة C++، أظهرت النتائج إنتاج شفرة C++ بنسبة تقارب 100% في معظم المشاكل، مما يلغي فعلياً مخرجات Python و Java و Julia. علاوة على ذلك، كشف اختبار توليد الشفرة عن نظامين سلوكيين متميزين: تُظهر المهام التي تميل إلى Python مخرجات Python بنسبة 40-80% للعمليات عالية المستوى، بينما تُظهر المهام التي تهيمن عليها C++ تفضيلاً لـ C++ بنسبة 60-90% للروتينات الحرجة من حيث الأداء.
توجيه التنشيط المُحسّن بالتدرج
يُقدم الباحثون في هذه الورقة توجيه تنشيط تكيفي مُحسّن بالتدرج للتحكم في اختيار لغة البرمجة في توليد الشيفرات العلمية. يحقق هذا الإطار تحسينات كبيرة، حيث يزيد دقة تصنيف المُستشعرات من 0% إلى 61.5% في الطبقات المبكرة من LLaMA-3.2 3B. وعلى الرغم من التكلفة الزمنية المتواضعة (أبطأ بنسبة 1.3-1.4 مرة)، إلا أن الإطار يبقى عملياً من خلال توجيه الطبقات الانتقائي وتحسينات التخزين المؤقت. يُوفر G-ACT نهجاً قابلاً للتوسعة وقابلاً للتفسير للتحكم على مستوى المفاهيم، يتجاوز لغات البرمجة من خلال تضمين مصفوفات تحويل دائمة. هذا يضمن سلوكاً ثابتاً للنموذج عبر المستخدمين، ويُقدم معياراً جديداً لتوجيه موثوق لنماذج اللغات الكبيرة في سياقات الحوسبة العلمية.
[الورقة البحثية](رابط الورقة البحثية)
اترك تعليقاً