مُدلّ Mellum مفتوح المصدر: ثورة في برمجة الذكاء الاصطناعي

أعلنت شركة JetBrains مؤخراً عن إطلاقها لمُدلّ Mellum اللغوي مفتوح المصدر، وهو نموذج لغوي مُصمم خصيصاً لمهام تطوير البرمجيات، ويضم 4 مليارات معلمة. يُجسّد Mellum نهج JetBrains الهندسي المتميز، حيث تم تطويره من الصفر ليكون نموذجاً متخصصاً في مجال البرمجة، مُدرّباً للاستخدام العملي عبر مختلف قواعد البيانات وبيئات البرمجة. ويتم توفيره عبر منصة Hugging Face تحت ترخيص Apache 2.0، مما يُتيح للمجتمع البحثي ومطوري البرمجيات فرصة تجربة قدراته وتطويره.

نموذج مُركّز لفهم الشفرة البرمجية

على عكس نماذج اللغات الكبيرة العامة، يُصنّف Mellum من قبل JetBrains على أنه “نموذج مُركّز”، وهو مصطلح يُشير إلى النماذج ذات التخصص الضيق والعميق. تم تحسين Mellum خصيصاً لمهام تتعلق بالبرمجة، مثل إكمال الأكواد تلقائياً، وملء الفراغات، وفهم البنية الداخلية للشفرة المصدرية. يُساعد هذا التصميم المُركّز على تجنب العيوب التي قد تنشأ عن النماذج اللغوية الأوسع نطاقاً، مما يُمكّن النموذج من العمل بكفاءة عالية في بيئات تشبه بيئات التطوير المتكاملة (IDE). يدعم النموذج مجموعة واسعة من لغات البرمجة، بما في ذلك Java، Kotlin، Python، Go، PHP، C، C++، C#، JavaScript، TypeScript، CSS، HTML، Rust، و Ruby، مما يُلبي احتياجات فرق التطوير المُتعددة اللغات.

بنية النموذج وخط أنابيب التدريب

يتبع Mellum بنية مشابهة لـ LLaMA، وقد تم تدريبه من الصفر باستخدام أكثر من 4.2 تريليون رمز مُستمد من مصادر غنية بالشفرة البرمجية مثل The Stack، StarCoder، CommitPack، وويكيبيديا الإنجليزية. يحتوي على نافذة سياقية تتسع لـ 8000 رمز، وقد تم تدريبه باستخدام دقة مُختلطة bf16 عبر مجموعة عالية الإنتاجية تضم 256 وحدة معالجة رسوميات NVIDIA H200 مُتصلة عبر Infiniband. استغرقت عملية التدريب حوالي 20 يوماً، واستفادت من البنية التحتية الحديثة لتطوير النماذج القابلة للتوسع. تم تصميم البنية التحتية وإجراءات التدريب مع مراعاة إمكانية التكرار ومرونة النشر، مما يجعل Mellum قابلاً للاستخدام في إعدادات الاستدلال السحابية (مثل vLLM) وفي البيئات المحلية (مثل llama.cpp، Ollama).

قياس الأداء والتقييم

قامت JetBrains بتقييم Mellum عبر مجموعة من المعايير التي تعكس حالات استخدامه الرئيسية، وهي ملء الأكواد وإكمالها. أظهر أداء النموذج توافقاً قوياً مع أهداف التصميم:

  • RepoBench v1.1 (نافذة سياقية 8K):
    • Python EM: 27.97%
    • Java EM: 31.08%
  • SAFIM (ملء الفراغات مع مراعاة بناء الجملة): pass@1: 38.11%
  • HumanEval ملء الفراغات:
    • سطر واحد: 66.21%
    • أسطر متعددة: 38.52%
    • نطاق عشوائي: 29.70%

تعكس هذه النتائج تخصص Mellum في فهم الشفرة البرمجية المُنسّقة، خاصة في الحالات التي تتضمن شفرة جزئية أو مُقاطعة، وهي حالات شائعة في سير العمل الحقيقي لتطوير البرمجيات.

الأسباب وراء فتح المصدر

يعتمد قرار JetBrains بجعل Mellum مفتوح المصدر على عدة دوافع عملية:

  • الشفافية: يُمكّن التدقيق في كل من بيانات التدريب وقرارات التصميم المعماري.
  • إعادة الاستخدام: يدعم التكامل في بيئات التطوير المُخصصة والتجارب البحثية.
  • التعاون المجتمعي: يُسهّل المساهمة من مطورين خارجيين لتحسين سلوك النموذج.
  • القيمة التربوية: يُوفر للمُعلمين والطلاب مُنتجاً عملياً لفهم كيفية بناء وتطبيق نماذج اللغات الكبيرة المُتخصصة في مجال معين.

يتضمن الإصدار كل من النموذج الأساسي (Mellum-4b-base) ونسخة مُحسّنة للغة Python (Mellum-4b-sft-python).

الآثار المترتبة على أدوات المطورين

يُفتح توفر نموذج مُدمج وعالي الأداء مُحسّن للشفرة المصدرية فرصاً جديدة في مجال بيئات التطوير المتكاملة وما وراءها. تتوقع JetBrains أن يكون Mellum جزءاً من استراتيجية أوسع تشمل نماذج مُركّزة مُتعددة، كل منها مُحسّن لمهام برمجة مُحددة مثل إنشاء الاختلافات أو مُساعدة مراجعة الشفرة. يتوافق هذا النهج مع الحاجة المتزايدة لأدوات الذكاء الاصطناعي القابلة للنشر، والفعّالة من حيث التكلفة، والواعية بالسياق، والتي يمكنها تعزيز إنتاجية المُطورين دون إدخال نماذج عامة غير شفافة أو كبيرة الحجم.

الخاتمة

يمثّل Mellum تحولاً مُتعمّداً نحو نماذج لغات أصغر حجماً وأكثر تخصصاً، تُعطي الأولوية للفائدة والشفافية والكفاءة. بجعل النموذج متاحاً بشكل مفتوح، تُقدّم JetBrains أساساً عالي الجودة لبناء الجيل القادم من أدوات تطوير البرمجيات المُعززة بالذكاء الاصطناعي. تشير بنيته، ومنهجية تدريبه، وأداءه في المعايير إلى خطوة عملية إلى الأمام في مجال نماذج اللغات الكبيرة المُخصصة لهندسة البرمجيات. يتضمن الإصدار كل من النموذج الأساسي (Mellum-4b-base) ونسخة مُحسّنة للغة Python (Mellum-4b-sft-python).

المصدر: MarkTechPost