نماذج نيفيديا مفتوحة المصدر للتفكير في التعليمات البرمجية: ثورة في مجال البرمجة الذكية

أعلنت شركة NVIDIA مؤخراً عن إطلاق مجموعة نماذجها اللغوية الكبيرة مفتوحة المصدر للتفكير في التعليمات البرمجية (OCR)، وهي عبارة عن ثلاثة نماذج عالية الأداء مصممة خصيصاً لفهم التعليمات البرمجية وحل المشكلات المتعلقة بها. تتوفر هذه النماذج بثلاث أحجام: 32 مليار، 14 مليار، و 7 مليار وحدة معالجة، وكلها مرخصة بموجب ترخيص Apache 2.0.

تفوق أداء النماذج الجديدة

تتميز نماذج OCR بإنجازات ملحوظة في معايير الأداء، حيث تفوقت على نماذج OpenAI o3-Mini و o1 (منخفضة) في اختبار LiveCodeBench. يُعد LiveCodeBench مجموعة شاملة لتقييم مهام التفكير في التعليمات البرمجية، مثل تصحيح الأخطاء، وتوليد التعليمات البرمجية، وإكمال المنطق في بيئات تطوير حقيقية. وقد تصدر نموذج NVIDIA OCR (32 مليار وحدة معالجة) قائمة أفضل النماذج المفتوحة المصدر من حيث قدرته على التفكير.

ويرجع هذا التقدم الملحوظ في الأداء ليس فقط إلى بنية النموذج، بل أيضاً إلى مجموعة بيانات NVIDIA المخصصة “OCR dataset”، وهي مجموعة بيانات تدريب عالية الجودة وتركز على التعليمات البرمجية، مصممة خصيصاً لتعزيز اتباع التعليمات، والتفكير، وحل مشكلات التعليمات البرمجية متعددة الخطوات. ووفقاً لشركة NVIDIA، أدى ذلك إلى تحسين كفاءة الرموز بنسبة 30٪، مما يسمح للنماذج بإنتاج تعليمات برمجية دقيقة ومخرجات منطقية باستخدام عدد أقل من الرموز.

مجموعة من النماذج لتلبية كافة الاحتياجات

تتضمن مجموعة نماذج OCR الثلاثة ما يلي:

  • OpenCodeReasoning-Nemotron-32B: يقدم هذا النموذج نتائج متقدمة للأداء العالي والاستنتاجات البحثية.
  • OpenCodeReasoning-Nemotron-14B: يوفر هذا النموذج قدرات تفكير قوية مع تقليل متطلبات الحوسبة.
  • OpenCodeReasoning-Nemotron-7B: يُعد هذا النموذج مثالياً للبيئات ذات الموارد المحدودة مع الحفاظ على أداء تنافسي في معايير الأداء.

تم تدريب جميع النماذج باستخدام بنية Nemotron، وهي بنية تحويلية من NVIDIA مُحسّنة للتعلم متعدد اللغات والمهام. تتوفر أوزان النموذج وتكوينه على منصة Hugging Face:

  • [رابط نموذج 32 مليار وحدة معالجة](رابط افتراضي)
  • [رابط نموذج 14 مليار وحدة معالجة](رابط افتراضي)
  • [رابط نموذج 7 مليار وحدة معالجة](رابط افتراضي)
  • [رابط نموذج 32 مليار وحدة معالجة المُحسّن للتعليمات](رابط افتراضي)

توافق واسع مع أنظمة الاستنتاج المفتوحة

من المزايا الرئيسية لهذه النماذج توافقها المباشر مع أطر الاستنتاج الشائعة:

  • llama.cpp: للاستنتاج الخفيف على وحدة المعالجة المركزية/وحدة معالجة الرسومات.
  • vLLM: لخدمة مُحسّنة لوحدة معالجة الرسومات وفك التشفير التوقعي.
  • Transformers by Hugging Face: لخطوط أنابيب التدريب والتقييم.
  • TGI (Text Generation Inference): لنشر واجهة برمجة التطبيقات القابلة للتوسع.

تتيح هذه المرونة للمطورين والباحثين والشركات دمج هذه النماذج في البنية التحتية الحالية لذكاء التعليمات البرمجية بأقل قدر من الجهد.

خطوة إلى الأمام في مجال ذكاء التعليمات البرمجية المفتوحة المصدر

بإطلاق هذه النماذج، تساهم NVIDIA بشكل كبير في النظام البيئي المتنامي لنماذج التعليمات البرمجية المفتوحة المصدر. من خلال التركيز على التفكير في التعليمات البرمجية – وهو مجال كان يهيمن عليه تاريخياً النماذج الخاصة – وإصدارها بموجب ترخيص مفتوح ومرن بالكامل، تُمكّن NVIDIA مجتمع الذكاء الاصطناعي والمطورين على نطاق أوسع من بناء نماذج تفكير متقدمة وضبطها ونشرها في الإنتاج. تُضيف مجموعة نماذج OCR إلى محفظة NVIDIA المتنامية من نماذج اللغات الكبيرة المفتوحة المصدر، وتعزز موقفها من تطوير الذكاء الاصطناعي الشفاف والمتاح للجميع. سواء كنت تبني مساعدين للمطورين، أو وكلاء مراجعة تلقائية للتعليمات البرمجية، أو خدمات توليد التعليمات البرمجية، فإن هذه النماذج توفر بديلاً عالي الأداء، وفعال من حيث التكلفة، وصديق للمجتمع، للحلول المغلقة.

المصدر: MarkTechPost