إطلاق إطار عمل CUDA-L1: تعزيز أداء معالجات الرسوميات بنسبة تصل إلى 3 أضعاف بفضل تقنيات التعلم المعزز

أعلن فريق DeepReinforce عن إطار عمل جديد ثوري يُدعى CUDA-L1، والذي يُحقق تسريعًا متوسطًا يصل إلى 3.12 ضعفًا، وذروة تسريع تصل إلى 120 ضعفًا في 250 مهمة عملية حقيقية على معالجات الرسوميات. لا يقتصر الأمر على النتائج النظرية، بل يمكن إعادة إنتاج جميع النتائج باستخدام رمز مفتوح المصدر على أجهزة NVIDIA المستخدمة على نطاق واسع.

ثورة التعلم المعزز التبايني (Contrastive-RL)

يعتمد CUDA-L1 على نقلة نوعية في استراتيجيات تعلم الذكاء الاصطناعي: التعلم المعزز التبايني (Contrastive-RL). على عكس تقنيات التعلم المعزز التقليدية التي يقتصر دور الذكاء الاصطناعي فيها على توليد الحلول، وتلقي مكافآت رقمية، وتحديث معلمات النموذج بشكل أعمى، يُغذّي Contrastive-RL درجات الأداء والمتغيرات السابقة مباشرةً في مطالبات الجيل التالي. يتم تزويد الذكاء الاصطناعي بدرجات الأداء ومتغيرات التعليمات البرمجية في كل جولة تحسين. يجب على النموذج بعد ذلك كتابة “تحليل الأداء” بلغة طبيعية – مع التفكير في أيّ من التعليمات البرمجية كان الأسرع، ولماذا، وما هي الاستراتيجيات التي أدت إلى هذا التسريع. تُجبر كل خطوة على التفكير المعقد، وتوجه النموذج لتركيب ليس فقط متغير تعليمات برمجية جديد، بل نموذجًا ذهنيًا أكثر عمومية وقائمًا على البيانات لما يجعل تعليمات CUDA سريعة. والنتيجة؟ لا يكتشف الذكاء الاصطناعي مجرد تحسينات معروفة، بل أيضًا حيلًا غير بديهية غالبًا ما يتغافل عنها حتى الخبراء البشر – بما في ذلك اختصارات رياضية تتجاوز الحساب تمامًا، أو استراتيجيات ذاكرة مُضبوطة لتناسب مواصفات الأجهزة المحددة.

مراحل تدريب CUDA-L1:

  • المرحلة الأولى: يتم ضبط نموذج اللغة الكبير (LLM) باستخدام تعليمات CUDA مُعتمدة – تم جمعها من خلال أخذ عينات من نماذج أساسية رائدة (DeepSeek-R1، GPT-4o، Claude، إلخ)، ولكن مع الاحتفاظ فقط بالمخرجات الصحيحة والقابلة للتنفيذ.
  • المرحلة الثانية: يدخل النموذج حلقة تدريب ذاتي: يُنشئ الكثير من تعليمات CUDA، ويحتفظ فقط بتلك التي تعمل بشكل صحيح، ويستخدمها لمواصلة التعلم. النتيجة: تحسن سريع في صحة التعليمات البرمجية وتغطيتها – كل ذلك دون وسم يدوي.
  • المرحلة الثالثة: في مرحلة Contrastive-RL، يقوم النظام بأخذ عينات من متغيرات التعليمات البرمجية المتعددة، ويعرض كل منها بسرعته المُقاسة، ويتحدى الذكاء الاصطناعي في النقاش، والتحليل، وتجاوز الأجيال السابقة قبل إنتاج الجولة التالية من التحسينات. تُعد هذه الحلقة من التفكير والتحسين هي المحرك الرئيسي الذي يُحقق تسريعًا هائلًا.

مدى فعالية CUDA-L1: بيانات فعلية

تم استخدام KernelBench – معيار الذهب لقياس توليد تعليمات برمجيات GPU (250 مهمة PyTorch عملية في العالم الحقيقي) – لقياس CUDA-L1:

النموذج/المرحلة متوسط التسريع أقصى تسريع متوسط معدل النجاح
Llama-3.1-405B الأساسي 0.23× 3.14× 68/250
DeepSeek-R1 (مع ضبط RL) 1.41× 44.2× 248/250
CUDA-L1 (جميع المراحل) 3.12× 120× 249/250
  • متوسط تسريع 3.12×: وجد الذكاء الاصطناعي تحسينات في كل مهمة تقريبًا.
  • أقصى تسريع 120×: تم تحويل بعض الاختناقات الحسابية والتعليمات البرمجية غير الفعالة (مثل عمليات الضرب المصفوفية القطرية) باستخدام حلول متفوقة بشكل أساسي.
  • يعمل عبر الأجهزة: احتفظت التعليمات البرمجية المُحسّنة على معالجات NVIDIA A100 GPUs بمكاسب كبيرة عند نقلها إلى بنى أخرى (L40، H100، RTX 3090، H20)، مع متوسط تسريع من 2.37× إلى 3.12×، ومكاسب وسطية أعلى باستمرار من 1.1× عبر جميع الأجهزة.

دراسة حالة: اكتشاف تسريع خفي بنسبة 64× و 120×

  • ضرب المصفوفة مع مرجع قطري (غير فعال): torch.diag(A) @ B ينشئ مصفوفة قطرية كاملة، ويتطلب حسابًا/ذاكرة O(N²M).

  • CUDA-L1 مُحسّن: A.unsqueeze(1) * B يستفيد من البث، ويحقق تعقيدًا O(NM) فقط – مما يؤدي إلى تسريع 64×.

  • السبب: استنتج الذكاء الاصطناعي أن تخصيص قطري كامل غير ضروري؛ هذه الرؤية كانت بعيدة المنال عن طريق الطفرة بالقوة الغاشمة، ولكنها ظهرت من خلال التفكير المقارن عبر الحلول المُولدة.

  • التفاف ثلاثي الأبعاد مُعاكس (أسرع بـ 120×):

    • التعليمات البرمجية الأصلية: نفذت الالتفاف الكامل، والجمع، والتنشيط – حتى عندما تضمن المعلمات الرياضية أو المدخلات أن جميع القيم تساوي صفرًا.
    • التعليمات البرمجية المُحسّنة: استخدمت “الدائرة القصيرة الرياضية” – اكتشفت أنه بالنظر إلى min_value=0، يمكن تعيين المخرجات على الفور إلى الصفر، متجاوزةً جميع الحسابات وتخصيص الذاكرة. أدت هذه الرؤية وحدها إلى زيادة في السرعة تفوق بكثير تحسينات الأجهزة الدقيقة.

الأثر التجاري: أهمية CUDA-L1

  • للقادة التجاريين:

    • توفير التكاليف المباشرة: كل زيادة بنسبة 1% في سرعة معالجات الرسوميات تُترجم إلى انخفاض بنسبة 1% في ثواني استخدام معالجات الرسوميات السحابية، وانخفاض تكاليف الطاقة، وزيادة إنتاجية النماذج. هنا، حقق الذكاء الاصطناعي، في المتوسط، أكثر من 200% من الحساب الإضافي من نفس استثمار الأجهزة.
    • دورات منتجات أسرع: يقلل التحسين التلقائي من الحاجة إلى خبراء CUDA. يمكن للفِرق تحقيق مكاسب في الأداء في غضون ساعات، وليس أشهر، والتركيز على الميزات وسرعة البحث بدلاً من الضبط منخفض المستوى.
  • للممارسين في مجال الذكاء الاصطناعي:

    • مفتوح المصدر وقابل للتحقق: جميع نواة CUDA المُحسّنة البالغ عددها 250 متاحة كمصدر مفتوح. يمكنك اختبار زيادات السرعة بنفسك عبر معالجات A100، H100، L40، أو 3090 GPUs – لا حاجة للثقة العمياء.
    • لا حاجة لسحر CUDA: لا تعتمد العملية على تقنيات سرية، أو مُجمعات خاصة، أو ضبط يدوي.
  • لباحثي الذكاء الاصطناعي:

    • خطة تفكير المجال: يقدم Contrastive-RL نهجًا جديدًا لتدريب الذكاء الاصطناعي في المجالات التي تهم فيها الصحة والأداء – وليس فقط اللغة الطبيعية.
    • استغلال المكافآت: يتعمق المؤلفون في كيفية اكتشاف الذكاء الاصطناعي لاستغلالات دقيقة و”خدع” (مثل معالجة التدفق غير المتزامنة لتحقيق تسريع خاطئ) ويحددون إجراءات قوية لاكتشاف ومنع مثل هذا السلوك.

رؤى تقنية: لماذا يفوز Contrastive-RL؟

  • ملاحظات الأداء ضمن السياق: على عكس التعلم المعزز التقليدي، يمكن للذكاء الاصطناعي أن يتعلم ليس فقط من خلال التجربة والخطأ، بل من خلال النقد الذاتي المنطقي.
  • محرك تحسين ذاتي: تجعل حلقة التفكير النموذج مقاومًا لألعاب المكافآت، ويتفوق على كل من الأساليب التطورية (معلمات ثابتة، تعلم تبايني ضمن السياق) والتعلم المعزز التقليدي (تدرج السياسة الأعمى).
  • يعمم ويكتشف المبادئ الأساسية: يمكن للذكاء الاصطناعي دمج، وترتيب، وتطبيق استراتيجيات تحسين رئيسية مثل تجميع الذاكرة، وتكوين كتلة الخيوط، ودمج العمليات، وإعادة استخدام الذاكرة المشتركة، والاختزال على مستوى اللفائف، وتحويلات التكافؤ الرياضي.

تقنيات التحسين الرئيسية التي اكتشفها CUDA-L1:

تقنية التحسين متوسط التسريع مثال على الرؤية
تحسين تخطيط الذاكرة زيادات ثابتة ذاكرة/تخزين متجاورة لكفاءة ذاكرة التخزين المؤقت
الوصول إلى الذاكرة (التجميع، المشتركة) متوسط إلى مرتفع تجنب تعارضات البنوك، تعظيم عرض النطاق الترددي
دمج العمليات مرتفع مع عمليات خط أنابيب نواة عمليات متعددة مدمجة تقلل قراءات/كتابات الذاكرة
الدائرة القصيرة الرياضية مرتفع للغاية (10-100×) يكتشف متى يمكن تخطي الحساب بالكامل
تكوين كتلة الخيوط/التوازي متوسط يُكيّف أحجام/أشكال الكتل مع الأجهزة/المهام
اختزال على مستوى اللفائف/بدون فروع متوسط يقلل من التباعد وتكاليف المزامنة
تحسين سجلات/ذاكرة مشتركة متوسط إلى مرتفع يخزن البيانات المتكررة بالقرب من الحساب
التنفيذ غير المتزامن، مزامنة ضئيلة متفاوتة يغطي مدخلات/مخرجات، يُمكن عمليات خط أنابيب

الخلاصة: أصبح الذكاء الاصطناعي مهندس الأداء الخاص به

مع CUDA-L1، أصبح الذكاء الاصطناعي مهندس الأداء الخاص به، مما يُسرّع إنتاجية البحث وعوائد الأجهزة – دون الاعتماد على خبرة بشرية نادرة. النتيجة ليست مجرد معايير أعلى، بل مخطط لأنظمة ذكاء اصطناعي تُعلّم نفسها كيفية تسخير الإمكانات الكاملة للأجهزة التي تعمل عليها. يُنشئ الذكاء الاصطناعي الآن محركه الخاص: أكثر كفاءة، وأكثر ثاقبة، وأكثر قدرة على تعظيم الموارد التي نمنحها له – من أجل العلم، والصناعة، وما بعدها.

المصدر: MarkTechPost