إطار عمل LlamaRL من ميتا: تعزيز تدريب نماذج اللغات الضخمة عبر التعلم المعزز بكفاءة عالية

يُعدّ التعلم المعزز أداةً قويةً لضبط نماذج اللغات الضخمة (LLMs) لتحسين أدائها وجعلها أكثر ذكاءً. فهذه النماذج قادرة بالفعل على تنفيذ مجموعة واسعة من المهام، بدءًا من تلخيص النصوص إلى توليد الأكواد البرمجية. لكنّ التعلم المعزز يُساعد على تحسين خرج هذه النماذج بناءً على تعليقات مُهيكلة. ومع تزايد الطلب على نماذج لا تقتصر دقتها على كونها دقيقة فحسب، بل تتوافق أيضًا مع تفضيلات أو قواعد معقدة، يوفر التعلم المعزز آليةً أساسيةً لتعزيز أدائها، ليصبح بذلك عنصرًا محوريًا في عملية ما بعد التدريب للعديد من أنظمة نماذج اللغات الضخمة المتقدمة.

تحديات البنية التحتية لتوسيع نطاق التعلم المعزز لنماذج اللغات الضخمة

يُشكل تطبيق التعلم المعزز على نماذج اللغات الضخمة واسعة النطاق تحديًا كبيرًا نظرًا لاحتياجاته الهائلة من الموارد. فلا يتطلب تدريب هذه النماذج عمليات حسابية ضخمة فحسب، بل يتطلب أيضًا تنسيقًا بين مكونات مختلفة، بما في ذلك نماذج السياسات، وجهاز تقييم المكافآت، والنقاد. تصل أحجام النماذج إلى مئات المليارات من المعلمات، مما يُثير مشاكل هندسية صعبة تتعلق باستهلاك الذاكرة، ووقت انتقال البيانات، ووقت الخمول لوحدات معالجة الرسوميات (GPUs). بدون تصميم فعال، تُعيق هذه القيود القدرة على تطبيق التعلم المعزز على نماذج جديدة وأكبر حجمًا. يُعدّ تحقيق الاستخدام الأمثل لوحدات معالجة الرسوميات وتقليل الاختناقات بين العمليات أمرًا حيويًا لتدريب قابل للتوسيع وفي الوقت المناسب.

قيود أطر عمل التعلم المعزز السابقة لنماذج اللغات الضخمة

عانت الحلول السابقة من صعوبة في التوفيق بين الصلابة والكفاءة عند التوسع. فالأطر المتزامنة التقليدية تُنفذ توليد البيانات وتدريبها على مراحل متسلسلة، مما يتسبب غالبًا في وقت خمول لوحدات معالجة الرسوميات بسبب عدم تطابق مدة المهام. تستخدم أدوات مثل DeepSpeed-Chat استراتيجيات ذاكرة هجينة، لكنها تتطلب من النماذج مشاركة مساحة الذاكرة، مما يؤدي إلى اختناقات في الأداء أثناء التوليد. تحاول بعض الأساليب الموزعة فصل المكونات، لكنها لا تزال تعتمد على أدوات تنسيق ثقيلة، مما يحد من المرونة. بالإضافة إلى ذلك، غالبًا ما تفشل الأطر السابقة في تحسين استخدام الذاكرة لتلبية احتياجات التوازي المتغيرة أثناء التدريب والاستدلال.

LlamaRL من ميتا: إطار عمل مُوزّع غير متزامن قائم على PyTorch

قدّم باحثو ميتا إطار عمل LlamaRL، وهو إطار عمل تعليم معزز موزع وغير متزامن بالكامل، مُصمم خصيصًا لتدريب نماذج اللغات الضخمة الضخمة على مجموعات تتراوح من عدد قليل إلى آلاف وحدات معالجة الرسوميات. بُني LlamaRL بالكامل باستخدام PyTorch، ويُطبق تصميمًا بمحكم واحد لتبسيط التنسيق، مما يُمكّن من التخصيص النمطي. تدير وحدات تنفيذ منفصلة كل مكون من مكونات التعلم المعزز – مثل المُولد، والجهاز المُدرب، ونموذج المكافأة – وتعمل بالتوازي. يُقلل هذا الإعداد غير المتزامن من وقت الانتظار في خط أنابيب التعلم المعزز، كما يُمكّن من التحسين المستقل لتوازي النموذج واستخدام الذاكرة.

الميزات الرئيسية:

  • إيقاف التحميل: يُمكّن إيقاف تحميل عمليات التوليد إلى وحدات تنفيذ مخصصة المُدرب من التركيز حصريًا على تحديثات النموذج.
  • كفاءة الذاكرة: يُحسّن استخدام الذاكرة من خلال تقنيات مُتقدمة.
  • التنفيذ غير المتزامن: يُقلل من وقت الخمول لوحدات معالجة الرسوميات ويزيد من سرعة التدريب.
  • وصول الذاكرة المباشر الموزع (DDMA): يدعم نقل البيانات بسرعة عالية بين وحدات معالجة الرسوميات.
  • تحسين سياسة الأهمية غير المتزامنة (AIPO): يُصحح عدم الدقة الناتجة عن التنفيذ غير المتزامن.

معايير الأداء في العالم الحقيقي: تسريع 10.7 أضعاف على نماذج 405 مليار معلمة

يُوفر LlamaRL تحسينات كبيرة في سرعة التدريب دون المساومة على الجودة. على نموذج 8 مليارات معلمة مع 256 وحدة معالجة رسوميات، قلّص وقت خطوة التدريب من 22.45 ثانية إلى 8.90 ثانية. بالنسبة للنموذج 70 مليار معلمة، انخفض الوقت من 82.32 ثانية إلى 20.67 ثانية. والأكثر إثارة للإعجاب، على نموذج 405 مليار معلمة عبر 1024 وحدة معالجة رسوميات، قلّص LlamaRL وقت خطوة التعلم المعزز من 635.8 ثانية إلى 59.5 ثانية فقط، محققًا تسريعًا بمقدار 10.7 أضعاف مقارنةً بالخط الأساسي المتزامن. لا تنبع هذه المكاسب من التنفيذ غير المتزامن فحسب، بل أيضًا من استراتيجيات الذاكرة والحساب المنفصلة. تُؤكد تقييمات المقاييس المعيارية على MATH و GSM8K أن LlamaRL يحافظ على أداء ثابت، بل تُظهر بعض المقاييس تحسينات طفيفة.

الخاتمة: LlamaRL كمسار قابل للتطوير في تدريب نماذج اللغات الضخمة

يُقدم هذا البحث حلاً عمليًا وقابلًا للتطوير لأحد أهم الاختناقات في تدريب نماذج اللغات الضخمة باستخدام التعلم المعزز. يُمثل إدخال التدريب غير المتزامن من خلال LlamaRL تحولًا كبيرًا عن خطوط أنابيب التعلم المعزز التقليدية. من خلال معالجة قيود الذاكرة، وتأخيرات الاتصال، وعدم كفاءة وحدات معالجة الرسوميات، يُوفر الإطار حلًا مُتكاملًا بشكل جيد للتطورات المستقبلية في تدريب نماذج اللغات.

المصدر: MarkTechPost