إطار عمل جورو: تعزيز استنتاج نماذج اللغات الكبيرة عبر ستة مجالات

يُعدّ تطوير قدرات الاستنتاج المنطقي في نماذج اللغات الكبيرة (LLMs) هدفًا رئيسيًا في مجال الذكاء الاصطناعي. وقد أظهر التعلم المعزز (Reinforcement Learning – RL) إمكاناتٍ كبيرة في هذا الصدد، خاصةً مع نماذج متقدمة مثل OpenAI-O3 و DeepSeek-R1. ومع ذلك، ركزت معظم أبحاث التعلم المعزز بشكل ضيق على مجالي الرياضيات والبرمجة، مما حدّ من قابليتها للتطبيق العام. هذا التركيز الضيق يُطرح مشكلتين رئيسيتين: أولاً، قد لا تُعمّم معرفتنا لكيفية تحسين التعلم المعزز للاستنتاج خارج هذه المجالات، وثانيًا، غالبًا ما تفتقر النماذج الناتجة إلى التنوع والمرونة. يُشكّل توسيع نطاق التعلم المعزز إلى مهام استنتاج أوسع تحديًا بسبب نقص إشارات المكافآت الموثوقة ومجموعات البيانات المُعدّة بعناية، والتي يُسهل تعريفها في المجالات الرياضية والبرمجية، ولكنها تصبح أكثر صعوبة في مجالات الاستنتاج المفتوحة.

تحديات التركيز الضيق على المجال وتعميم النتائج

أصبح التعلم المعزز طريقة شائعة لتعزيز مهارات الاستنتاج في نماذج اللغات الكبيرة، خاصةً بعد النجاحات التي حققتها نماذج مثل GPT-3 من OpenAI و DeepSeek-R1. وقد تلت ذلك العديد من الجهود مفتوحة المصدر، التي ركزت بشكل أساسي على مجالي الرياضيات والبرمجة. وبينما تُظهر هذه النماذج أداءً جيدًا في مجالاتها المتخصصة، إلا أن استنتاجاتها لا تُعمّم دائمًا على مهام أوسع نطاقًا.

في الوقت نفسه، استكشفت الأبحاث كيفية تأثير التعلم المعزز على الاستنتاج. تشير بعض الدراسات إلى أن التعلم المعزز لا يُعلّم مهارات جديدة، بل يعزز قدرة النموذج على الوصول إلى أنماط استنتاج موجودة مسبقًا. ومع ذلك، تشير أعمال أحدث إلى أن التدريب المُطوّل بالتعلم المعزز قد يُطلق استراتيجيات استنتاج جديدة تمامًا.

تقديم مجموعة بيانات جورو: معيار مُعزز متعدد المجالات

يُقدّم باحثون من جامعات كاليفورنيا سان دييغو، وMBZUAI، وكارنيجي ميلون، وبوردو، مجموعة بيانات جورو (GURU)، وهي مجموعة بيانات مُعززة تتألف من 92,000 مثال تغطي ستة مجالات استنتاجية: الرياضيات، والبرمجة، والعلوم، والمنطق، والمحاكاة، والبيانات الجدولية. وقد تم بناء كل مجال بعناية مع دوال مكافآت مُصممة خصيصًا وتصفية دقيقة.

يكشف تدريب النماذج على جورو أن نتائج التعلم المعزز تعتمد بشكل كبير على دراية المجال: تستفيد المجالات الشائعة من التعلم المعزز عبر المجالات، بينما تتطلب المجالات غير المألوفة تدريبًا داخل المجال لتحسين الأداء بشكل كبير. تتفوق نماذجهم، GURU-7B و GURU-32B، على النماذج المفتوحة المصدر السابقة بنسبة تصل إلى 7.9% عبر 17 مهمة. تُبرز هذه النتائج التأثيرات الخاصة بالمجال في التعلم المعزز وقيمة معايير الاستنتاج الواسعة متعددة المجالات.

آثار التعلم المعزز عبر المجالات مقابل داخل المجال

لفهم أفضل لكيفية دعم التعلم المعزز للاستنتاج عبر المجالات، درب الباحثون نماذج على بيانات منفردة ومن مختلطة المجالات من مجموعة بيانات جورو. وجدوا أن مجالات مثل الرياضيات والبرمجة والعلوم استفادت أكثر من التعلم المعزز عبر المجالات، على الأرجح نظرًا لوجودها القوي في مرحلة ما قبل التدريب. أدى التدريب المختلط للمجالات إلى أداءٍ جيد أو أفضل من التدريب أحادي المجال، مما يُظهر أن الجمع بين المهام المتنوعة يمكن أن يُعزز الاستنتاج العام. ومع ذلك، فإن التدريب فقط على الأمثلة الأصعب حسّن الأداء في ذلك المجال، لكنه قلل من الدقة في الوظائف الأبسط في المجالات الأخرى. تشير هذه النتائج إلى أن تنوع البيانات وصعوبة متوازنة هما مفتاحان لمهارات استنتاج فعالة وقابلة للتحويل.

بنية نموذج جورو واستراتيجية التقييم

درست الدراسة نماذج بحجم 7 مليار و 32 مليار بارامتر باستخدام مجموعة بيانات جورو لاستكشاف كيفية تحسين قدرات الاستنتاج من خلال الجمع بين مجالات متعددة أثناء التعلم المعزز. باستخدام إطار عمل Verl وخوارزمية GRPO، تم تقييم النماذج على مجموعة واسعة من المهام، بما في ذلك الرياضيات، والبرمجة، والمنطق، والعلوم، والمحاكاة، والجدول، باستخدام مقاييس ثابتة. أظهرت النتائج أن نماذج جورو تفوقت على النماذج الأساسية الخاصة بالمجال، وأدت أداءً جيدًا في المهام غير المرئية. ومن الجدير بالذكر أن تحليل Pass@k كشف أن الأداء يعتمد على نوع المهمة، وحجم النموذج، وإعدادات فك التشفير. استفادت النماذج الأكبر حجمًا أكثر من التعلم المعزز، وساعد تعديل معلمات أخذ العينات، مثل درجة الحرارة و top-p، في تحسين تنوع النموذج وتغطية الاستنتاج.

ملخص: الاستنتاج ذو الأغراض العامة مع جورو

في الختام، جورو هي مجموعة بيانات مُعززة مُعدّة بعناية تحتوي على 92,000 مثال عالي الجودة وقابل للتحقق عبر ستة مجالات استنتاجية: الرياضيات، والبرمجة، والعلوم، والمنطق، والمحاكاة، والبيانات الجدولية. على عكس أبحاث التعلم المعزز السابقة، التي ركزت بشكل أساسي على الرياضيات والبرمجة، تُمكّن جورو من إجراء دراسات استنتاج أوسع نطاقًا من خلال توفير إشارات مكافآت خاصة بالمجال. درب الباحثون نموذجين، GURU-7B و GURU-32B، اللذان حققا نتائج متقدمة في 17 مهمة معيارية، وتفوقا بشكل خاص في المجالات التي لم تكن ممثلة بشكل كافٍ أثناء ما قبل التدريب. تُظهر نتائجهم أن التعلم المعزز يمكن أن يُحسّن المعرفة الموجودة و يُعزز قدرات استنتاج جديدة. تم إصدار جميع البيانات والنماذج والرموز علنًا لدعم المزيد من أبحاث الاستنتاج ذات الأغراض العامة.

  • الورقة البحثية: [رابط الورقة البحثية]
  • صفحة المشروع: [رابط صفحة المشروع]
  • صفحة جيثب: [رابط صفحة جيثب]

المصدر: MarkTechPost