معلمون مدربون بتقوية التعزيز: ثورة في تعليم نماذج اللغات الكبيرة
تقدم شركة ساكانا للذكاء الاصطناعي إطارًا جديدًا لتعليم نماذج اللغات الكبيرة (LLMs) القدرة على الاستنتاج، مع التركيز على الكفاءة وإعادة الاستخدام. يطلق على هذا الإطار اسم “المعلمون المدربون بتقوية التعزيز” (RLTs). تتميز تقنيات RLTs عن الأساليب التقليدية في تعلم تقوية التعزيز (RL) التي تعاني من إشارات مكافآت متناثرة ومتطلبات حاسوبية باهظة.
إعادة تعريف نموذج المعلم-الطالب
تُعيد تقنية RLTs تعريف نموذج المعلم-الطالب من خلال تدريب نماذج أصغر حجماً لتكون بمثابة مُدرّسين مُحسّنين، حيث تُنتج هذه النماذج تفسيرات خطوة بخطوة بدلاً من حل المشكلات من الصفر. يؤدي هذا التحول في التصميم إلى مكاسب كبيرة في جودة التقطير والكفاءة من حيث التكلفة وقابلية النقل بين المجالات، دون الحاجة إلى نماذج ضخمة.
إعادة التفكير في تعلم تقوية التعزيز: التعليم وليس الحل
تُدرّب الإعدادات التقليدية لتعلم تقوية التعزيز النماذج على حل المشكلات بشكل مستقل باستخدام مكافآت تعتمد على الصحة. غالبًا ما يتم إعادة استخدام هذه النماذج لتعليم نماذج أصغر، مما يُنتج مسارات استنتاجية للتقطير. ومع ذلك، فإن عدم تطابق هدف تعلم تقوية التعزيز (حل المشكلات) والاستخدام النهائي الفعلي (التدريس) يؤدي إلى عدم كفاءة. تعالج تقنية RLTs هذه المشكلة بشكل مباشر من خلال توجيه النماذج بكل من المشكلة وحلها، مما يتطلب منها فقط توليد تفسيرات تربوية مفصلة. إشارة المكافأة كثيفة ومتوافقة مع الطالب: تقيس مدى فهم نموذج الطالب للتفسير وإعادة إنتاج الحل.
المفهوم الأساسي: مكافآت كثيفة ومتوافقة مع الطالب
يُبنى هدف تدريب RLT حول مصطلحين رئيسيين للمكافأة:
- نقاط الحل (rSS): كمّية قدرة الطالب على إعادة بناء الحل الصحيح بالنظر إلى التفسير والمشكلة.
- نقاط التفسير (rKL): قياس مدى اتساق التفسير المنطقي للمعلم من منظور الطالب.
يتم دمج هذين المصطلحين في إشارة مكافأة كثيفة تشجع على تقديم تفسيرات تعليمية وسهلة الفهم. ومن المهم ملاحظة أن هذا يتجاوز عقبة الاستكشاف في تعلم تقوية التعزيز التقليدي، مما يسمح للنماذج الأصغر بالتدريب بكفاءة من خلال تعلم تقوية التعزيز.
فعالية النماذج المُدرّسة الصغيرة
أظهرت ساكانا للذكاء الاصطناعي أن نموذج RLT بـ 7 مليارات معامل يتفوق على نماذج LLMs أكبر بكثير (مثل نماذج 32 مليار معامل وما فوق) في مهام التقطير عبر العديد من مجموعات البيانات الصعبة، بما في ذلك AIME 2024 و MATH 500 و GPQA Diamond. في مجموعة بيانات تضم 17000 سؤال:
- يتفوق RLT-7B على DeepSeek R1 و Bespoke-7B وحتى مسارات RL المُعالجة لاحقاً.
- يتفوق RLT-32B على جميع النماذج الأساسية التي تحتوي على 32 مليار معامل، على الرغم من أنه تم تقطيره من مُعلّم أصغر.
لا يقتصر التأثير على كفاءة المعاملات، بل تحقق تقنية RLTs تعميمًا أفضل، وعددًا أقل من أخطاء التنسيق، وقابلية تفسير أعلى.
بدء تعلم تقوية التعزيز باستخدام RLTs
حالة استخدام مهمة أخرى هي بدء تعلم تقوية التعزيز (RL cold-starting)، حيث يتم تمهيد نموذج أولي ببيانات خارجية قبل التدريب الرسمي لتعلم تقوية التعزيز. تُعد المسارات التي تُولّدها RLTs مادة أكثر فعالية للبدء من تلك الناتجة عن النماذج الأكبر المدربة بتقوية التعزيز. في الواقع، حتى بدون معالجة لاحقة أو تحسين خارجي (مثل استخدام GPT-4.1)، تُنتج التفسيرات التي تُولّدها RLT مكاسب أداء أعلى بعد ضبط تعلم تقوية التعزيز الدقيق.
التعميم خارج المجال والتحويل بدون تدريب مسبق
تظهر تقنية RLTs أيضًا قدرات قوية للتحويل بدون تدريب مسبق. عند تطبيقها على مجال جديد – مثل مهمة “Countdown” القائمة على الحساب – تُمكّن المسارات المدربة بواسطة RLT نماذج الطالب من تجاوز حتى تعلم تقوية التعزيز المباشر في المجال الجديد. يشير هذا إلى أن مهارة “شرح الحل” تُعمّم عبر المهام بسهولة أكبر من مهارة “الحل من الصفر”، مما يُوفر دليلاً على قابلية إعادة استخدام أفضل لنماذج تعلم تقوية التعزيز المُركّزة على التعليم.
خط أنابيب التدريب: كفاءة وقابلية للتطوير
عملية التدريب خفيفة الحساب: 250 خطوة لتعلم تقوية التعزيز (~1 حقبة)، حجم الدُفعة 256، حجم المجموعة 64. تم التدريب باستخدام إعداد عقدة واحدة مع Qwen2.5-7B-Instruct. الشيفرة ونقاط التحقق المُدرّبة متاحة على Github.
على عكس خطوط أنابيب تعلم تقوية التعزيز التقليدية، لا تتطلب RLTs معالجة لاحقة أو تصحيحات للتنسيق أو مرشحات للتحقق – المخرجات الخام قابلة للاستخدام مباشرة.
نقاط بارزة في التقييم
باختصار (100 كلمة): تُقدم ساكانا للذكاء الاصطناعي “المعلمون المدربون بتقوية التعزيز” (RLTs)، وهو إطار عمل خفيف الوزن ولكنه قوي لتعليم نماذج اللغات الكبيرة القدرة على الاستنتاج. على عكس نماذج تعلم تقوية التعزيز التقليدية التي تتعلم من خلال حل المهام من الصفر، يتم تزويد RLTs بكل من السؤال وحله، ويتم تدريبها على توليد تفسيرات خطوة بخطوة. يُطابق هذا الإعداد مكافآت تعلم تقوية التعزيز مع نتائج تعلم الطالب، مما يُمكّن نماذج RLT ذات 7 مليارات معامل من التفوق على نماذج LLMs أكبر بكثير في التقطير وسيناريوهات البدء البارد. تتميز RLTs بالكفاءة من حيث التكلفة، وقابلية النقل بين المجالات، وتُلغي الحاجة إلى المعالجة اللاحقة المكلفة – مما يُوفر مخططًا قابلًا للتطوير لبناء نماذج LLMs قادرة على الاستنتاج باستخدام موارد حاسوبية متواضعة وأدوات مفتوحة المصدر.
اترك تعليقاً