صفر مطلق: ثورة جديدة في تدريب نماذج اللغات الكبيرة بدون بيانات خارجية
يُمثّل تطوير نماذج اللغات الكبيرة (LLMs) تحديًا هائلاً في مجال الذكاء الاصطناعي، خاصةً فيما يتعلق بقدرتها على الاستنتاج المنطقي. وقد شهدنا تقدمًا ملحوظًا في هذا المجال بفضل تقنية “التعلم المعزز بالمكافآت القابلة للتحقق” (RLVR)، التي تعتمد على التغذية الراجعة القائمة على النتائج بدلاً من محاكاة خطوات التفكير الوسيطة. لكنّ هذه التقنية تواجه تحديات كبيرة في التوسع، حيث تعتمد بشكل كبير على مجموعات مُعدّة يدويًا من الأسئلة والإجابات للتدريب.
تحديات نماذج اللغات الكبيرة الحالية
مع تطور نماذج الاستدلال، يصبح بناء مجموعات بيانات ضخمة وعالية الجودة أمرًا غير مستدام، تمامًا كما حدث مع الاختناقات التي تم تحديدها في مرحلة ما قبل التدريب لنماذج اللغات الكبيرة. علاوة على ذلك، فإن الاعتماد الكامل على المهام المصممة من قبل البشر قد يقيد قدرة أنظمة الذكاء الاصطناعي على التعلم الذاتي والتطور، خاصةً مع تطورها لتتجاوز القدرات العقلية البشرية.
نهج مبتكرة لتعزيز قدرات الاستنتاج
لقد استكشف الباحثون العديد من الأساليب لتعزيز قدرات الاستنتاج في نماذج اللغات الكبيرة. فقد مهدت تقنية STaR الطريق من خلال التمهيد الذاتي باستخدام التكرار الخبير وطريقة أخذ العينات بالرفض للاستجابات المُتحقّق منها من حيث النتائج لتحسين الاستدلال السياقي. وقد طبّقت نماذج أخرى هذا المفهوم على نطاق واسع، محققة نتائج متقدمة. كما تطورت نماذج اللعب الذاتي من الإعدادات المبكرة ذات العاملين إلى تنفيذات أكثر تعقيدًا. وقد طبقت أساليب حديثة مثل SPIN و Self-Rewarding Language Models و SPC و SPAG اللعب الذاتي على نماذج اللغات لتحقيق المحاذاة والاستدلال.
“صفر مطلق”: نموذج تعليم ذاتي ثوري
اقترح باحثون من جامعة تسينغهوا، ومعهد بكين للذكاء الاصطناعي العام، وجامعة ولاية بنسلفانيا، نموذجًا جديدًا يُسمّى “صفر مطلق” (Absolute Zero) يُمكّن نموذجًا واحدًا من توليد وحل المهام بشكل مستقل لتعظيم تقدمه في التعلم دون الاعتماد على أي بيانات خارجية.
آلية عمل “صفر مطلق”
يعتمد هذا النموذج على “مُستدل صفر مطلق” (AZR)، والذي يُطوّر منهجه التدريبي وقدرته على الاستدلال من خلال مُنفّذ شفرة (code executor) يقوم بالتحقق من صحة مهام الاستدلال المقترحة وتأكيد الإجابات، مما يوفر مصدرًا موحدًا للمكافآت القابلة للتحقق لتوجيه التعلم المفتوح والمدعوم في آن واحد. يمكن تنفيذ AZR بكفاءة عبر مقاييس نموذجية مختلفة، وهو متوافق مع فئات النماذج المختلفة، مما يشير إلى إمكانية تطبيقه على نطاق واسع.
مراحل عمل “مُستدل صفر مطلق” (AZR)
- تهيئة المخزن المؤقت: إعداد البنية الأساسية لبدء عملية التعلم.
- اقتراح المهام وإدارة المخزن المؤقت: توليد مهام جديدة بناءً على نوع المهمة وأمثلة سابقة.
- إنشاء المهام الصالحة: ضمان جودة المهام المُقترحة.
- التحقق من صحة الحلول: التأكد من دقة الحلول المُقدّمة.
- حساب مُقدّر الميزة: تحديد أهمية كل مهمة من خلال تقنية Task-Relative REINFORCE++.
نتائج مبهرة
حقق مُستدل صفر مطلق – المُبرمج – 7B (Absolute Zero Reasoner-Coder-7B) أداءً متقدمًا في المتوسط العام وفئة البرمجة، متجاوزًا أفضل النماذج السابقة بنسبة 1.8 نقطة مئوية مطلقة، على الرغم من كونه خارج نطاق توزيع معايير اختبار الرياضيات والبرمجة. كما تفوق على النماذج المُدرّبة باستخدام بيانات بشرية مُعدّة بعناية في البرمجة بنسبة 0.3 نقطة مئوية مطلقة، دون الوصول إلى هذه البيانات أبدًا. وكشفت تحليلات التوسع أن AZR يُحقق مكاسب أكبر في النماذج الأكبر حجمًا.
الحدود والآفاق المستقبلية
على الرغم من الإنجازات المذهلة، إلا أن هناك حدودًا، أهمها إدارة السلامة في الأنظمة المُحسّنة ذاتيًا. لاحظ الفريق بعض حالات الاستدلال السياقي المُثير للقلق من حيث السلامة، مما يُبرز الحاجة إلى الإشراف المستمر على هذه الأنظمة.
الخلاصة
يُمثّل نموذج “صفر مطلق” نقلة نوعية في تدريب نماذج اللغات الكبيرة، حيث يُمكنها من التعلم الذاتي وتطوير قدراتها الاستنتاجية دون الحاجة إلى بيانات خارجية مُعدّة مسبقًا. لكنّ هذا التقدم يتطلب المزيد من البحث في مجال إدارة السلامة والتحكم في سلوك هذه الأنظمة الذكية. يمكنكم الاطلاع على البحث العلمي والنموذج على Hugging Face وصفحة GitHub.
اترك تعليقاً