إطلاق نموذج INTELLECT-2: ثورة في تعلم التعزيز غير المتزامن الموزع

تواجه خطوط أنابيب التدريب المركزية التقليدية تحديات متزايدة مع تزايد حجم المعلمات و تعقيد الاستدلال في نماذج اللغات الكبيرة. غالباً ما يعتمد تدريب نماذج الأداء العالي على مجموعات حوسبة مترابطة بإحكام و بسرعة عالية، مما يجعلها مكلفة، محدودة في التوافر، وعرضة لـ “اختناقات” قابلية التوسع. علاوة على ذلك، تحدّ الهندسة المعمارية المركزية من إمكانية التعاون والتجريب على نطاق واسع، خاصة في بيئات البحث مفتوحة المصدر. يمكن أن يخفف التحول نحو الأساليب اللامركزية من هذه التحديات، مما يسمح بمشاركة أوسع نطاقاً ونظم تدريب أكثر مقاومة للأعطال.

PrimeIntellect تطلق INTELLECT-2، نموذج استدلال بـ 32 مليار معلمة

أصدرت شركة PrimeIntellect نموذج INTELLECT-2، وهو نموذج استدلال يحتوي على 32 مليار معلمة، تم تدريبه لاحقاً باستخدام تحسين سياسة التعزيز المعمم (GRPO) ضمن إطار عمل لامركزي بالكامل لتعلم التعزيز غير المتزامن. يُتاح هذا النموذج بموجب ترخيص Apache 2.0، ويشمل الإصدار ليس فقط أوزان النموذج، بل أيضاً قاعدة التعليمات البرمجية الكاملة وسجلات التدريب. يتجاوز INTELLECT-2 أداء نموذج QwQ-32B الرائد سابقاً في معايير الاستدلال الرئيسية. والهدف من طبيعة الإصدار مفتوح المصدر هو دعم إمكانية التكرار والتوسعة والأبحاث المستمرة.

الهندسة المعمارية والابتكارات التقنية

تم تطوير INTELLECT-2 ضمن مجموعة تدريب جديدة مصممة خصيصاً للبيئات الموزعة. وتعتمد هذه النظام على ثلاثة مكونات رئيسية:

  • PRIME-RL: محرك تعلم تعزيز غير متزامن يفصل مراحل توليد الانتشار، والتدريب، وتوزيع المعلمات. يُزيل هذا الفصل الحاجة إلى التحديثات المتزامنة، ويسمح للنظام بالعمل في ظروف الشبكة المتغيرة وغير الموثوقة.
  • SHARDCAST: بروتوكول HTTP ذو بنية شجرية يدعم الانتشار السريع لأوزان النموذج عبر العمال الموزعين، مما يحسن كفاءة الاتصال دون الحاجة إلى بنية تحتية متخصصة.
  • TOPLOC: آلية تحقق تعتمد على التجزئة الحساسة للموقع، والتي تكتشف التعديلات في مخرجات الاستدلال. هذا أمر بالغ الأهمية لضمان النزاهة في بيئات الأجهزة الموزعة وغير الحتمية المحتملة.

تتيح هذه الهندسة المعمارية تدريب INTELLECT-2 عبر أنظمة غير متجانسة بأقل قدر من تكاليف التنسيق مع الحفاظ على جودة النموذج واتساق الاستدلال.

بيانات التدريب، المنهجية، والأداء

استخدمت عملية التدريب اللاحقة لـ INTELLECT-2 ما يقارب 285,000 مهمة قابلة للتحقق مع التركيز على الاستدلال، والترميز، وحل المسائل الرياضية. شملت المصادر مجموعات بيانات مثل NuminaMath-1.5، و Deepscaler، و SYNTHETIC-1. خضع النموذج لضبط دقيق لتعلم التعزيز باستخدام GRPO مع تحديثات غير متزامنة. طبق النظام استراتيجية تدريب من مرحلتين: تم بث أوزان السياسات الجديدة بينما ظلت خطوط أنابيب الانتشار والتدريب الحالية نشطة، مما يقلل من وقت الخمول عبر الشبكة. تم تحسين الاستقرار من خلال القص ثنائي الجانب لنسب احتمالية الرموز، مما يقلل من التباين المرتبط بالتحديثات الكبيرة. تم استخدام مجموعة من الخوارزميات والفلاتر الآلية لاختيار العروض عالية الجودة، وتم استخدام نموذج مكافأة مُصمم خصيصاً لترتيب الإكمالات. فضّل حلقة تعلم التعزيز باستمرار الإكمالات ذات البنية الاستدلالية الأفضل، مما ساهم في تحسينات ملحوظة في الأداء مقارنة بنماذج الأساس.

من حيث التقييم، يتفوق INTELLECT-2 على QwQ-32B في العديد من معايير الاستدلال، مما يشير إلى تحسين التعميم ودقة الاستدلال. تظهر المكاسب بشكل خاص في مهام الرياضيات والترميز، حيث أدى استخدام ضبط دقيق GRPO غير المتزامن ونمذجة المكافآت المُعدّة بعناية إلى مخرجات أكثر تنظيماً وقابلية للتحقق. تشير هذه النتائج إلى أن خطوط أنابيب التدريب اللاحقة اللامركزية يمكن أن تحقق أداءً مماثلاً أو أفضل من خطوط أنابيب RLHF التقليدية مع توفير مرونة وقابلية توسع محسّنتين.

الخاتمة

يمثل INTELLECT-2 خطوة منهجية سليمة نحو لامركزية تدريب النماذج واسعة النطاق. من خلال إثبات إمكانية تدريب نموذج بـ 32 مليار معلمة بأداء عالٍ باستخدام تعلم تعزيز موزع وغير متزامن، تساهم PrimeIntellect في توفير بديل عملي وقابل للتوسعة لخطوط أنابيب RLHF المركزية. تعالج المكونات المعيارية للهندسة المعمارية – PRIME-RL، و SHARDCAST، و TOPLOC – التحديات الرئيسية في قابلية التوسع، وكفاءة الاتصال، والتحقق من الاستدلال. مع تزايد الاهتمام البحثي في تطوير الذكاء الاصطناعي المفتوح واللامركزي، يعمل INTELLECT-2 كمعيار قابل للتكرار وإطار عمل لمزيد من التجارب في تدريب النماذج الموزعة.

يمكنكم الاطلاع على الورقة البحثية، والنموذج على Hugging Face، والإصدار الرسمي. يعود الفضل في هذا البحث إلى باحثي هذا المشروع. تابعونا أيضاً على تويتر، ولا تنسوا الانضمام إلى مجتمعنا على ريديت (90 ألف عضو).

المصدر: MarkTechPost