نماذج نيڤيديا الجديدة: ثورة في الاستدلال الرياضي والبرمجي عبر التعلم المعزز
يُعدّ الاستدلال من المكونات الأساسية لأنظمة الذكاء الاصطناعي. وقد أثار ظهور نموذج OpenAI o1 اهتمامًا كبيرًا ببناء نماذج استدلالية من خلال أساليب التعلم المعزز واسع النطاق. بينما ساهم نشر DeepSeek-R1 مفتوح المصدر في تمكين المجتمع من تطوير نماذج استدلال متطورة، إلا أن التفاصيل التقنية الهامة، بما في ذلك استراتيجيات تحضير البيانات ووصفات التدريب الخاصة بالتعلم المعزز، غابت عن التقرير الأصلي. وقد أدى هذا الغياب إلى صعوبة تكرار النجاح، مما أسفر عن جهود مجزأة لاستكشاف أحجام نماذج مختلفة، ونقاط بداية مختلفة، ومجالات تطبيق متنوعة.
التحديات السابقة في تدريب نماذج الاستدلال اللغوية
ركز تدريب نماذج اللغة على الاستدلال في مجالي الرياضيات والبرمجة من خلال أساليب ما قبل التدريب والضبط الدقيق الخاضع للإشراف. وقد أظهرت المحاولات المبكرة للتعلم المعزز باستخدام نماذج مكافآت محددة للمجال مكاسب محدودة، وذلك بسبب التحديات المتأصلة في مهام الرياضيات والترميز. كما استكشفت الجهود الحديثة، في أعقاب إصدار DeepSeek-R1، أساليب التحقق القائمة على القواعد، حيث تتطلب مسائل الرياضيات تنسيقات إخراج محددة للتحقق الدقيق، بينما تستخدم مسائل البرمجة ملاحظات التجميع والتنفيذ. ومع ذلك، تركز هذه الأساليب على مجالات فردية بدلاً من التعامل مع المطالبات غير المتجانسة، بالإضافة إلى تقييمات معيارية محدودة على AIME و LiveCodeBench، فضلاً عن مشاكل عدم استقرار التدريب التي تتطلب تقنيات مثل زيادة طول الاستجابة التدريجية والتخفيف من انهيار الانتروبيا.
AceReason-Nemotron: حلول نيڤيديا المتقدمة
أظهر باحثو NVIDIA أن التعلم المعزز واسع النطاق يمكن أن يحسن بشكل كبير قدرات الاستدلال للنماذج الصغيرة والمتوسطة القوية، متجاوزًا أساليب التقطير المتطورة. تستخدم هذه الطريقة استراتيجية تدريب متسلسلة بسيطة وفعالة: أولاً، إجراء تدريب التعلم المعزز على مطالبات رياضية فقط، ثم على مطالبات برمجية فقط. يكشف هذا أن التعلم المعزز المخصص للرياضيات فقط يعزز الأداء في معايير الرياضيات ويحسن مهام الاستدلال البرمجي، بينما تعمل تكرارات التعلم المعزز الموسعة المخصصة للبرمجة فقط على زيادة الأداء البرمجي مع الحد الأدنى من التدهور في نتائج الرياضيات.
عملية تحضير البيانات المتطورة
تم تطوير خط أنابيب قوي لتحضير البيانات لجمع مطالبات صعبة ذات إجابات واختبارات ذات جودة عالية وقابلة للتحقق، مما يسمح بالتعلم المعزز القائم على التحقق عبر كلا المجالين. تتضمن عملية تحضير البيانات لكل من التعلم المعزز المخصص للرياضيات والتعلم المعزز المخصص للبرمجة:
-
الرياضيات: دمج مجموعتي بيانات DeepScaler و NuminaMath، اللتين تغطيان الجبر، والتوافقية، ونظرية الأعداد، والهندسة، مع تطبيق تصفية 9-gram وقواعد استبعاد صارمة للمحتوى غير المناسب. يتم التحقق من صحة الأسئلة من خلال ثمانية محاولات باستخدام نموذج DeepSeek-R1، مع الاحتفاظ فقط بالحلول الصحيحة التي تم التصويت عليها بأغلبية الأصوات عبر التحقق القائم على القواعد.
-
البرمجة: جمع البيانات من منصات البرمجة التنافسية الحديثة باستخدام تنسيقات استدعاء الدالة و stdin/stdout عبر مواضيع خوارزمية. بالإضافة إلى ذلك، يتم تصفية المشاكل غير المتوافقة، واختيار حالات اختبار شاملة تغطي الحالات الحدية، وتعيين درجات الصعوبة باستخدام تقييم DeepSeek-R1-671B، مما ينتج عنه 8520 مسألة برمجة تم التحقق منها.
النتائج: تفوق AceReason-Nemotron
أظهرت النتائج أن نموذج AceReason-Nemotron-7B حقق تحسينًا في الدقة بنسبة 14.5% و 14.6% على AIME 2024/2025، على التوالي، مع مكاسب بنسبة 14.2% و 8% على LiveCodeBench v5/v6 مقارنة بنماذج SFT الأولية. كما تفوق المتغير 14B على نماذج أكبر مثل DeepSeek-R1-Distill-Qwen-32B و DeepSeek-R1-Distill-Llama-70B، محققًا أفضل النتائج بين نماذج الاستدلال القائمة على التعلم المعزز المفتوح المصدر. مقارنةً بنماذج التقطير المتطورة، تفوق AceReason-Nemotron-14B نموذج OpenMath-14B/32B بنسبة 2.1%/4.4% على معايير AIME، ونموذج OpenCodeReasoning-14B بنسبة 1.7%/0.8% على LiveCodeBench، مما يدل على أن التعلم المعزز يحقق حدودًا عليا أعلى من أساليب التقطير من خلال الحفاظ على أداء تنافسي ضد نماذج رائدة مثل QWQ-32B و o3-mini.
الخلاصة
أظهر الباحثون في هذه الورقة أن التعلم المعزز واسع النطاق يعزز قدرات الاستدلال للنماذج SFT الصغيرة والمتوسطة القوية من خلال التدريب المتسلسل المحدد للمجال. يكشف النهج المقترح المتمثل في إجراء التعلم المعزز المخصص للرياضيات تليها المطالبات المخصصة للبرمجة أن تدريب الاستدلال الرياضي يعزز الأداء بشكل كبير عبر معايير الرياضيات والترميز. يسمح خط أنابيب تحضير البيانات بالتعلم المعزز القائم على التحقق عبر مجالات غير متجانسة من خلال جمع مطالبات صعبة ذات إجابات واختبارات قابلة للتحقق وعالية الجودة. تكشف النتائج أن التعلم المعزز يدفع حدود استدلال النموذج، مما يوفر حلولاً للمشاكل التي لا يمكن حلها ويضع معايير أداء جديدة لتطوير نماذج الاستدلال. يمكنكم الاطلاع على الورقة البحثية والنموذج على Hugging Face.
اترك تعليقاً