إطار عمل REST: اختبار ضغط نماذج الاستدلال الضخمة لتقييم قدراتها على حلّ مشكلات متعددة

لقد شهدت نماذج الاستدلال الضخمة (LRMs) تقدماً سريعاً، حيث أظهرت أداءً مبهرًا في حلّ مشكلات معقدة عبر مجالات متعددة مثل الرياضيات والبرمجة والاستدلال العلمي. ومع ذلك، تركز أساليب التقييم الحالية بشكل أساسي على اختبارات الأسئلة المفردة، مما يكشف عن قيود كبيرة. يُقدم هذا المقال إطار عمل REST (Reasoning Evaluation through Simultaneous Testing) – وهو إطار عمل جديد لاختبار الضغط متعدد المشكلات، مصمم لدفع نماذج الاستدلال الضخمة إلى ما هو أبعد من حلّ المشكلات المعزولة، ويعكس بشكل أفضل قدراتها على الاستدلال في سياقات متعددة في العالم الحقيقي.

قصور معايير التقييم الحالية لنماذج الاستدلال الضخمة

تقيّم معظم معايير الأداء الحالية، مثل GSM8K و MATH، نماذج الاستدلال الضخمة بطرح سؤال واحد في كل مرة. وفي حين أن هذا الأسلوب فعال في تطوير النموذج الأولي، إلا أنه يعاني من عيبين رئيسيين:

  • انخفاض القدرة التمييزية: تحقق العديد من نماذج الاستدلال الضخمة المتطورة درجات مثالية تقريبًا في معايير الأداء الشائعة (مثل DeepSeek-R1 الذي يصل إلى 97٪ دقة على MATH500). تجعل هذه النتائج المشبعة من الصعب بشكل متزايد التمييز بين التحسينات الحقيقية للنموذج، مما يُجبر على إنشاء مجموعات بيانات أصعب وبكلفة عالية بشكل مستمر للتمييز بين القدرات.

  • غياب تقييم متعدد السياقات في العالم الحقيقي: تتطلب التطبيقات الواقعية – مثل التعليم الإرشادي، والدعم التقني، أو مساعدي الذكاء الاصطناعي متعدد المهام – الاستدلال عبر أسئلة متعددة، وربما متداخلة، في وقت واحد. لا يُلقي اختبار السؤال الواحد الضوء على هذه التحديات الديناميكية متعددة المشكلات التي تعكس الحمل المعرفي الحقيقي وقوة الاستدلال.

تقديم REST: اختبار ضغط نماذج الاستدلال الضخمة مع مشكلات متعددة في وقت واحد

للتغلب على هذه التحديات، قام باحثون من جامعة Tsinghua، و OpenDataLab، ومعمل شنغهاي للذكاء الاصطناعي، وجامعة Renmin بتطوير REST، وهي طريقة تقييم بسيطة ولكنها فعالة تختبر نماذج الاستدلال الضخمة في وقت واحد على أسئلة متعددة مجمعة في مطالبة واحدة.

  • إعادة بناء معيار الأداء متعدد الأسئلة: يعيد REST استخدام معايير الأداء الحالية من خلال ربط أسئلة متعددة في مطالبة واحدة، مع ضبط معلمة مستوى الضغط التي تتحكم في عدد الأسئلة المعروضة في وقت واحد.

  • التقييم الشامل: يقيم REST قدرات الاستدلال الحرجة التي تتجاوز حلّ المشكلات الأساسية – بما في ذلك تخصيص الأولويات حسب السياق، ومقاومة التداخل بين المشكلات، وإدارة الحمل المعرفي الديناميكي.

  • التطبيق الواسع النطاق: تم التحقق من صحة الإطار على 34 نموذجًا متقدمًا للاستدلال الضخم تتراوح من 1.5 مليار إلى 671 مليار معلمة، تم اختبارها على 7 معايير متنوعة عبر مستويات صعوبة مختلفة (من GSM8K البسيط إلى AIME و GPQA الصعبين).

يكشف REST عن رؤى أساسية حول قدرات الاستدلال في نماذج الاستدلال الضخمة

يكشف تقييم REST عن العديد من النتائج الرائدة:

  1. تدهور كبير في الأداء تحت ضغط متعدد المشكلات: حتى نماذج الاستدلال الضخمة المتطورة مثل DeepSeek-R1 تُظهر انخفاضًا ملحوظًا في الدقة عند التعامل مع أسئلة متعددة معًا. على سبيل المثال، تنخفض دقة DeepSeek-R1 على معايير الأداء الصعبة مثل AIME24 بنسبة تصل إلى 30٪ تحت REST مقارنة باختبار السؤال المعزول. هذا يتناقض مع الافتراضات السابقة بأن نماذج اللغات الضخمة قادرة بطبيعتها على القيام بمهام متعددة بسهولة عبر المشكلات.

  2. تعزيز القدرة التمييزية بين النماذج المتشابهة: يضخم REST بشكل كبير الفروق بين النماذج التي لها درجات متشابهة تقريبًا في اختبار السؤال الواحد. على سبيل المثال، على MATH500: يحقق R1-7B و R1-32B دقة متقاربة في اختبار السؤال الواحد بنسبة 93٪ و 94.6٪ على التوالي. تحت REST، تنخفض دقة R1-7B إلى 66.75٪ بينما يحافظ R1-32B على نسبة عالية تبلغ 88.97٪، مما يكشف عن فجوة أداء حادة تبلغ 22٪. وبالمثل، بين النماذج ذات الحجم نفسه مثل AReaL-boba-RL-7B و OpenThinker2-7B، يلتقط REST فروقًا كبيرة في قدرات التعامل مع المشكلات المتعددة والتي تُخفيها تقييمات السؤال الواحد.

  3. قد لا تضمن أساليب ما بعد التدريب استدلالًا قويًا متعدد المشكلات: غالبًا ما تفشل النماذج المُحسّنة بدقة التعزيز أو الضبط الخاضع للإشراف على الاستدلال أحادي المشكلة في الحفاظ على مزاياها في إعداد REST متعدد الأسئلة. هذا يدعو إلى إعادة التفكير في استراتيجيات التدريب لتحسين قوة الاستدلال في سيناريوهات متعددة السياقات واقعية.

  4. يُعزز تدريب “Long2Short” الأداء تحت الضغط: تحافظ النماذج المُدرّبة باستخدام تقنيات “Long2Short” – والتي تشجع على سلاسل استدلال موجزة وفعالة – على دقة أعلى تحت REST. هذا يشير إلى مسار واعد لتصميم نماذج أكثر ملاءمة للاستدلال المتزامن متعدد المشكلات.

كيف يحفز REST تحديات الاستدلال الواقعية

من خلال زيادة الحمل المعرفي على نماذج الاستدلال الضخمة من خلال عرض المشكلات المتزامنة، يحاكي REST المتطلبات الواقعية حيث يجب على أنظمة الاستدلال تحديد الأولويات ديناميكيًا، وتجنب التفكير المفرط في مشكلة واحدة، ومقاومة التداخل من المهام المتزامنة. يقوم REST أيضًا بتحليل أنواع الأخطاء بشكل منهجي، ويكشف عن أوضاع الفشل الشائعة مثل:

  • إغفال الأسئلة: تجاهل الأسئلة اللاحقة في مطالبة متعددة الأسئلة.
  • أخطاء في الملخص: تلخيص خاطئ للإجابات عبر المشكلات.
  • أخطاء في الاستدلال: أخطاء منطقية أو حسابية داخل عملية الاستدلال.

هذه الرؤى الدقيقة غير مرئية إلى حد كبير في تقييمات السؤال الواحد.

إعداد التقييم العملي وتغطية معايير الأداء

قام REST بتقييم 34 نموذجًا للاستدلال الضخم تتراوح أحجامها من 1.5 مليار إلى 671 مليار معلمة. تشمل معايير الأداء التي تم اختبارها:

  • بسيطة: GSM8K
  • متوسطة: MATH500، AMC23
  • صعبة: AIME24، AIME25، GPQA Diamond، LiveCodeBench

يتم ضبط معلمات توليد النموذج وفقًا للمبادئ التوجيهية الرسمية، مع حدود رمز الإخراج تبلغ 32 ألفًا لنماذج الاستدلال. يضمن استخدام مجموعة أدوات OpenCompass الموحدة نتائج متسقة وقابلة للتكرار.

الخلاصة: REST كنموذج تقييم مستقبلي واقعي لنماذج الاستدلال الضخمة

يمثل REST قفزة كبيرة إلى الأمام في تقييم نماذج الاستدلال الضخمة من خلال:

  • معالجة تشبع معايير الأداء: إنعاش مجموعات البيانات الحالية دون استبدالها الكامل والمكلف.
  • عكس متطلبات المهام المتعددة في العالم الحقيقي: اختبار النماذج في ظروف حمل معرفي واقعية عالية.
  • إرشاد تطوير النموذج: تسليط الضوء على أهمية طرق التدريب مثل Long2Short للتخفيف من التفكير المفرط وتشجيع التركيز على الاستدلال التكيفي.

باختصار، يمهد REST الطريق لمعايير أداء أكثر موثوقية وقوة وذات صلة بالتطبيقات لأنظمة الذكاء الاصطناعي للاستدلال من الجيل التالي.

المصدر: MarkTechPost