نموذج التفكير التكيفي (ARM) و Ada-GRPO: نحو حلول ذكية وفعالة

يُعدّ التفكير من العمليات الأساسية في مجال الذكاء الاصطناعي، ويشمل مجالاتٍ مثل الفهم العام، وحلّ المسائل الرياضية، والتفكير الرمزي. غالبًا ما تتضمن هذه المهام خطواتٍ متعددة من الاستدلال المنطقي، تحاول نماذج اللغات الكبيرة (LLMs) محاكاتها من خلال نهجٍ مُنظمة مثل توجيه سلسلة الأفكار (CoT). ومع ذلك، مع ازدياد حجم و تعقيد نماذج LLMs، تميل إلى إنتاج مخرجاتٍ أطول في جميع المهام، بغض النظر عن صعوبتها، مما يؤدي إلى عدم كفاءةٍ كبيرة.

التحديات في نماذج التفكير الحالية

يسعى هذا المجال إلى تحقيق التوازن بين عمق التفكير والتكلفة الحسابية، مع ضمان قدرة النماذج على تكييف استراتيجياتها التفكيرية لتلبية الاحتياجات الفريدة لكلّ مشكلة. تتمثل إحدى المشكلات الرئيسية في نماذج التفكير الحالية في عدم القدرة على تصميم عملية التفكير لتناسب تعقيدات المهام المختلفة. تعتمد معظم النماذج، بما في ذلك نماذج معروفة مثل o1 من OpenAI و DeepSeek-R1، على استراتيجية موحدة – عادةً ما تعتمد على سلسلة أفكار طويلة (Long CoT) في جميع المهام. يؤدي هذا إلى مشكلة “الإفراط في التفكير”، حيث تُنشئ النماذج تفسيراتٍ مُطوّلة وغير ضرورية للمهام البسيطة. ولا يُسبب هذا إهدارًا للموارد فحسب، بل يُقلّل أيضًا من الدقة، حيث يمكن أن يُدخِل التفكير المفرط معلوماتٍ غير ذات صلة.

حاولت مناهج مثل التوليد المُوجّه بالمطالبات أو تقدير ميزانية الرموز التخفيف من هذه المشكلة. ومع ذلك، تقتصر هذه الأساليب على اعتمادها على افتراضاتٍ مُحددة سلفًا، والتي لا تكون دائمًا موثوقةً للمهام المتنوعة. تشمل المحاولات الرامية إلى معالجة هذه المشكلات أساليب مثل GRPO (تحسين السياسة النسبية للمجموعة)، وآليات عقوبة الطول، وضوابط المطالبات القائمة على القواعد. بينما يُمكّن GRPO النماذج من تعلم استراتيجيات تفكيرٍ مختلفة من خلال مكافأة الإجابات الصحيحة، إلا أنه يؤدي إلى “انهيار التنسيق”، حيث تعتمد النماذج بشكلٍ متزايد على سلسلة الأفكار الطويلة، مما يُقلّل من التنسيقات الأكثر كفاءة، مثل سلسلة الأفكار القصيرة أو الإجابة المباشرة.

نموذج التفكير التكيفي (ARM) و Ada-GRPO: الحلّ الأمثل

قدّم فريق من الباحثين من جامعة فودان وجامعة ولاية أوهايو نموذج التفكير التكيفي (ARM)، والذي يُعدّل تنسيقات التفكير ديناميكيًا بناءً على صعوبة المهمة. يدعم ARM أربعة أنماط تفكير متميزة:

  • الإجابة المباشرة: للمهام البسيطة.
  • سلسلة أفكار قصيرة: للتفكير المُوجز.
  • الرمز: لحلّ المشكلات المُنظمة.
  • سلسلة أفكار طويلة: للتفكير المُعمّق متعدد الخطوات.

يعمل ARM في الوضع التكيفي افتراضيًا، ويختار التنسيق المناسب تلقائيًا، كما يوفر أوضاعًا مُوجّهةً بالتعليمات ومُوجّهةً بالتوافق لإجراء تحكمٍ صريح أو تجميعٍ عبر التنسيقات.

يكمن الابتكار الرئيسي في عملية التدريب الخاصة به، والتي تستخدم Ada-GRPO، وهو امتداد لـ GRPO يُدخِل آلية مكافأة تنوع التنسيق. هذا يمنع هيمنة سلسلة الأفكار الطويلة ويضمن استمرار ARM في استكشاف واستخدام تنسيقات تفكيرٍ أبسط عند الاقتضاء.

إطار عمل ARM ذو المرحلتين

تعتمد منهجية ARM على إطار عمل من مرحلتين:

  1. التحسين الدقيق المُشرف (SFT): يتم تدريب النموذج على 10.8 ألف سؤال، كلّ منها مُعلّق على أربعة تنسيقات تفكير، مُستقاة من مجموعات بيانات مثل AQuA-Rat ومُولّدة باستخدام أدوات مثل GPT-4o و DeepSeek-R1. تُعلّم هذه المرحلة النموذج بنية كلّ تنسيق تفكير، ولكنها لا تُغرس فيه القدرة على التكيّف.
  2. Ada-GRPO: يتلقى النموذج مكافآت مُقَيّمة لاستخدام التنسيقات الأقل شيوعًا، مثل الإجابة المباشرة أو سلسلة الأفكار القصيرة. يُضمن عامل الانحلال أن تتحول هذه المكافأة تدريجيًا إلى الدقة مع تقدم التدريب، مما يمنع التحيز طويل الأمد نحو الاستكشاف غير الفعال.

يُمكّن هذا الهيكل ARM من تجنب انهيار التنسيق ومطابقة استراتيجيات التفكير بصورة ديناميكية مع صعوبة المهمة، لتحقيق التوازن بين الكفاءة والأداء.

النتائج والخلاصة

أظهر ARM نتائج مُبهرة عبر معايير مُختلفة، بما في ذلك مهام الفهم العام، والتفكير الرياضي، والتفكير الرمزي. قلّل استخدام الرموز بنسبة 30% في المتوسط، مع انخفاض يصل إلى 70% للمهام البسيطة، مقارنةً بالنماذج التي تعتمد فقط على سلسلة الأفكار الطويلة. حقق ARM تسريعًا في سرعة التدريب بمقدار الضعف مقارنةً بنماذج GRPO، مما يُسرّع تطوير النموذج دون التضحية بالدقة. على سبيل المثال، حقق ARM-7B دقة 75.9% في مهمة AIME’25 الصعبة مع استخدام 32.5% أقل من الرموز.

يُعالج نموذج التفكير التكيفي عدم كفاءة نماذج التفكير المستمرة من خلال تمكين الاختيار التكيفي لتنسيقات التفكير بناءً على صعوبة المهمة. يضمن إدخال Ada-GRPO وإطار عمل التدريب متعدد التنسيقات عدم إهدار النماذج للموارد في الإفراط في التفكير. بدلاً من ذلك، يوفر ARM حلاً مرنًا وعمليًا لتحقيق التوازن بين الدقة والتكلفة الحسابية في مهام التفكير، مما يجعله نهجًا واعدًا لنماذج اللغات الكبيرة القابلة للتوسّع والفعّالة.

المصدر: MarkTechPost