إتقان حل المسائل الرياضية بالذكاء الاصطناعي: نموذج Agentic-R1 وإطار DualDistill

يُعدّ التقدم في مجال الذكاء الاصطناعي وتطبيقاته في حل المسائل الرياضية أمراً بالغ الأهمية. وقد حققت نماذج الاستدلال الطويلة القائمة على سلسلة من الخطوات (Long-CoT) نتائج متقدمة في هذا المجال، وذلك من خلال توليد مسارات استدلالية مع آليات للتحقق الذاتي والتدقيق المتكرر. لكن نماذج Long-CoT مفتوحة المصدر تعتمد بشكل أساسي على مسارات استدلالية بلغة طبيعية، مما يجعلها مكلفة حسابياً وعرضة للأخطاء في غياب آليات التحقق.

التحديات والفرص

على الرغم من أن الاستدلال المدعوم بالأدوات يوفر كفاءة وموثوقية أكبر للحسابات العددية واسعة النطاق من خلال أطر عمل مثل OpenHands التي تُدمج مُفسّرات الشفرات، إلا أن هذه الأساليب تواجه صعوبات في حل المشكلات المجردة أو المعقدة من الناحية المفاهيمية.

إطار عمل DualDistill ونموذج Agentic-R1

للتغلب على هذه التحديات، اقترح باحثون من جامعة كارنيجي ميلون إطار عمل DualDistill، وهو إطار عمل لتقطير المعرفة يجمع بين مسارات استدلالية من معلمَين متكاملين لإنشاء نموذج طالب موحد. يستخدم الإطار معلمًا موجهًا نحو الاستدلال ومعلمًا آخر مُعززًا بالأدوات لتطوير نموذج Agentic-R1، وهو نموذج يتعلم اختيار الاستراتيجية الأنسب لكل نوع من المشكلات ديناميكيًا.

يقوم Agentic-R1 بتنفيذ الشفرة للعمليات الحسابية والمهام الخوارزمية، بينما يستخدم الاستدلال اللغوي الطبيعي للمشكلات المجردة. ويستخدم DualDistill تكوين المسارات لتقطير المعرفة من كلا المعلمين المتكاملين، متبوعًا بالتقطير الذاتي. وقد استخدم الباحثون OpenHands كمعلم للاستدلال المدعوم بالأدوات، وDeepSeek-R1 كمعلم للاستدلال القائم على النص.

التقييم والمعايير

تم تقييم الأسلوب المقترح عبر معايير متعددة مثل DeepMath-L وCombinatorics300 لاختبار جوانب مختلفة من الاستدلال الرياضي. وقد قورن مع نماذج أساسية مثل DeepSeek-R1-Distill وQwen-2.5-Instruct. أظهر نموذج الطالب، Agentic-R1، تحسينات كبيرة في الأداء، مستفيدًا من استراتيجيات الاستدلال المدعومة بالأدوات واستراتيجيات الاستدلال اللغوي. وقد تفوق على نموذجين متشابهين في الحجم، كل منهما متخصص في استراتيجيات الاستدلال المدعومة بالأدوات (Qwen2.5-7B-Instruct) أو الاستدلال النقي (Deepseek-R1-Distill7B). يتفوق Agentic-R1 على النماذج القائمة على الأدوات من خلال استخدام استراتيجيات الاستدلال بذكاء عند الحاجة، مع الحفاظ على كفاءة أكبر مقارنة بنماذج الاستدلال النقي في المهام الرياضية القياسية.

التحليل النوعي وأنماط استخدام الأدوات

تُظهر الأمثلة النوعية أن Agentic-R1 يُظهر أنماطًا ذكية لاستخدام الأدوات، حيث يُنشّط أدوات تنفيذ الشفرة في 79.2% من مسائل Combinatorics300 التي تتطلب حسابات مكثفة، بينما يقلل التنشيط إلى 52.0% لمسائل مجموعة بيانات AMC الأبسط. يتعلم Agentic-R1 استدعاء الأدوات بشكل مناسب من خلال الضبط الدقيق الخاضع للإشراف فقط، دون تعليمات صريحة، مما يُحقق توازنًا فعالاً بين الكفاءة الحسابية ودقة الاستدلال.

المقاومة للمعلمين غير الكاملين

يبقى الإطار فعالاً حتى عند توجيهه من قبل معلمين غير كاملين. فعلى سبيل المثال، حقق المعلم المدعوم بالأدوات دقة تبلغ 48.4% فقط على Combinatorics300، ومع ذلك، تحسن نموذج الطالب من 44.7% إلى 50.9%، متفوقًا في النهاية على المعلم.

الخلاصة

باختصار، يُعدّ إطار عمل DualDistill فعالاً في الجمع بين نقاط القوة للاستدلال اللغوي الطبيعي وحل المشكلات المدعومة بالأدوات من خلال تقطير المعرفة المتكاملة من نموذجين معلمَين متخصصين في نموذج طالب شامل واحد، وهو Agentic-R1. من خلال تكوين المسارات والتقطير الذاتي، يتعلم Agentic-R1 اختيار الاستراتيجية الأنسب لكل مشكلة ديناميكيًا، مما يُحقق توازنًا بين الدقة والكفاءة الحسابية. تُظهر التقييمات عبر معايير متنوعة للاستدلال الرياضي أن Agentic-R1 يتفوق على كل من نماذج الاستدلال النقي ونماذج الاستدلال المدعومة بالأدوات، حتى عند التعلم من معلمين غير كاملين. يُبرز هذا العمل نهجًا واعدًا لبناء وكلاء ذكاء اصطناعي قادرين على دمج استراتيجيات حل المشكلات غير المتجانسة من أجل استدلال أكثر قوة وكفاءة.

رابط البحث

المصدر: MarkTechPost