مقدمة: تعميم الاستدلال الرياضي

أظهرت نماذج اللغات الكبيرة واسعة النطاق، مثل DeepSeek-R1، والتي تستخدم الاستدلال المتسلسل الطويل (CoT)، نتائج جيدة في مسائل الرياضيات على مستوى الأولمبياد. ومع ذلك، تعتمد النماذج المدربة من خلال الضبط الدقيق الخاضع للإشراف أو التعلم المعزز على تقنيات محدودة، مثل تكرار قواعد الجبر المعروفة أو اللجوء إلى الهندسة الإحداثية في مسائل الأشكال الهندسية. ونظرًا لأن هذه النماذج تتبع أنماطًا مُتعلمة للاستدلال بدلاً من إظهار إبداع رياضي حقيقي، فإنها تواجه تحديات مع المهام المعقدة التي تتطلب رؤى أصيلة. كما أن مجموعات البيانات الرياضية الحالية غير مناسبة لتحليل المهارات الرياضية التي يمكن أن تتعلمها نماذج التعلم المعزز. تُدمج النصوص الضخمة مجموعة من أسئلة الرياضيات التي تختلف في الموضوع والدرجة من الصعوبة، مما يجعل من الصعب عزل مهارات الاستدلال المحددة.

قيود مقاييس الأداء الرياضية الحالية

تركز الطرق الحالية، مثل التعميم خارج نطاق التوزيع، على معالجة توزيعات الاختبار التي تختلف عن بيانات التدريب، وهو أمر بالغ الأهمية للاستدلال الرياضي والنمذجة الفيزيائية والتنبؤ المالي. تهدف تقنيات التعميم التجميعي إلى مساعدة النماذج على دمج المهارات المُتعلمة بشكل منهجي. قام الباحثون بإنشاء مجموعات بيانات من خلال طرق مختلفة لقياس القدرات الرياضية، والتي تشمل توظيف البشر لكتابة مسائل مثل GSM8K و MinervaMath، وجمع أسئلة الامتحانات مثل AIME و OlympiadBench، و استخراج و تصفية نصوص الامتحانات مثل NuminaMath و BigMath. ومع ذلك، تفتقر هذه الأساليب إما إلى التحدي الكافي لنماذج اللغات الكبيرة الحديثة أو تفشل في توفير دقة التحليل.

مقاييس أوميغا: معيار مُتحكم به لقياس مهارات الاستدلال

اقترح باحثون من جامعة كاليفورنيا، و Ai2، وجامعة واشنطن، و dmodel.ai، مقياس أوميغا، وهو معيار مصمم لتقييم ثلاثة أبعاد من التعميم خارج نطاق التوزيع، مستوحى من تصنيف Boden للإبداع. يقوم بإنشاء أزواج تدريب واختبار مُطابقة مصممة لعزل مهارات الاستدلال المحددة عبر ثلاثة أبعاد: الاستكشافي، والتجميعي، والتحويلي. تُبنى مسائل الاختبار والتدريب في أوميغا باستخدام قوالب مُهندسة بعناية، مما يسمح بالتحكم الدقيق في التنوع والتعقيد واستراتيجيات الاستدلال المحددة المطلوبة للحلول. علاوة على ذلك، يستخدم 40 مُولد مشكلة مُعلمة عبر ستة مجالات رياضية: الحساب، والجبر، والتوافقيات، ونظرية الأعداد، والهندسة، والمنطق والألغاز.

التقييم على نماذج اللغات الكبيرة المتقدمة وإعداد التعلم المعزز

قام الباحثون بتقييم أربعة نماذج متقدمة، بما في ذلك DeepSeek-R1، و Claude-3.7-Sonnet، و OpenAI-o3-mini، و OpenAI-o4-mini، عبر مستويات تعقيد مختلفة. بالنسبة لتجارب تعميم التعلم المعزز، يطبق الإطار خوارزمية GRPO على 1000 مسألة تدريب باستخدام نماذج Qwen2.5-7B-Instruct و Qwen2.5-Math-7B. يقوم التعميم الاستكشافي بالتدريب على مستويات تعقيد محدودة وتقييمها على مسائل ذات تعقيد أعلى. يتضمن التعميم التجميعي تدريب النماذج على مهارات فردية بمعزل عن بعضها البعض واختبار قدرتها على دمج وتطبيق هذه المهارات بفعالية. يقوم التعميم التحويلي بتدريب النماذج على أساليب الحلول التقليدية و تقييم الأداء على مسائل تتطلب استراتيجيات غير تقليدية.

ملاحظات الأداء وأنماط سلوك النموذج

تميل نماذج اللغات الكبيرة القائمة على الاستدلال إلى الأداء الأسوأ مع زيادة تعقيد المسألة، وغالبًا ما تجد الحلول الصحيحة مبكرًا ولكنها تنفق الكثير من الرموز في التحقق غير الضروري. يعزز التعلم المعزز المُطبق فقط على مسائل منخفضة التعقيد التعميم على مسائل متوسطة التعقيد، مع مكاسب أكبر على الأمثلة داخل المجال أكثر من الأمثلة خارج نطاق التوزيع، مما يشير إلى فعالية التعلم المعزز في تعزيز الأنماط المألوفة. على سبيل المثال، في مجال منطق Zebra، يحقق النموذج الأساسي دقة 30٪ فقط. ومع ذلك، زاد تدريب التعلم المعزز الأداء بمقدار 61 نقطة على الأمثلة داخل المجال و 53 نقطة على الأمثلة خارج نطاق التوزيع بدون ضبط دقيق خاضع للإشراف.

خاتمة: نحو تطوير الاستدلال التحويلي

في الختام، قدم الباحثون مقياس أوميغا، وهو معيار يُعزل ويُقيّم ثلاثة محاور من التعميم خارج نطاق التوزيع في الاستدلال الرياضي: الاستكشافي، والتجميعي، والتحويلي. تكشف الدراسة التجريبية عن ثلاث رؤى: (أ) يُحسّن الضبط الدقيق للتعلم المعزز الأداء بشكل كبير في مهام التعميم داخل التوزيع والاستكشافي، (ب) تقتصر فوائد التعلم المعزز للمهام التجميعية، (ج) يفشل التعلم المعزز في إحداث أنماط استدلال جديدة حقًا. تُبرز هذه النتائج قيدًا أساسيًا: يمكن للتعلم المعزز أن يُضخم اتساع وعمق حل المشكلات، لكنه يفتقر إلى تحقيق القفزات الإبداعية الضرورية للاستدلال التحويلي. ينبغي للأعمال المستقبلية استكشاف بناء المناهج والتحكم في الاستدلال الفائق.

يمكنكم الاطلاع على الورقة البحثية، وصفحة المشروع، وصفحة GitHub. جميع حقوق هذه الدراسة تعود إلى الباحثين في هذا المشروع.

المصدر: MarkTechPost