تحسين استنتاج نماذج اللغات الكبيرة: إطار عمل ASTRO لتحقيق قفزات نوعية في الأداء
يُشكل تحسين قدرات الاستنتاج في نماذج اللغات الكبيرة (LLMs) دون إجراء تغييرات على بنيتها المعمارية تحديًا رئيسيًا في تطوير تقنيات الذكاء الاصطناعي وتطبيقاتها. وقد قدم باحثون من Meta AI وجامعة واشنطن إطار عمل ASTRO – اختصارًا لـ (Autoregressive Search-Taught Reasoner) – وهو إطار عمل مبتكر ما بعد التدريب مصمم لتعزيز قدرات الاستنتاج في نموذج Llama-3.1-70B-Instruct. يتميز ASTRO بقدرته على تعليم النماذج إجراء بحث سياقي، والتأمل الذاتي، والرجوع للخلف، وهي آليات ترتبط غالبًا بحل المشكلات البشرية وخوارزميات البحث الرمزي التقليدية.
منهجية إطار عمل ASTRO
تعتمد منهجية ASTRO على البحث الشجري باستخدام مونت كارلو (Monte Carlo Tree Search – MCTS) في مسارات حل المسائل الرياضية. يستكشف هذا البحث المسارات الصحيحة والخاطئة على حد سواء. تكمن الابتكار الرئيسي في تقنية استنساخ الإجراءات: يتم تحويل أشجار البحث بالكامل إلى سلاسل طويلة من الأفكار (Chain-of-Thoughts – CoT) تُشفر بشكل طبيعي كل من حالات الفشل والتعافي من خلال التأمل الذاتي والرجوع للخلف. ثم تتم إعادة كتابة هذه السلاسل الخطية بلغة طبيعية، وتُستخدم كأساس لضبط دقيق مُشرف (Supervised Fine-Tuning – SFT).
ضبط دقيق مُشرف: حقن مُسبقات البحث
يُجري ASTRO ضبطًا دقيقًا مُشرفًا لنموذج Llama-3.1-70B-Instruct على 36.1 ألف حل مُعدّ من مجموعات بيانات MATH و AMC/AIME و AoPS. يحقق النموذج المُدرب باستخدام ASTRO-SFT النتائج التالية:
- MATH 500: 69.6%
- AMC 2023: 51.9%
- AIME 2024: 16.3%
تُعد هذه النتائج تنافسية أو تتجاوز تلك التي حققتها النماذج الأساسية أو المتغيرات SPOC/Step-KTO المدربة دون مُسبقات بحث صريحة. والأهم من ذلك، أن عملية الضبط الدقيق المُشرف وحدها – دون التعلم المعزز – تُحقق زيادات في الأداء من خلال تعريض النموذج لبيانات استنتاج مُهيكلة بالبحث.
التعلم المعزز مع تهيئة مُدركة للبحث
يمضي ASTRO قدماً في عملية التعلم المعزز (Reinforcement Learning – RL) من خلال البدء من نقطة فحص SFT وتشغيل حلقة RL باستخدام خوارزمية مُعدّلة من خوارزمية تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization – GRPO). على عكس التعلم المعزز القائم على التفضيلات القياسية، يستخدم ASTRO إشارات مكافأة قابلة للتحقق (+1 للصحيح، -1 للخطأ) على 8.7 ألف مُحفز متوسط الصعوبة. خلال التدريب، يزداد طول توليد سلسلة الأفكار في النموذج – من حوالي 1.8 ألف إلى حوالي 6 آلاف رمز – مما يُظهر استكشافًا داخليًا أعمق. يحقق نموذج ASTRO-RL النتائج التالية:
- MATH 500: 81.8%
- AMC 2023: 64.4%
- AIME 2024: 30.0%
تُنافس هذه النتائج أو تتجاوز نماذج ذات معلمات أكبر، وتؤكد أهمية تهيئة ASTRO المُدركة للبحث.
العلاقة بين الرجوع للخلف ونجاح الاستنتاج
ملاحظة تجريبية لافتة هي الارتباط الإيجابي بين تواتر الرجوع للخلف والأداء. مع تقدم التدريب، يُظهر ASTRO-RL المزيد من الإجراءات التصحيحية الذاتية والاستكشاف الأعمق. تتجاوز معاملات الارتباط بيرسون عبر المعايير 0.8، مما يشير إلى أن التأمل الذاتي والرجوع للخلف ليسا مجرد سلوكيات شكلية، بل مرتبطان وظيفيًا بدقة أعلى.
رؤى مقارنة وتأثير أوسع
تكشف التجارب الضابطة التي تُقارن ASTRO مع النماذج المُدرّبة على حلول سلسلة الأفكار المباشرة (بدون مُسبقات بحث) أن ASTRO يتفوق باستمرار، حتى عند تدريبه على نفس مجموعات المشكلات وأشجار البحث. على سبيل المثال، يتفوق ASTRO-RL على Direct-RL بما يلي:
- +2% على MATH 500
- +3.9% على AMC 2023
- +2.9% على AIME 2024
علاوة على ذلك، يمكن تصور مخرجات ASTRO كرُسم بيانية موجهة، حيث تُمثل العُقد خطوات الاستنتاج، وتُمثل الحواف التحولات، والتأملات، والتصحيحات – مما يُسهل قابلية التفسير بشكل أفضل.
خلاصة
يُظهر إطار عمل ASTRO أن نماذج اللغات الكبيرة مثل Llama 3 يمكنها تعلم الاستنتاج بشكل أكثر فعالية – ليس من خلال نماذج أكبر أو تدريب أولي أطول، بل من خلال تقنيات ما بعد التدريب المنهجية. من خلال محاكاة خوارزميات البحث بلغة طبيعية، يُمكّن ASTRO النماذج من التفكير قبل الإجابة، والشك في خطواتها الخاصة، وتصحيح نفسها أثناء عملية الاستنتاج. يُحدد هذا الإطار معيارًا جديدًا لضبط نماذج اللغات الكبيرة المفتوحة لتحقيق استنتاج يشبه الاستنتاج البشري من خلال السلوكيات المُستوحاة من البحث.
اترك تعليقاً