هندسة التفكير في نماذج اللغات الكبيرة: تجاوز لحظات الإلهام المفاجئة
تُظهر نماذج التفكير الضخمة (LRMs) مثل o1 و o3 من OpenAI، و DeepSeek-R1، و Grok 3.5، و Gemini 2.5 Pro قدرات قوية في الاستدلال الطويل والمتسلسل، وغالبًا ما تُظهر سلوكيات متقدمة مثل التصحيح الذاتي، والتراجع، والتحقق – تُعرف مجتمعة باسم “لحظات الإلهام المفاجئة”. وقد لوحظ ظهور هذه السلوكيات من خلال التعلم المعزز القائم على النتائج دون الحاجة إلى ضبط دقيق مُشرف.
نماذج التعلم المعزز والحدود العملية
أثبتت نماذج مثل DeepSeek-R1 وتكراراتها مفتوحة المصدر (مثل TinyZero و Logic-RL) أن خطوط أنابيب التعلم المعزز المصممة بعناية – باستخدام مكافآت قائمة على القواعد، والتعلم التدريجي، والتدريب المُهيكل – يمكن أن تُحدث هذه القدرات الاستنتاجية الانعكاسية. ومع ذلك، تميل هذه السلوكيات الناشئة إلى أن تكون غير متوقعة وغير متسقة، مما يحد من فعاليتها العملية وقابلية توسيع نطاقها.
منهجيات مُحسّنة للاستدلال
ولمعالجة هذه المشكلة، قام الباحثون باستكشاف أطر عمل التعلم المعزز المُهيكلة التي تستهدف أنواعًا محددة من الاستدلال، مثل الاستنتاج، والاستنتاج الاستنتاجي، والاستقراء. تتضمن هذه الأساليب محاذاة النماذج المتخصصة، ودمجها في فضاء المعلمات، وتطبيق التعلم المعزز المستمر الخاص بالمجال. تستخدم أدوات مثل Logic-RL التعلم المعزز المُشروط بالقواعد لحل الألغاز المنطقية، مما يحسن قابلية النقل إلى مهام مثل الاستدلال الرياضي. في الوقت نفسه، تقترح أعمال أخرى آليات لتعزيز قوة الاستدلال، مثل تدريب النماذج على التفكير بشكلٍ مُتقدمٍ وتراجعي، أو نقد نتائجها ذاتيًا بشكلٍ متكرر.
تشير الدراسات التي تحلل “لحظات الإلهام المفاجئة” إلى أن هذه السلوكيات تنبع من تحولات داخلية في عدم اليقين، والتمثيل الكامن، والتقييم الذاتي، مما يوفر رؤى جديدة حول هندسة نماذج استدلال أكثر موثوقية.
محاذاة القدرات الأساسية للاستدلال
يعالج باحثون من جامعة سنغافورة الوطنية، وجامعة Tsinghua، وبحث Salesforce AI Research حدود الاعتماد على “لحظات الإلهام المفاجئة” العفوية في نماذج اللغات الكبيرة من خلال محاذاة هذه النماذج صراحةً مع ثلاث قدرات استدلال أساسية: الاستنتاج، والاستقراء، والاستنتاج الاستنتاجي. يقدمون خط أنابيب من ثلاث مراحل: محاذاة القدرة الفائقة الفردية، ودمج فضاء المعلمات، والتعلم المعزز الخاص بالمجال، مما يحسن أداء النموذج بشكل كبير.
باستخدام مجموعة مهام تم إنشاؤها برمجيًا وقابلة للتحقق ذاتيًا، عزز نهجهم الدقة مقارنة بالخطوط الأساسية المُضبوطة بالتوجيهات بنسبة تزيد عن 10٪، مع مكاسب إضافية من التعلم المعزز الخاص بالمجال. يقدم إطار المحاذاة المُهيكل هذا طريقة قابلة للتوسيع وتعميم لتحسين الاستدلال عبر مجالات الرياضيات والترميز والعلوم.
تصميم المهام وخط أنابيب التدريب
صمم الباحثون مهامًا مُحاذاة مع الاستنتاج، والاستقراء، والاستنتاج الاستنتاجي باستخدام تنسيق مُهيكل “معطى اثنين، استنتج الثالث” بناءً على الفرضية (H)، والقاعدة (R)، والملاحظة (O). يُصاغ الاستنتاج على أنه فحص القابلية للتحقيق، والاستقراء على أنه توقع التسلسل المُقنع، والاستنتاج الاستنتاجي على أنه استنتاج عكسي لبيان القواعد. يتم إنشاء هذه المهام اصطناعياً والتحقق منها تلقائيًا.
يتضمن خط أنابيب التدريب ثلاث مراحل:
- تدريب نماذج مستقلة لكل نوع من أنواع الاستدلال باستخدام REINFORCE ++ مع مكافآت مُهيكلة.
- دمج النماذج من خلال الاستيفاء الموزون للمعلمات.
- ضبط النموذج الموحد بدقة على بيانات خاصة بالمجال عبر التعلم المعزز، وعزل فائدة محاذاة القدرة الفائقة.
التقييم والنتائج
تقيم الدراسة النماذج المُحاذاة مع القدرات الفائقة – الاستنتاج، والاستقراء، والاستنتاج الاستنتاجي – باستخدام إعداد التعلم التدريجي عبر مستويات الصعوبة. تعمم النماذج المُدرّبة على مهام اصطناعية بقوة على سبعة معايير غير مرئية للرياضيات والترميز والعلوم. في كل من المقاييس 7B و 32B، تتفوق النماذج المُحاذاة والمدمجة مع القدرات الفائقة باستمرار على الخطوط الأساسية المُضبوطة بالتوجيهات، مع تقديم النموذج المدمج لأعلى مكاسب. يؤدي التعلم المعزز الخاص بالمجال المستمر من نقاط التحقق المدمجة هذه (Domain-RL-Meta) إلى مزيد من التحسينات على ضبط التعلم المعزز القياسي (Domain-RL-Ins)، خاصة في معايير الرياضيات. بشكل عام، يعزز نهج المحاذاة قدرات الاستدلال، وتتناسب فوائده مع حجم النموذج، مما يعزز بشكل كبير سقوف الأداء عبر المهام.
الخلاصة
تُظهر الدراسة أن نماذج التفكير الضخمة يمكن أن تُطور مهارات متقدمة في حل المشكلات دون الاعتماد على “لحظات الإلهام المفاجئة” غير المتوقعة. من خلال محاذاة النماذج مع ثلاث قدرات استدلال أساسية – الاستنتاج، والاستقراء، والاستنتاج الاستنتاجي – باستخدام مهام قابلة للتحقق ذاتيًا، يخلق المؤلفون وكلاء متخصصين يمكن دمجهم بفعالية في نموذج واحد. يتفوق هذا النموذج المدمج على الخطوط الأساسية المُضبوطة بالتوجيهات بنسبة تزيد عن 10٪ في مهام التشخيص وما يصل إلى 2٪ في معايير العالم الحقيقي. عندما يتم استخدامه كنقطة انطلاق للتعلم المعزز الخاص بالمجال، فإنه يرفع الأداء بنسبة 4٪ أخرى. يقدم هذا النهج التدريبي النمطي والمنهجي أساسًا قابلًا للتوسيع وقابل للتحكم لبناء أنظمة استدلال موثوقة وقابلة للتفسير.
[الورقة البحثية](رابط الورقة البحثية) [صفحة GitHub](رابط صفحة GitHub)
اترك تعليقاً