تعزيز المنطق المجرد في نماذج اللغات الكبيرة عبر التعزيز: تقنية AbstRaL

تُظهر نماذج اللغات الكبيرة (LLMs) قدرات استنتاجية مُذهلة، إلا أنها غالباً ما تعاني من ضعف في التعامل مع التغيرات الطفيفة في صياغة الأسئلة أو القيم العددية أو إضافة معلومات غير ذات صلة. يُعرف هذا الضعف باسم “التعميم الضعيف خارج التوزيع” (OOD)، والذي يؤدي إلى انخفاض دقة النتائج بشكل ملحوظ، حتى في المهام الرياضية البسيطة. ولمعالجة هذه المشكلة، اقترحت العديد من الحلول، بما في ذلك زيادة البيانات التدريبية وتقنيات التفكير المتسلسل (Chain-of-Thought) وشجرة التفكير (Tree-of-Thought). لكن يبقى التحدي الرئيسي هو تمكين هذه النماذج من فهم المنطق الكامن وراء المشكلة، بدلاً من مجرد حفظ الأنماط السطحية.

تقنية AbstRaL: تعليم نماذج اللغات الكبيرة التفكير المجرد

تُقدم تقنية AbstRaL، التي طورتها فرق بحثية من أبل ومعهد EPFL السويسري الفيدرالي للتكنولوجيا في لوزان، حلاً مبتكراً لهذه المشكلة. بدلاً من الاعتماد على توليد كم هائل من أمثلة التدريب المتنوعة، والتي تتطلب موارد حاسوبية ضخمة، تعتمد AbstRaL على التعلم المعزز لتعليم نماذج اللغات الكبيرة فهم البنية الأساسية للمسائل الاستنتاجية باستخدام رموز رمزية.

آلية عمل AbstRaL: أربع خطوات للتفكير الرمزي المجرد

تتكون تقنية AbstRaL من أربع خطوات رئيسية:

  1. التعريف الرمزي للمتغيرات: تحديد المتغيرات الرئيسية في السؤال واستبدالها بعلامات رمزية.
  2. التدريب على البيانات الرمزية: استخدام بيانات مُصممة خصيصاً (GranulAR) لتعليم النموذج التفكير خطوة بخطوة باستخدام هذه الرموز المجردة.
  3. استخراج البنية المجردة: استخراج البنية العامة للاستنتاج (التجريد) من الإجابة الرمزية.
  4. الحساب باستخدام القيم الأصلية: استخدام هذه البنية المجردة مع القيم الأصلية لحساب الإجابة الصحيحة.

يستخدم التعلم المعزز مع مكافأتين: إحداهما لدقة الإجابة والأخرى لتشابهها مع النموذج الرمزي، مما يُعزز قدرة النموذج على توليد أنماط استنتاجية دقيقة ومستقلة عن السياق.

تقييم AbstRaL على معيار GSM8K

تم تقييم تقنية AbstRaL على مهام استنتاجية رياضية باستخدام نماذج مثل Llama-3 و Qwen-2، مع تدريبها على مجموعة بيانات GranulAR التي تعيد صياغة المسائل الرياضية بشكل رمزي مجرد. تم اختبار متانة النموذج باستخدام إصدارات معدلة من مسائل GSM8K، مع تغيير الأرقام والأسماء والصياغة. أظهرت نتائج الاختبار تفوق AbstRaL على الأساليب التقليدية، مثل Chain-of-Thought، من حيث الاتساق ودقة النتائج، خاصةً مع النماذج الأصغر حجماً.

الخلاصة: نحو نماذج لغات كبيرة أكثر متانة

تُعد AbstRaL طريقة فعالة لتعزيز التفكير المجرد في نماذج اللغات الكبيرة، مما يجعلها أكثر مقاومة للتغيرات السطحية في المشاكل. على عكس طرق ضبط النموذج التقليدية أو زيادة البيانات، تستخدم AbstRaL التعلم المعزز لتدريب النماذج على أساسيات GranulAR التي تجمع بين Chain-of-Thought السقراطية والتجريد التفصيلي. أظهرت النتائج أن تعليم النماذج التجريد يُحسّن من متانة الاستنتاج بشكل أكثر فعالية من الاعتماد فقط على الإشراف المباشر.

مراجع إضافية:

  • [رابط البحث العلمي](أضف رابط البحث العلمي هنا)

المصدر: MarkTechPost