تحسين الاستدلال متعدد اللغات في نماذج اللغات الكبيرة: دراسة جديدة
تُستخدم نماذج اللغات الكبيرة القائمة على الاستدلال (RLMs) بشكل متزايد لمحاكاة حل المشكلات خطوة بخطوة من خلال توليد سلاسل استدلال طويلة ومنظمة. تقوم هذه النماذج بتحليل الأسئلة المعقدة إلى أجزاء أبسط، وبناء خطوات منطقية للوصول إلى الإجابات. وقد أثبتت هذه الطريقة، المعروفة باسم “سلسلة الأفكار” (CoT)، فعاليتها في تحسين جودة المخرجات، خاصة في المهام الرياضية والمنطقية.
تحديات الاستدلال متعدد اللغات في نماذج اللغات الكبيرة
على الرغم من القدرات متعددة اللغات في العديد من النماذج الكبيرة الحديثة، إلا أن تركيز البحث والتدريب ظلّ مركزًا بشكل كبير على اللغة الإنجليزية، مما ترك فجوة في فهم مدى نجاح هذه المهارات في الاستدلال عند تطبيقها على لغات أخرى. يتمثل أحد التحديات الرئيسية في أن معظم نماذج RLMs مُحسّنة على بيانات إنجليزية، مما يحد من قدرتها على الاستدلال بفعالية في لغات أخرى. يصبح هذا الأمر أكثر إشكالية بالنسبة للغات ذات الموارد المحدودة التي تحتوي على أمثلة تدريبية محدودة. قد تلجأ النماذج إلى أنماط التفكير الإنجليزية، مما ينتج عنه مخرجات ذات جودة أقل عند مطالبتها بلغة أخرى. علاوة على ذلك، قد تتسبب الاختلافات في بنية اللغة في أخطاء في الاستدلال، خاصة عندما يُتوقع من نموذج مُدرّب بلغة واحدة أن يستنتج المنطق بلغة أخرى دون محاذاة لغوية كافية.
دراسة جامعة براون و MBZUAI: توسيع نطاق الحساب وقت الاختبار
ركز فريق بحثي مشترك بين جامعة براون ومعهد محمد بن زايد للذكاء الاصطناعي (MBZUAI) على تقييم كيفية تأثير زيادة الحساب وقت الاختبار، خاصة من خلال سلاسل استدلال أطول، على قدرات الاستدلال متعدد اللغات في نماذج RLMs التي تُركز على اللغة الإنجليزية. درسوا نماذج s1 القائمة على بنية Qwen2.5-Instruct، والتي تم تحسينها على 1000 عينة من مسائل الاستدلال في مجال العلوم والتكنولوجيا والهندسة والرياضيات (STEM) باللغة الإنجليزية. تم اختبار هذه النماذج عبر لغات مختلفة باستخدام معايير قياسية مثل MGSM و Global-MMLU للإجابة على أربعة أسئلة أساسية:
- فعالية توسيع نطاق وقت الاختبار عبر اللغات.
- سلوكيات خلط اللغات.
- الأداء تحت إكراه اللغة.
- التعميم عبر المجالات.
النتائج الرئيسية للدراسة
أظهرت التجارب المتعمقة أن النماذج التي تحتوي على المزيد من المعلمات استفادت بشكل كبير من زيادة عدد رموز التفكير وقت الاختبار. حقق نموذج s1 ذو 14 مليار معلمة، عند توسيعه إلى 8000 رمز تفكير، دقة متوسطة بلغت 81% عبر اللغات غير الإنجليزية في اختبار MGSM. وقد تفوق على نماذج مثل Qwen2.5-14B-Instruct بنسبة +23.1% باللغة الفرنسية و +41.6% باللغة السواحيلية. حتى مع تدريب النموذج باللغة الإنجليزية فقط، تجاوز أداءه أداء نماذج أكبر مثل DeepSeek’s R1-Distill-Qwen-32B في العديد من اللغات الغنية بالموارد.
وجدت الدراسة أيضًا أن الاستدلال باللغات الغنية بالموارد مثل الصينية والإنجليزية أكثر كفاءة، حيث يتطلب عددًا أقل من الرموز ويُقدم نتائج أفضل من اللغات ذات الموارد المحدودة مثل السواحيلية أو التيلجو. كانت إحدى الملاحظات الرئيسية هي سلوك “الاقتباس والتفكير”، حيث قام النموذج باقتباس عبارات غير إنجليزية من المطالبات واستدل باللغة الإنجليزية. أشار هذا النمط المتسق عبر لغات مثل اليابانية والروسية إلى أن النموذج استخدم فهمه متعدد اللغات لتفسير المدخلات غير الإنجليزية دون ترجمة مباشرة.
أكدت تجارب إكراه اللغة أن إكراه الاستدلال باللغات الغنية بالموارد أدى إلى نتائج أفضل، بينما أدى الاستدلال الصارم باللغات ذات الموارد المحدودة إلى انخفاض كبير في الدقة وعدم كفاءة في الحساب.
القيود والاتجاهات المستقبلية
على الرغم من النتائج القوية في المهام المتعلقة بالعلوم والتكنولوجيا والهندسة والرياضيات، إلا أن مكاسب الأداء لم تنتقل إلى مجالات مثل المعرفة العامة الثقافية أو العلوم الإنسانية. في معايير قياسية مثل FORK، أدى زيادة رموز التفكير في بعض الأحيان إلى تقليل الأداء، مما يشير إلى فرط التفكير.
تخلص الدراسة إلى أنه في حين أن توسيع نطاق وقت الاختبار يُحسّن الاستدلال متعدد اللغات في اللغات الغنية بالموارد، إلا أنه لا يتعمم بفعالية على المهام خارج المجال أو اللغات ذات الموارد المحدودة، مما يشير إلى الحاجة إلى مزيد من البحث في التدريب متعدد اللغات المتوازن وتكييف المجال.
اترك تعليقاً