نماذج في-4 للتفكير: ثورة في قدرات نماذج اللغات الكبيرة
تُعَدّ نماذج اللغات الكبيرة (LLMs) من أهم التطورات في مجال الذكاء الاصطناعي، إلا أنها لا تزال تواجه تحديات في أداء المهام التي تتطلب قدرات تفكيرية عالية، مثل حل المسائل الرياضية، والتخطيط الخوارزمي، وكتابة الأكواد البرمجية. فكثيرًا ما تفتقر هذه النماذج إلى القدرة على بناء سلاسل استدلال متعددة الخطوات أو التفكير في مراحل حل المشكلة الوسيطة، على الرغم من أدائها الجيد في معايير معالجة اللغات الطبيعية العامة. كما أن زيادة حجم النموذج، وهو أمر قد يحسّن من قدرته على التفكير، يُرافقه تكاليف حسابية وتنفيذية باهظة، خاصةً في التطبيقات العملية في مجالات التعليم والهندسة وأنظمة دعم القرار.
ما هي نماذج في-4 للتفكير؟
أطلقت مايكروسوفت مؤخراً مجموعة نماذج في-4 للتفكير (Phi-4 Reasoning)، والتي تتكون من ثلاثة نماذج: Phi-4-reasoning، وPhi-4-reasoning-plus، وPhi-4-mini-reasoning. تستند هذه النماذج إلى نموذج في-4 الأساسي (14 مليار معلمة)، وقد تم تدريبها خصيصاً للتعامل مع مهام التفكير المعقدة في الرياضيات، والمجالات العلمية، وحل المشكلات المتعلقة بالبرامج. وتختلف هذه النسخ في التوازن بين الكفاءة الحسابية ودقة المخرجات.
- Phi-4-reasoning: تم تحسينه من خلال الضبط الدقيق الخاضع للإشراف.
- Phi-4-reasoning-plus: يمتد هذا النموذج إلى ما هو أبعد من خلال تعلم التعزيز القائم على النتائج، ويهدف بشكل خاص إلى تحسين الأداء في المهام عالية التباين مثل الرياضيات على مستوى المنافسة.
- Phi-4-mini-reasoning: نسخة أصغر وأكثر كفاءة من حيث الحساب.
تم إصدار هذه النماذج مفتوحة المصدر مع تفاصيل التدريب وسجلات التقييم الشفافة، بما في ذلك تصميم المعايير، وهي متاحة على منصة Hugging Face لضمان إمكانية التكرار والوصول العام.
التكوين التقني والتطورات المنهجية
تعتمد نماذج في-4 للتفكير على بنية في-4 الأساسية مع تحسينات محددة لسلوك النموذج ونظام التدريب. وتشمل القرارات المنهجية الرئيسية:
الضبط الدقيق الخاضع للإشراف ذو البنية المنظمة (SFT):
- تم اختيار أكثر من 1.4 مليون مُؤشر مع التركيز على حالات “الحدود” – وهي المشكلات التي تقع على حافة قدرات في-4 الأساسية.
- تم اختيار المؤشرات وتصفيةها للتأكيد على التفكير متعدد الخطوات بدلاً من الاستدعاء الحقائقي.
- تم توليد الاستجابات بشكل اصطناعي باستخدام o3-mini في وضع التفكير العالي.
تنسيق سلسلة الأفكار (Chain-of-Thought):
- لتسهيل التفكير المنظم، تم تدريب النماذج على توليد مخرجات باستخدام علامات
<think>
الصريحة، مما يشجع على الفصل بين مسارات التفكير والإجابات النهائية.
معالجة السياق الموسع:
- تم تعديل تردد RoPE الأساسي لدعم نافذة سياق 32 ألف رمز، مما يسمح بمسارات حل أعمق، وهو أمر مهم بشكل خاص في تنسيقات الأسئلة متعددة الأدوار أو طويلة الشكل.
تعلم التعزيز (Phi-4-reasoning-plus):
- باستخدام تحسين السياسة النسبية الجماعية (GRPO)، تم صقل Phi-4-reasoning-plus بشكل أكبر على مجموعة صغيرة مختارة من حوالي 6400 مشكلة رياضية.
- تم تصميم دالة مكافأة لتفضيل المخرجات الصحيحة والموجزة والمنظمة بشكل جيد، مع معاقبة الإطناب والتكرار وانتهاكات التنسيق. يُساعد هذا النظام التدريبي الذي يركز على البيانات والتنسيق على تحسين استخدام وقت الاستدلال وتعميم النموذج عبر المجالات، بما في ذلك مشكلات الاستدلال الرمزي غير المرئية.
التقييم والأداء المقارن
في مجموعة واسعة من معايير التفكير، تُظهر نماذج في-4 للتفكير و Phi-4-reasoning-plus نتائج تنافسية مقارنة بنماذج مفتوحة المصدر أكبر بكثير. يُظهر Phi-4-reasoning-plus أداءً قوياً ليس فقط في التقييمات المحددة للمجال، بل يتعمم أيضاً بشكل جيد على مشكلات التخطيط والجمعيات مثل TSP و 3SAT، على الرغم من عدم وجود تدريب صريح في هذه المجالات. وقد لوحظت أيضاً مكاسب في الأداء في اتباع التعليمات (IFEval) وأسئلة الإجابة الطويلة (FlenQA)، مما يشير إلى أن صياغة سلسلة الأفكار تُحسّن من فائدة النموذج بشكل أوسع.
الخاتمة والتأثيرات
تمثل نماذج في-4 للتفكير جهداً منهجياً دقيقاً لتعزيز قدرات النماذج الصغيرة في التفكير المنظم. من خلال الجمع بين التدريب القائم على البيانات، وضبط البنية، وتعلم التعزيز الأدنى ولكن الموجه بشكل جيد، تُثبت مايكروسوفت أن النماذج ذات الحجم 14 مليار معلمة يمكن أن تُطابق أو تتفوق على الأنظمة الأكبر بكثير في المهام التي تتطلب استدلالاً متعدد الخطوات وتعميماً. إن توفر النماذج مفتوحة المصدر والمعايير الشفافة يُشكل سابقة للتطوير المستقبلي في نماذج LLMs الصغيرة، خاصةً في المجالات التطبيقية حيث تُعتبر القابلية للتفسير والتكلفة والموثوقية ذات أهمية قصوى. ومن المتوقع أن يمتد العمل المستقبلي لقدرات التفكير إلى مجالات العلوم والتكنولوجيا والهندسة والرياضيات الإضافية، وتحسين استراتيجيات فك التشفير، واستكشاف تعلم التعزيز القابل للتطوير على آفاق أطول.
اترك تعليقاً