تعزيز قدرات الاستدلال المعقدة في نماذج اللغات الضخمة: دراسة جديدة من معهد ماساتشوستس للتكنولوجيا
تُظهر نماذج اللغات الضخمة (LLMs) قدرات مذهلة، إلا أنها غالبًا ما تعجز عن إنجاز المهام الجديدة التي تتطلب مهارات استدلالية معقدة. ففي حين قد تتفوق هذه النماذج في تلخيص التقارير المالية لشركة محاسبة، إلا أنها قد تفشل بشكل غير متوقع عند تكليفها بمهمة التنبؤ بالاتجاهات السوقية أو تحديد المعاملات الاحتيالية. لهذا السبب، قام باحثون في معهد ماساتشوستس للتكنولوجيا (MIT) بالتحقيق في كيفية استخدام تقنية تدريب محددة لتعزيز أداء النموذج في حل المشكلات الصعبة وغير المألوفة.
التدريب أثناء وقت الاختبار: نهج جديد لتعزيز الأداء
ركزت الدراسة على “التدريب أثناء وقت الاختبار” (Test-time training)، وهي طريقة تتضمن تحديث بعض العمليات الداخلية للنموذج مؤقتًا أثناء الاستخدام. أظهر الباحثون أن هذه الطريقة تُحسّن الدقة بمقدار ستة أضعاف. وقد طوروا إطارًا لتنفيذ استراتيجية التدريب أثناء وقت الاختبار باستخدام أمثلة من المهمة الجديدة لتعظيم هذه المكاسب. يُمكن لهذا العمل تحسين مرونة النموذج، مما يسمح لنموذج LLMs جاهز للاستخدام بالتكيف مع المهام المعقدة التي تتطلب التخطيط أو التجريد. وهذا بدوره يُمكن أن يؤدي إلى نماذج LLMs أكثر دقة في العديد من التطبيقات التي تتطلب الاستنتاج المنطقي، من التشخيص الطبي إلى إدارة سلسلة التوريد.
كما يقول إكين أكيوريك، الباحث الرئيسي في الدراسة والحاصل على درجة الدكتوراه عام 2025: “التعلم الحقيقي – وهو ما قمنا به هنا باستخدام التدريب أثناء وقت الاختبار – هو شيء لا تستطيع هذه النماذج القيام به بمفردها بعد نشرها. لا يمكنها اكتساب مهارات جديدة أو التحسن في مهمة معينة. لكننا أظهرنا أنه إذا دفعت النموذج قليلاً للقيام بالتعلم الفعلي، سترى تحسينات هائلة في الأداء.”
شارك في الدراسة كل من: مهول داماني، لينلو تشيو، هان غو، وجيوتيش باري (طلاب دراسات عليا)، وآدم زويغر (طالب جامعي)، ويون كيم (أستاذ مساعد في الهندسة الكهربائية وعلوم الحاسوب وعضو في مختبر علوم الحاسوب والذكاء الاصطناعي)، وجاكوب أندرياس (أستاذ مشارك في الهندسة الكهربائية وعلوم الحاسوب وعضو في مختبر علوم الحاسوب والذكاء الاصطناعي). سيتم تقديم هذا البحث في المؤتمر الدولي لتعلم الآلة.
مقارنة بين التدريب أثناء وقت الاختبار والتعلم ضمن السياق
غالباً ما يحاول مستخدمو نماذج LLMs تحسين أداء نموذجهم في مهمة جديدة باستخدام تقنية تُسمى “التعلم ضمن السياق” (In-context learning). حيث يُغذّون النموذج ببعض الأمثلة من المهمة الجديدة كمدخلات نصية توجه مخرجات النموذج. لكن التعلم ضمن السياق لا يعمل دائمًا في المشكلات التي تتطلب المنطق والاستدلال.
درس باحثو MIT كيفية استخدام التدريب أثناء وقت الاختبار بالتزامن مع التعلم ضمن السياق لتعزيز الأداء في هذه المهام الصعبة. يتضمن التدريب أثناء وقت الاختبار تحديث بعض معلمات النموذج – المتغيرات الداخلية التي يستخدمها لإجراء التنبؤات – باستخدام كمية صغيرة من البيانات الجديدة الخاصة بالمهمة المطروحة.
تحسين كفاءة التدريب أثناء وقت الاختبار
استكشف الباحثون كيفية تفاعل التدريب أثناء وقت الاختبار مع التعلم ضمن السياق. درسوا خيارات التصميم التي تُعظم تحسينات الأداء التي يمكن الحصول عليها من نموذج LLMs عام الغرض. كما يقول داماني: “وجدنا أن التدريب أثناء وقت الاختبار هو شكل أقوى بكثير من التعلم. في حين أن توفير الأمثلة ببساطة يمكن أن يُعزز الدقة بشكل طفيف، فإن تحديث النموذج فعليًا بهذه الأمثلة يمكن أن يؤدي إلى أداء أفضل بكثير، خاصة في المجالات الصعبة.”
يتطلب التعلم ضمن السياق مجموعة صغيرة من أمثلة المهام، بما في ذلك المشكلات وحلولها. يستخدم الباحثون هذه الأمثلة لإنشاء مجموعة بيانات خاصة بالمهمة اللازمة للتدريب أثناء وقت الاختبار. لتوسيع حجم هذه المجموعة من البيانات، يقومون بإنشاء مدخلات جديدة عن طريق تغيير المشكلات والحلول في الأمثلة قليلاً، مثل قلب بعض بيانات الإدخال أفقيًا. وجدوا أن تدريب النموذج على مخرجات هذه المجموعة الجديدة من البيانات يؤدي إلى أفضل أداء.
بالإضافة إلى ذلك، قام الباحثون بتحديث عدد صغير فقط من معلمات النموذج باستخدام تقنية تُسمى “التكيف منخفض الرتبة” (low-rank adaptation)، مما يُحسّن من كفاءة عملية التدريب أثناء وقت الاختبار. كما تقول أكيوريك: “هذا مهم لأن طريقتنا يجب أن تكون فعالة إذا كانت ستُستخدم في العالم الحقيقي. وجدنا أنه يمكنك الحصول على تحسينات هائلة في الدقة بكمية صغيرة جدًا من تدريب المعلمات.”
يُعد تبسيط العملية أمرًا أساسيًا، نظرًا لأن التدريب أثناء وقت الاختبار يُستخدم على أساس كل حالة على حدة، مما يعني أن المستخدم سيحتاج إلى القيام بذلك لكل مهمة فردية. التحديثات على النموذج مؤقتة فقط، ويعود النموذج إلى شكله الأصلي بعد إجراء التنبؤ. تضيف أكيوريك أن النموذج الذي يستغرق عادةً أقل من دقيقة للإجابة على استعلام قد يستغرق خمس أو عشر دقائق لتقديم إجابة باستخدام التدريب أثناء وقت الاختبار.
وتقول: “لا نرغب في القيام بذلك لجميع استفسارات المستخدمين، لكنه مفيد إذا كانت لديك مهمة صعبة للغاية تريد من النموذج حلها بشكل جيد. قد تكون هناك أيضًا مهام صعبة للغاية بالنسبة لنموذج LLMs لحلها بدون هذه الطريقة.”
نتائج الدراسة وآفاق المستقبل
اختبر الباحثون نهجهم على مجموعتي بيانات مرجعيتين من المشكلات المعقدة للغاية، مثل ألغاز الذكاء. وقد عززت هذه الطريقة الدقة بمقدار يصل إلى ستة أضعاف مقارنة بالتقنيات التي تستخدم التعلم ضمن السياق فقط. أظهرت المهام التي تضمنت أنماطًا مُهيكلة أو تلك التي استخدمت أنواعًا غير مألوفة تمامًا من البيانات أكبر تحسينات في الأداء.
يقول داماني: “بالنسبة للمهام الأبسط، قد يكون التعلم ضمن السياق جيدًا. لكن تحديث المعلمات نفسها قد يُطور مهارة جديدة في النموذج.”
في المستقبل، يرغب الباحثون في استخدام هذه الأفكار نحو تطوير نماذج تتعلم باستمرار. الهدف على المدى الطويل هو نموذج LLMs يمكنه، عند تلقي استعلام، تحديد ما إذا كان يحتاج إلى استخدام التدريب أثناء وقت الاختبار لتحديث المعلمات أو ما إذا كان بإمكانه حل المهمة باستخدام التعلم ضمن السياق، ثم تنفيذ أفضل استراتيجية للتدريب أثناء وقت الاختبار دون الحاجة إلى تدخل بشري.
هذا العمل مدعوم جزئيًا من قبل مختبر MIT-IBM Watson للذكاء الاصطناعي ومؤسسة العلوم الوطنية.








اترك تعليقاً