مُحسّن FEEDER: إطار ما قبل الاختيار لاختيار نماذج فعّالة في نماذج اللغات الضخمة

أظهرت نماذج اللغات الضخمة (LLMs) أداءً استثنائياً عبر العديد من المهام من خلال استخدام الاستدلال القليل اللقطات، المعروف أيضاً بتعلم السياق (ICL). تتمثل المشكلة الرئيسية في اختيار النماذج الأكثر تمثيلاً من مجموعات البيانات التدريبية الضخمة. اعتمدت الأساليب المبكرة على اختيار النماذج بناءً على الصلة باستخدام درجات التشابه بين كل مثال والسؤال المدخل. تقترح الأساليب الحالية استخدام قواعد اختيار إضافية، بالإضافة إلى التشابه، لتعزيز كفاءة اختيار النماذج. لكن هذه التحسينات تُدخِل عبئاً حسابياً كبيراً عندما يزداد عدد اللقطات. يجب أيضاً أن تأخذ فعالية النماذج المختارة في الاعتبار نموذج LLM المُستخدم تحديداً، حيث تُظهر نماذج LLMs المختلفة قدرات ومجالات معرفية متنوعة.

مُحسّن FEEDER: الحلّ الأمثل

اقترح باحثون من جامعة جياو تونغ في شنغهاي، وشركة Xiaohongshu، وجامعة كارنيجي ميلون، وجامعة بكين، وكلية لندن الجامعية، وجامعة بريستول، طريقة FEEDER (FEw yet Essential Demonstration prE-selectoR) لتحديد مجموعة فرعية أساسية من النماذج التي تحتوي على الأمثلة الأكثر تمثيلاً في بيانات التدريب، مُعدّلة خصيصاً لنماذج LLMs المُحددة. لبناء هذه المجموعة الفرعية، تم تقديم مقاييس “الكفاية” و”الضرورة” في مرحلة ما قبل الاختيار، بالإضافة إلى خوارزمية قائمة على الأشجار.

مميزات مُحسّن FEEDER:

  • تقليل حجم بيانات التدريب: يقلل FEEDER حجم بيانات التدريب بنسبة 20٪ مع الحفاظ على الأداء.
  • التكامل السلس: يتكامل بسلاسة مع تقنيات اختيار النماذج المختلفة في ICL عبر نماذج LLMs تتراوح من 300 مليون إلى 8 مليارات معلمة.
  • تحسين الأداء: يحافظ على أداء مُشابه أو أفضل من الأساليب التقليدية.
  • التعامل مع عدد كبير من اللقطات: يتعامل بكفاءة مع حالات زيادة عدد الأمثلة، حيث يُلاحظ انخفاض أداء LLM عادةً عند زيادة عدد الأمثلة من 5 إلى 10 بسبب ضجيج البيانات أو تكرار النماذج.

تقييم الأداء

تم تقييم FEEDER على 6 مجموعات بيانات لتصنيف النصوص: SST-2، SST-5، COLA، TREC، SUBJ، وFPB، والتي تغطي مهام من تصنيف المشاعر والتحليل اللغوي إلى الاستنتاج النصي. كما تم تقييمه على مجموعة بيانات الاستدلال GSM8K، ومجموعة بيانات التحليل الدلالي SMCALFlow، ومجموعة بيانات الإجابة على الأسئلة العلمية GPQA. تم استخدام العديد من أنواع نماذج LLMs لتقييم أداء الطريقة، بما في ذلك نوعان من GPT-2، وGPT-neo بـ 1.3 مليار معلمة، وGPT-3 بـ 6 مليارات معلمة، وGemma-2 بـ 2 مليار معلمة، وLlama-2 بـ 7 مليارات معلمة، وLlama-3 بـ 8 مليارات معلمة، وQwen-2.5 بـ 32 مليار معلمة كأساس لنموذج LLM.

أظهرت نتائج أداء تعلم السياق أن FEEDER يُمكّن من الاحتفاظ بنصف عينات التدريب تقريباً مع تحقيق أداء مُشابه أو أفضل. أظهر تقييم الأداء القليل اللقطات على المهام المعقدة باستخدام نماذج LLMs مثل Gemma-2 أن FEEDER يُحسّن الأداء حتى عندما تُعاني نماذج LLMs من المهام الصعبة.

تحسينات في عملية التحسين على مستويين

يُحسّن FEEDER الأداء من خلال استخدام مجموعة بيانات صغيرة وعالية الجودة لإعادة ضبط النموذج مع تقليل النفقات الحسابية في آن واحد، بما يتوافق مع مبدأ اختيار المجموعة الأساسية. تشير النتائج إلى أن إعادة ضبط نماذج LLMs توفر تحسينات أكبر في الأداء مقارنةً بزيادة نماذج LLMs مع السياقات، مع تحقيق FEEDER مكاسب أفضل في أداء إعدادات إعادة الضبط.

الخلاصة

قدم الباحثون FEEDER، وهو مُختار نماذج مُصمم لاستخدام قدرات LLM ومعرفة المجال لتحديد نماذج عالية الجودة من خلال نهج اكتشاف فعال. يُقلل من متطلبات بيانات التدريب مع الحفاظ على أداء مُشابه، مما يُوفر حلاً عملياً لنشر نماذج LLMs بكفاءة. تشمل اتجاهات البحث المستقبلية استكشاف التطبيقات مع نماذج LLMs أكبر وتوسيع قدرات FEEDER إلى مجالات مثل أمان البيانات وإدارة البيانات. يُقدم FEEDER مساهمة قيّمة لاختيار النماذج، مما يُوفر للباحثين والممارسين أداة فعّالة لتحسين أداء نماذج LLMs مع تقليل العبء الحسابي.

المصدر: MarkTechPost