قياس سعة الذاكرة في نماذج اللغات: إطار عمل جديد من ميتا يحدد السعة على مستوى البيت
يُثير سلوك نماذج اللغات الحديثة في حفظ البيانات تساؤلاتٍ جوهرية حول آلية عملها. فمع نماذج ضخمة مثل المحوّلات التي تحتوي على 8 مليارات بارامتر مُدرّبة على 15 تريليون رمز، يتساءل الباحثون عن مدى حفظ هذه النماذج لبيانات التدريب بطريقة مُعنى. تُعاني التقنيات التقليدية، مثل استخراج البيانات واستنتاج العضوية، من قصورها في التمييز بين حفظ البيانات وتعميمها.
قصور النهج الحالية
تُعاني الأطر السابقة، مثل الأساليب القائمة على الاستخراج أو الخصوصية التفاضلية، من أنها تعمل على مستوى مجموعة البيانات بأكملها، دون مراعاة حفظ البيانات على مستوى كل حالة على حدة. كما أن نمذجة اللغة من خلال الضغط وتقييم السعة من خلال حفظ الحقائق (كما هو الحال في RNNs والمحوّلات المُكمّاة) تُقدم رؤى جزئية، لكنها تفتقر إلى القابلية للتطوير والدقة، خاصةً في بنى المحوّلات العميقة.
نهج جديد لقياس حفظ البيانات
اقترح باحثون من FAIR في ميتا، و Google DeepMind، وجامعة كورنيل، و NVIDIA، أسلوبًا جديدًا لتقدير مقدار ما “يعرفه” النموذج عن نقاط بيانات محددة، وذلك لقياس سعة نماذج اللغات الحديثة. قاموا بتقسيم حفظ البيانات إلى عنصرين:
- الحفظ غير المقصود: وهو المعلومات التي يحتفظ بها النموذج عن مجموعة البيانات.
- التعميم: وهو المعلومات التي تمثل العملية الحقيقية لتوليد البيانات.
ويحسبون مجموع حفظ البيانات لتقديم تقديرات دقيقة لسعة النموذج من خلال إزالة التعميم، مُبينين أن نماذج عائلة GPT لديها سعة تقريبية تبلغ 3.6 بت لكل بارامتر. كما طور الباحثون سلسلة من قوانين التطوير التي تربط سعة النموذج وحجم البيانات باستنتاج العضوية من خلال تدريب مئات من نماذج لغة المحوّلات.
الإطار التجريبي ومنهجية التدريب
باستخدام بنية GPT-2، درّب الفريق مئات النماذج التي تتراوح بين 100 ألف و 20 مليون بارامتر، مع اختلاف في الأعماق (1-8 طبقات) وأحجام البيانات المخفية (32-512). تضمنت عملية التدريب:
- 106 خطوة
- حجم الدفعة: 2048
- الدقة: bfloat16
- الأجهزة: وحدة معالجة رسومية واحدة من طراز A100
تم تدريب هذه النماذج على تسلسلات اصطناعية وتسلسلات نصية مُكررة مكونة من 64 رمزًا من مجموعة بيانات FineWeb. ضمنّت التجارب الحد الأدنى من التداخل من التعميم من خلال بناء مجموعة البيانات بعناية.
رؤى سعة النموذج والنتائج الرئيسية
- البتات لكل بارامتر: عبر جميع التكوينات، خزّنت النماذج باستمرار ما بين 3.5 و 3.6 بت/بارامتر.
- الانحدار المزدوج: مع اقتراب حجم مجموعة بيانات التدريب من سعة النموذج، تنخفض خسارة الاختبار في البداية (الإفراط في التجهيز)، ثم تتحسن مرة أخرى عندما تبدأ النماذج في التعميم.
- تأثير الدقة: يزيد التدريب في float32 من سعة التخزين قليلاً (إلى ~3.83 بت/بارامتر) مقارنةً بـ bfloat16 (~3.51 بت/بارامتر).
فصل حفظ البيانات عن التعميم
عند التحول من مجموعات بيانات نصية اصطناعية إلى مجموعات بيانات نصية حقيقية، لاحظ الفريق ما يلي:
- يزداد حفظ البيانات غير المقصود على مستوى العينة مع زيادة عدد المعلمات.
- ينخفض حفظ البيانات مع زيادة حجم مجموعة التدريب.
- يتطلب التقدير الدقيق لحفظ البيانات إزالة الازدواجية والرجوع إلى نموذج مرجعي لمعدلات الضغط الأساسية.
قوانين تطوير استنتاج العضوية
قام الباحثون بنمذجة معدل النجاح (درجة F1) لاستنتاج العضوية القائمة على الخسارة كدالة لنسبة سعة النموذج إلى حجم مجموعة البيانات. الملاحظات الرئيسية:
- يصبح استنتاج العضوية غير موثوق به مع زيادة حجم مجموعات البيانات.
- تظل قوانين التطوير التنبؤية دقيقة ضمن 1-2٪ للنماذج التي يصل حجمها إلى 1.5 مليار بارامتر.
الخلاصة: فهم أفضل لسلوك النموذج
يُنشئ هذا العمل إطارًا أساسيًا لقياس حفظ البيانات في نماذج اللغات. من خلال تقديم مقاييس قابلة للقياس وتجارب قابلة للتطوير، يُعمّق فهمنا لكيفية ترميز نماذج المحوّلات لبيانات التدريب، ويرسم حدودًا واضحة بين حفظ البيانات والتعميم. يمكن أن توجه الرؤى الناتجة التطورات المستقبلية في تقييم النماذج والخصوصية وقابلية التفسير.
اترك تعليقاً