تحكم حساسية المُحوِّلات اللغوية: حدود ليبشيتز قابلة للتثبيت و مُحسّن ميون
يُشكّل تدريب المُحوِّلات اللغوية واسعة النطاق بشكل مُستقر تحديًا مُستمرًا في مجال التعلّم العميق، خاصةً مع ازدياد حجم النماذج وقدرتها التعبيرية. وقد عالج باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) هذه المشكلة من جذورها، مُتطرقين إلى النمو غير المُستقر للنشاطات وارتفاعات الخسارة الناتجة عن قواعد الأوزان والنشاطات غير المُقيدة. وحلّهم يكمن في فرض حدود ليبشيتز قابلة للتثبيت على المُحوِّل من خلال تنظيم الأوزان طيفياً، دون استخدام أي تقنيات تطبيع النشاطات، أو معيار QK، أو تقنيات تقليص لوجيت.
ما هي حدود ليبشيتز؟ ولماذا نُفرضها؟
حدود ليبشيتز في الشبكة العصبية تُحدد الحد الأقصى للتغير في المخرجات استجابةً لاضطرابات المدخلات (أو الأوزان). رياضياً، الدالة f
هي K-ليبشيتز إذا:
||f(x1) - f(x2)|| ≤ K ||x1 - x2|| ∀x1, x2
حيث K هو ثابت. حدود ليبشيتز الأدنى تعني زيادة في المتانة والقدرة على التنبؤ. وهذا أمر بالغ الأهمية للاستقرار، والمتانة ضد الهجمات المُعادية، والخصوصية، والتعميم، حيث تُشير الحدود الأدنى إلى أن الشبكة أقل حساسية للتغيرات أو الضوضاء المُعادية.
دوافع المشكلة وبيانها
تقليديًا، تضمن تدريب المُحوِّلات المُستقرة على نطاق واسع استخدام العديد من “الحلول الترقيعية” لتحقيق الاستقرار:
- تطبيع الطبقات
- تطبيع QK
- تقليص لوجيت تان
لكن هذه الحلول لا تعالج مباشرةً سبب النمو في المعيار الطيفي (أكبر قيمة مفردة) للأوزان، وهو السبب الجذري لانفجار النشاطات وعدم استقرار التدريب، خاصةً في النماذج الكبيرة. الفرضية المركزية هي: إذا قمنا بتنظيم الأوزان طيفياً – فإننا نتمكن من التحكم الدقيق في حدود ليبشيتز، مما يُحِلّ مشكلة عدم الاستقرار من مصدرها.
الابتكارات الرئيسية: تنظيم الأوزان الطيفي ومُحسّن ميون
يُنظّم مُحسّن ميون التدرجات طيفياً، مُضمنًا عدم زيادة المعيار الطيفي في كل خطوة من خطوات التدرج عن حد مُعيّن. يُوسّع الباحثون التنظيم ليشمل الأوزان: بعد كل خطوة، يُطبّقون عمليات لوضع حد للقيم المفردة لكل مصفوفة أوزان. وبالتالي، تبقى قواعد النشاطات صغيرة بشكل ملحوظ – نادراً ما تتجاوز القيم المُتوافقة مع دقة fp8 في مُحوِّلاتهم من نوع GPT-2.
إزالة تقنيات الاستقرار
في جميع التجارب، لم يُستخدم تطبيع الطبقات، ولا معيار QK، ولا تقليص لوجيت تان. مع ذلك، لم تتجاوز أقصى قيم إدخالات النشاط في مُحوّل GPT-2 الخاص بهم حوالي 100، بينما تجاوزت القاعدة غير المُقيدة 148,000.
مثال (تجربة NanoGPT):
النموذج | أقصى نشاط طبقة | تقنيات استقرار الطبقات | دقة التحقق | حد ليبشيتز |
---|---|---|---|---|
القاعدة (Speedrun) | 148,480 | نعم | 39.4% | ∞ |
مُحوّل ليبشيتز | 160 | لا | 39.5% | 10²⁶⁴ |
طرق فرض قيود ليبشيتز
تم استكشاف ومقارنة مجموعة متنوعة من طرق قيد معيار الوزن لقدرتها على:
- الحفاظ على الأداء العالي.
- ضمان حد ليبشيتز.
- تحسين التوازن بين الأداء وحدود ليبشيتز.
التقنيات:
- انحلال الوزن: طريقة قياسية، لكنها ليست صارمة دائمًا على المعيار الطيفي.
- التطبيع الطيفي: يُضمن وضع حد لأكبر قيمة مفردة، لكنه قد يؤثر على جميع القيم المفردة عالميًا.
- التقليص الطيفي الناعم: طريقة جديدة، تُطبق σ→min(σmax,σ) بسلاسة وكفاءة على جميع القيم المفردة بالتوازي (باستخدام تقريبات متعددة الحدود الفردية). تم تصميم هذا مع مُحسّن ميون لتحديثات مرتبة مستقرة عالية من أجل حدود ضيقة.
- المطرقة الطيفية: تُعيّن فقط أكبر قيمة مفردة إلى σmax، وهي الأنسب لمُحسّن AdamW.
النتائج التجريبية والرؤى
تقييم النموذج على مستويات مختلفة:
- شكسبير (محول صغير، <2-ليبشيتز): حقق 60% من دقة التحقق مع حد ليبشيتز قابل للتثبيت أقل من 2. تجاوز القاعدة غير المُقيدة في خسارة التحقق.
- NanoGPT (145 مليون معامل): مع حد ليبشيتز <10، دقة التحقق: 21.2%. لمطابقة القاعدة غير المُقيدة القوية (دقة 39.4%)، تطلب حدًا علويًا كبيرًا قدره 10²⁶⁴. يُبرز هذا كيف أن قيود ليبشيتز الصارمة غالبًا ما تُؤثر على التعبيرية على نطاقات كبيرة في الوقت الحالي.
كفاءة طريقة قيد الوزن:
- ميون + التقليص الطيفي الناعم: يُحقق أفضل توازن – ثوابت ليبشيتز أقل لنفس خسارة التحقق أو أفضل منها مقارنةً بـ AdamW + انحلال الوزن. يُمكّن التقليص الطيفي الناعم والتطبيع (تحت ميون) باستمرار من تحقيق أفضل توازن بين الخسارة وحدود ليبشيتز.
الاستقرار والمتانة:
- تزداد المتانة ضد الهجمات المُعادية بشكل حاد عند حدود ليبشيتز الأدنى. في التجارب، عانت النماذج ذات ثابت ليبشيتز المقيد انخفاضًا أقل في الدقة تحت الهجوم المُعادي مقارنةً بالأساسيات غير المُقيدة.
مقادير النشاط:
- مع التنظيم الطيفي للوزن: تبقى أقصى نشاطات صغيرة (متوافقة مع fp8 تقريبًا)، مقارنةً بالأساسيات غير المحدودة، حتى على نطاق واسع. يفتح هذا آفاقًا للتدريب والاستنتاج منخفضي الدقة في الأجهزة، حيث تُقلل النشاطات الأصغر من تكاليف الحوسبة والذاكرة والطاقة.
القيود والأسئلة المفتوحة:
- لا يزال اختيار “أضيق” توازن لأوزان الوزن، وتقليص لوجيت، وتقليص الانتباه يعتمد على عمليات البحث، وليس على مبدأ.
- الحدود العلوية الحالية فضفاضة: يمكن أن تكون الحدود العالمية المحسوبة كبيرة بشكل فلكي (مثل 10²⁶⁴)، بينما تبقى قواعد النشاطات الفعلية صغيرة.
- من غير الواضح ما إذا كان من الممكن مطابقة أداء القاعدة غير المُقيدة مع حدود ليبشيتز الصغيرة بشكل صارم مع زيادة الحجم – هناك حاجة لمزيد من البحث.
الخاتمة
يُمكن تنظيم الوزن الطيفي – خاصةً عند اقترانه بمحسّن ميون – من تدريب المُحوِّلات الكبيرة بشكل مُستقر مع حدود ليبشيتز مُفرضة، دون تطبيع النشاط أو أي حيل ترقيعية أخرى. يعالج هذا عدم الاستقرار على مستوى أعمق ويحافظ على النشاطات في نطاق مُدمج، قابل للتنبؤ، مما يُحسّن بشكل كبير من المتانة ضد الهجمات المُعادية ويُحسّن من كفاءة الأجهزة. يشير هذا الخط من العمل إلى بدائيات حوسبة جديدة وفعالة لتنظيم الشبكات العصبية، مع تطبيقات واسعة النطاق للخصوصية، والسلامة، ونشر الذكاء الاصطناعي منخفض الدقة.
راجع الورقة البحثية، وصفحة جيثب، وصفحة مشروع Hugging Face. لا تتردد في زيارة صفحة جيثب لدينا للحصول على الدروس التعليمية، والأكواد، ودفاتر الملاحظات. كما يُمكنك متابعتنا على تويتر، والانضمام إلى مجتمعنا ML على ريديت، والاشتراك في قائمتنا البريدية.
اترك تعليقاً