توليد محولات LoRA من النص: ثورة في تكييف نماذج اللغات الكبيرة
تُعد نماذج المحولات (Transformers) ركيزة أساسية في مجال الذكاء الاصطناعي، خاصةً في مجالات فهم اللغة الطبيعية، والترجمة الآلية، والاستدلال. وقد شهدت نماذج اللغات الكبيرة (LLMs) تطوراً هائلاً في الحجم والتعقيد، مما مكّنها من إنجاز مهام متنوعة في مجالات متعددة. لكن يبقى تطبيق هذه النماذج على مهام جديدة ومتخصصة عملية معقدة. فكل تطبيق جديد يتطلب عادةً اختيار بيانات دقيقة، وساعات من عملية الضبط الدقيق، وقدرة حاسوبية عالية. وبالرغم من امتلاك هذه النماذج لقاعدة بيانات معرفية ضخمة، إلا أن صعوبة تكييفها مع مجالات جديدة ببيانات محدودة تُشكل تحدياً رئيسياً. ويسعى الباحثون حالياً إلى تطوير أساليب أكثر كفاءة تسمح لهذه النماذج بتعديل سلوكها دون الحاجة لإعادة تدريب جميع المعلمات.
تحدي تخصيص نماذج اللغات الكبيرة للمهام الجديدة
تكمن الصعوبة الرئيسية في تكييف النماذج الأساسية مع تطبيقات فريدة دون تكرار دورات التدريب المكلفة وطويلة الأمد. تعتمد معظم الحلول الحالية على إنشاء محولات جديدة لكل مهمة، وهي مكونات منفصلة يتم تدريبها لتوجيه سلوك النموذج. يجب إنشاء هذه المحولات من الصفر لكل مهمة، ولا يمكن نقل الفوائد المكتسبة من تطبيق واحد إلى آخر. تُعتبر هذه عملية التكييف مستهلكة للوقت وتفتقر إلى قابلية التوسع. علاوة على ذلك، يتطلب ضبط النماذج على مجموعات بيانات محددة مستوى عالياً من الدقة في اختيار المعلمات الفائقة، وقد يؤدي الفشل في العثور على التكوين الصحيح إلى نتائج ضعيفة. حتى عندما يكون التكييف ناجحاً، تكون النتيجة في الغالب عبارة عن مجموعة كبيرة من المكونات الخاصة بالمهام المعزولة التي يصعب دمجها أو إعادة استخدامها.
تقنية LoRA: تكييف منخفض الرتبة
استجابةً لهذه القيود، اعتمد الباحثون تقنية التكييف منخفض الرتبة (LoRA)، وهي تقنية تعدل مجموعة صغيرة فقط من المعلمات بدلاً من النموذج بأكمله. تحقن LoRA مصفوفات منخفضة الرتبة في طبقات محددة من نموذج اللغات الكبيرة الثابت (LLM)، مما يسمح بابقاء الأوزان الأساسية دون تغيير مع تمكين التخصيص الخاص بالمهمة. تُقلل هذه الطريقة من عدد المعلمات القابلة للتدريب. ومع ذلك، لا يزال يتعين تدريب محول LoRA جديد من الصفر لكل مهمة. وبالرغم من كفاءتها مقارنةً بالضبط الدقيق الكامل، إلا أنها لا تسمح بالتكييف السريع الفوري. حاولت التطورات الحديثة ضغط هذه المحولات بشكل أكبر أو دمج محولات متعددة أثناء الاستنتاج؛ ومع ذلك، فهي لا تزال تعتمد بشكل كبير على التدريب السابق ولا تستطيع إنشاء محولات جديدة ديناميكياً.
تقديم Text-to-LoRA: توليد المحولات فوراً من وصف المهام
قدمت شركة Sakana AI تقنية Text-to-LoRA (T2L)، المصممة لتوليد محولات LoRA خاصة بالمهام على الفور من الأوصاف النصية للمهمة المستهدفة، بدلاً من إنشاء وتدريب محولات جديدة لكل مهمة. تعمل T2L كشبكة فرعية قادرة على إخراج أوزان المحول في تمريرة واحدة للأمام. تتعلم من مكتبة من محولات LoRA الموجودة مسبقاً والتي تغطي مجالات متنوعة، بما في ذلك GSM8K، و Arc-challenge، و BoolQ، وغيرها. بمجرد تدريبها، يمكن لـ T2L تفسير وصف المهمة وتوليد المحول المطلوب دون تدريب إضافي. لا تلغي هذه القدرة الحاجة إلى إنشاء المحولات يدوياً فحسب، بل تُمكّن النظام أيضاً من التعميم على المهام التي لم يسبق له مواجهتها.
بنية Text-to-LoRA و عملية التدريب
تستخدم بنية T2L مزيجاً من التضمينات الخاصة بالوحدة والطبقة لتوجيه عملية التوليد. تم اختبار ثلاثة أنواع من البنية: نسخة كبيرة تحتوي على 55 مليون معلمة، ونسخة متوسطة تحتوي على 34 مليون معلمة، ونسخة صغيرة تحتوي على 5 ملايين معلمة فقط. وبالرغم من اختلاف أحجامها، كانت جميع النماذج قادرة على توليد المصفوفات منخفضة الرتبة اللازمة لوظائف المحول. استخدم التدريب مجموعة بيانات Super Natural Instructions عبر 479 مهمة، تم وصف كل مهمة منها بلغة طبيعية وتم ترميزها في شكل متجه. من خلال دمج هذه الأوصاف مع التضمينات المُتعلمة للطبقات والوحدات، تُنشئ T2L المصفوفات منخفضة الرتبة A و B اللازمة لوظائف المحول. يسمح هذا لنموذج واحد باستبدال مئات محولات LoRA المصممة يدوياً، مما ينتج عنه نتائج متسقة مع بصمة حاسوبية أصغر بكثير.
أداء T2L وقابلية توسعها
في معايير الأداء مثل Arc-easy و GSM8K، طابقت T2L أو تجاوزت أداء محولات LoRA الخاصة بالمهام. على سبيل المثال، بلغت دقة Arc-easy باستخدام T2L 76.6٪، مطابقةً لدقة أفضل محول تم ضبطه يدوياً. أما على BoolQ، فقد وصلت إلى 89.9٪، متفوقةً قليلاً على المحول الأصلي. حتى في معايير الأداء الأكثر صعوبة مثل PIQA و Winogrande، حيث يؤدي الإفراط في التجهيز عادةً إلى إضعاف الأداء، حققت T2L نتائج أفضل من المحولات المدربة يدوياً. يُعتقد أن هذه التحسينات نابعة من الضغط الخاسر المتأصل في تدريب الشبكة الفرعية، والذي يعمل كنوع من التنظيم. عند زيادة عدد مجموعات بيانات التدريب من 16 إلى 479، تحسن الأداء بشكل كبير في الإعدادات بدون بيانات جديدة (zero-shot)، مما يُظهر قدرة T2L على التعميم مع تعرض أوسع أثناء التدريب.
النقاط الرئيسية
- تسمح T2L بالتكييف الفوري لـ LLMs باستخدام الأوصاف بلغة طبيعية فقط.
- تدعم التعميم بدون بيانات جديدة (zero-shot) للمهام التي لم تُشاهد أثناء التدريب.
- تم اختبار ثلاثة أنواع من بنية T2L بكميات من المعلمات 55 مليون، 34 مليون، و 5 ملايين.
- تشمل معايير الأداء ArcE، BoolQ، GSM8K، Hellaswag، PIQA، MBPP، والمزيد.
- حققت T2L درجات دقة في معايير الأداء بلغت 76.6٪ (ArcE)، 89.9٪ (BoolQ)، و 92.6٪ (Hellaswag).
- طابقت أو تجاوزت محولات LoRA المدربة يدوياً في الأداء على مهام متعددة.
- تم تدريبها باستخدام 479 مهمة من مجموعة بيانات Super Natural Instructions.
- تستخدم T2L نموذج gte-large-en-v1.5 لتوليد تضمينات المهام.
- تستهدف محولات LoRA التي أنتجتها T2L فقط إسقاطات الاستعلام والقيمة في كتل الاهتمام، بإجمالي 3.4 مليون معلمة.
- ظل الأداء متسقاً حتى مع ارتفاع خسارة إعادة البناء، مما يدل على مقاومة الضغط.
الخاتمة
يُبرز هذا البحث خطوة رئيسية إلى الأمام في التكييف المرن والفعال للنماذج. بدلاً من الاعتماد على إجراءات متكررة وتستهلك الكثير من الموارد، تستخدم T2L اللغة الطبيعية نفسها كآلية تحكم، مما يُمكّن النماذج من التخصص باستخدام أوصاف مهام بسيطة. تُقلل هذه القدرة بشكل كبير من الوقت والتكلفة اللازمة لتكييف نماذج اللغات الكبيرة مع مجالات جديدة. علاوة على ذلك، تشير إلى أنه طالما تتوفر محولات سابقة كافية للتدريب، فيمكن للنماذج المستقبلية التكيف في غضون ثوانٍ مع أي مهمة موصوفة باللغة الإنجليزية العادية. كما أن استخدام الشبكات الفرعية لبناء المحولات ديناميكياً يعني الحاجة إلى مساحة تخزين أقل لتخصص النموذج، مما يزيد من عملية هذا الأسلوب في بيئات الإنتاج.
اترك تعليقاً