إطار عمل MEMOIR: تحرير نماذج اللغات الضخمة مدى الحياة بكفاءة
يُظهر هذا المقال إطار عمل MEMOIR، وهو حل مبتكر من باحثي المدرسة المتعددة التقنيات في لوزان (EPFL) في سويسرا، مصمم لتحرير نماذج اللغات الضخمة (LLMs) بشكل مستمر وفعال. يتناول MEMOIR تحدي تحديث معرفة نماذج اللغات الضخمة مع الحفاظ على أدائها ودقة معلوماتها، مُعالجاً مشكلة “النسيان الكارثي” التي تُعاني منها أساليب التحديث التقليدية.
تحديات تحديث معرفة نماذج اللغات الضخمة
تُظهر نماذج اللغات الضخمة أداءً رائعاً في مهام متنوعة بفضل تدريبها المكثف على مجموعات بيانات ضخمة. ومع ذلك، غالباً ما تُنتج هذه النماذج معلومات قديمة أو غير دقيقة، وقد تعكس تحيزات موجودة في بيانات التدريب. لذا، فإن تحديث معرفتها باستمرار أمر بالغ الأهمية.
تُعاني أساليب الضبط الدقيق التقليدية من ارتفاع التكلفة وحساسيتها تجاه “النسيان الكارثي”، حيث يُمكن أن يؤدي تحديث جزء من النموذج إلى تدهور أدائه في المهام الأخرى. لهذا السبب، برز مفهوم “تحرير النموذج مدى الحياة”، الذي يهدف إلى تحديث معرفة النموذج بكفاءة ودقة، مع التركيز على التعديلات المحلية. لكي تكون التعديلات فعّالة، يجب أن تمتاز بثلاث خصائص رئيسية:
- الموثوقية: ضمان دقة التحديثات وعدم إدخال أخطاء جديدة.
- التعميم: القدرة على تطبيق التحديثات على مدخلات جديدة مشابهة، وليس فقط على المدخلات المُستخدمة في عملية التحديث.
- التوطين: التركيز على تحديث أجزاء محددة من النموذج لتجنب التأثير السلبي على أجزائه الأخرى.
قيود تقنيات تحرير النماذج السابقة
استكشفت الأعمال السابقة أساليب مختلفة لتحرير نماذج اللغات الضخمة، ويمكن تلخيصها في فئتين رئيسيتين:
- الأساليب البارامترية: هذه الأساليب تُعدّل أوزان النموذج مباشرةً، لكنها غالباً ما تُعاني من مشكلة “النسيان الكارثي”. من أمثلتها ROME وMEMIT وWISE.
- الأساليب اللا-بارامترية: تخزن هذه الأساليب المعرفة الجديدة خارجياً، مما يحافظ على أوزان النموذج الأصلية. لكنها تُعاني من مشكلة التعميم، حيث تحتاج إلى تطابق دقيق بين المدخلات الجديدة والمدخلات المُستخدمة في عملية التحديث. من أمثلتها GRACE وLOKA.
MEMOIR: نهج مُهيكل لتحرير النماذج
يُقدم MEMOIR (Model Editing with Minimal Overwrite and Informed Retention) حلاً وسطاً مثالياً بين الموثوقية، والتعميم، والتوطين، خاصةً للتعديلات واسعة النطاق. يعتمد MEMOIR على وحدة ذاكرة تتكون من طبقة مُتصلة بالكامل داخل كتلة مُحوّل واحد (Transformer Block)، حيث تحدث جميع التعديلات.
يُحل MEMOIR مشكلة “النسيان الكارثي” من خلال:
- تخصيص مجموعات بارامترات مُتميزة لكل تعديل: يُضمن هذا عدم تداخل التعديلات وتأثيرها السلبي على بعضها البعض.
- استرجاع المجموعات البارامترية ذات الصلة فقط أثناء الاستدلال: يُنشّط MEMOIR فقط المعرفة ذات الصلة بالطلب المُحدد.
- استخدام التخلخل المُهيكل مع أقنعة مُعتمدة على العينة: يُنشط هذا فقط مجموعات البارامترات المُحددة بالطلب.
يُوزّع MEMOIR المعرفة الجديدة عبر فضاء البارامترات، مما يُقلل من الكتابة فوق المعلومات الموجودة ويُقلل من “النسيان الكارثي”.
التقييم والنتائج التجريبية
يُعمل MEMOIR من خلال إطار ذاكرة مُتبقية أثناء الاستدلال، حيث يُدمج الإخراج المُعدّل مخرجات الطبقة الأصلية مع مخرجات ذاكرة المُتبقية. قُورن أداء MEMOIR بمجموعة من الأساليب الأخرى، بما في ذلك GRACE، وDEFER، وROME، وMEMIT، وALPHAEDIT، وWISE، بالإضافة إلى الضبط الدقيق المباشر.
أُجريت التجارب على أربعة نماذج لغات توليدية: LLaMA-3-8B-Instruct، وMistral-7B، وLLaMA-2-7B، وGPT-J-6B. أظهرت النتائج تفوّق MEMOIR على الأساليب الأخرى في عدة مقاييس، بما في ذلك دقة الإجابة على الأسئلة في مجموعة بيانات ZsRE، وخفض معدل الهلوسة في مجموعة بيانات SelfCheckGPT، مع الحفاظ على أداء مُتوازن حتى مع زيادة عدد التعديلات.
الخلاصة والتوجهات المستقبلية
يُعتبر MEMOIR إطار عمل مُوسّع لتحرير نماذج اللغات الضخمة مدى الحياة، حيث يُحقق توازناً فعالاً بين الموثوقية، والتعميم، والتوطين باستخدام تقنيات التخلخل المُبتكرة. يُستعيد MEMOIR التحديثات ذات الصلة من خلال مُقارنة أنماط التنشيط المُخلّلة، مما يسمح للتعديلات بالتعميم على استفسارات مُعاد صياغتها مع الحفاظ على سلوك النموذج في الطلبات غير ذات الصلة.
ومع ذلك، هناك بعض القيود، مثل تعديل طبقات خطية واحدة فقط، مما قد يُقيّد معالجة التعديلات طويلة الأمد أو المعرفة التي تتطلب تغييرات أوسع في النموذج. تشمل التوجهات المستقبلية توسيع النهج ليشمل طبقات مُتعددة، واستراتيجيات تحرير هرمية، وتطبيقه على نماذج متعددة الوسائط أو نماذج المُشفّر-الفكّاك، بالإضافة إلى نماذج المُحوّل المُفسّر فقط.
اترك تعليقاً