LorSA: آلية الانتباه المتفرّعة لاستخراج وحدات الانتباه الذرية الخفية في نماذج الترانسفورمر

تُعدّ نماذج اللغات الكبيرة (LLMs) محطّ اهتمام كبير في السنوات الأخيرة، إلا أن فهم آلياتها الداخلية لا يزال يمثل تحديًا. عند فحص رؤوس الانتباه الفردية في نماذج الترانسفورمر، لاحظ الباحثون وظائف محددة في بعض الرؤوس، مثل رؤوس الاستنتاج التي تتنبأ بعلامات مثل “بوتر” بعد “هاري” عندما يظهر التعبير في السياق. وتؤكد دراسات الاستئصال العلاقة السببية لهذه الرؤوس بسلوكيات النموذج. ومع ذلك، فإن معظم رؤوس الانتباه تُوزّع التركيز عبر سياقات متنوعة بدون وظيفة واضحة. يكمن التحدي في تفسير أنماط الانتباه المعقدة هذه، حيث غالبًا ما يحدث التعاون بين الرؤوس بدلاً من الوظائف المعزولة. تشبه هذه الظاهرة تراكب الميزات في التفسير العصبي، مما يشير إلى وجود تراكب انتباه في آليات الانتباه الذاتي متعددة الرؤوس (MHSA). يُعد فهم هذه التفاعلات المعقدة أمرًا بالغ الأهمية لتطوير نماذج لغات أكثر شفافية وقابلية للتحكم.

التحديات في فهم آليات الانتباه في نماذج الترانسفورمر

حققت الأبحاث السابقة تقدماً ملحوظاً في شرح وظيفة رأس الانتباه الفردي باستخدام تقنيات مثل تصحيح التنشيط وتصحيح المسار. حددت هذه الأساليب العديد من رؤوس الانتباه المتخصصة في نماذج الترانسفورمر، بما في ذلك:

  • رؤوس التركيب
  • رؤوس الاستنتاج
  • رؤوس تحريك الأسماء
  • رؤوس مقارنة الأرقام
  • رؤوس قمع النسخ
  • رؤوس الخلف
  • رؤوس استرجاع السياق الطويل

ومع ذلك، فإن فرضية التراكب تشير إلى أن الخلايا العصبية ترتبط بميزات أساسية متعددة غير متعامدة بدلاً من وظائف مفردة. برزت المُشفرات التلقائية المتفرقة كطريقة واعدة لاستخراج مجموعات زائدة من الميزات المتفرقة، والقابلة للفهم خطيًا، من الشبكات العصبية. يُظهر نجاح هذه المُشفرات التلقائية شمولية التراكب عبر أبعاد مختلفة، بما في ذلك حجم النموذج، وأنواع الهندسة المعمارية، وحتى الوسائط المختلفة. لكن هذه الأساليب، على الرغم من قيمتها، لا تزال تواجه صعوبة في شرح التفاعلات المعقدة بين رؤوس الانتباه وسلوكها التعاوني في نماذج اللغات.

LorSA: حلّ مبتكر لفكّ شيفرة تراكب الانتباه

يُقدّم بحث من معهد شنغهاي للابتكار، وفريق OpenMOSS، وكلية علوم الحاسوب بجامعة فودان، نهجًا قويًا يُسمى Low-Rank Sparse Attention (LorSA) لفك تشابك وحدات الانتباه الذرية من تراكب الانتباه. يُستبدل LorSA الانتباه الذاتي متعدد الرؤوس القياسي بمجموعة زائدة من رؤوس الانتباه التي تتميز بدوائر OV أحادية البعد وقيود التفرّع.

لتقييم LorSA، طور الباحثون واجهة استكشافية توفر معلومات شاملة حول كل رأس LorSA، وتقييم قابلية التفسير كمياً من خلال أعلى عمليات التنشيط وأنماط الإسناد. تُظهر النتائج أن أحادية المعنى في LorSA تُقارن بشكل إيجابي مع ميزات المُشفرات التلقائية المتفرقة. تم اختبار الأسلوب على نماذجي Pythia-160M و Llama-3.1-8B، حيث نجح في تحديد آليات الانتباه المعروفة مثل:

  • رؤوس الاستنتاج
  • رؤوس تحريك الأسماء
  • رؤوس الخلف
  • مصارف الانتباه

كشف تحليل إضافي عن رؤوس LorSA محددة للحساب في Llama-3.1-8B، وحدد رؤوس “مرساة مواضيعية” تُظهر أنماط انتباه بعيدة المدى خاصة بالموضوع، مما يشير إلى آلية للحفاظ على تمثيلات الموضوعات المستمرة التي تُحيز تنبؤات العلامات اللاحقة نحو المفردات والهياكل المناسبة للمجال.

ميزات LorSA الرئيسية:

  • دوائر OV أحادية البعد: تحدّ من عمليات القراءة/الكتابة إلى ميزات محددة في تيار البقايا.
  • مشاركة المعلمات: تحافظ على كفاءة المعلمات مع الحفاظ على الأداء.
  • عدد كبير من الرؤوس: مع تنشيط مجموعة فرعية صغيرة فقط لكل علامة.
  • تجميع رؤوس Top-K: يُجمع المخرجات فقط من الرؤوس ذات أعلى قيم التنشيط.

تقييم قابلية التفسير في LorSA

يستخدم تقييم قابلية تفسير LorSA العديد من المقاييس الرئيسية لفهم وظيفة الرأس الفردي:

  • أعلى عمليات التنشيط: تحديد الأنماط من خلال فحص العلامات الـ 16 الأعلى تنشيطًا لكل رأس LorSA.
  • تحليل نمط Z: تحليل عمليات التنشيط خطيًا إلى مساهمات لكل علامة من المواضع السابقة.
  • لوحة معلومات مرئية: توفر معلومات شاملة حول كل رأس LorSA.

النتائج والتطبيقات

أكدت النتائج فعالية LorSA في تحديد آليات الانتباه المعروفة عبر نماذج مختلفة، واكتشف سلوكيات جديدة قابلة للتفسير. يُمثل هذا النهج قفزة نوعية في فهم آليات الانتباه في نماذج الترانسفورمر، مع بقاء تحديات كبيرة في المستقبل تتضمن استكشاف هياكل QK منخفضة الأبعاد، وتراكب الطبقات المتقاطعة، وتكوين Q/K/V المنتظم.

المصادر والمعلومات الإضافية

يمكنكم الاطلاع على الورقة البحثية، والنموذج على Hugging Face، وصفحة GitHub. كما ندعوكم لمتابعتنا على Twitter.

المصدر: MarkTechPost