رواد تكنولوجيا اللغة: نموذج RWKV-X.. دقة عالية وفعالية خطية في معالجة النصوص الطويلة

تُعاني نماذج اللغات الكبيرة (LLMs) القائمة على بنية الترانسفورمر من تحديات كبيرة في التوسع، وذلك بسبب تعقيدها التربيعي في طول التسلسل عند معالجة المدخلات ذات السياق الطويل. وقد ظهرت نماذج بديلة مثل نماذج الانتباه الخطي، ونماذج فضاء الحالة كـ Mamba، والشبكات العصبية المتكررة الخطية كـ DeltaNet، ونموذج RWKV لحل هذه المشكلة. إلا أن هذه النماذج الخطية تواجه صعوبات في فهم السياقات الطويلة. فعلى سبيل المثال، يُحقق نموذج RWKV-7 (2.9 مليار معامل) دقة عالية في استرجاع كلمات المرور حتى 28 ألف رمز، لكن أدائه يتدهور بسرعة بعد هذه النقطة، حتى مع التدريب المستمر باستخدام بيانات بطول 128 ألف رمز. وتمتد هذه المشكلة لتشمل نماذج أخرى مثل Mamba، مما يُمثل تحديًا أساسيًا لهذه الفئة من النماذج.

نموذج RWKV-X: حلول مبتكرة لمعالجة النصوص الطويلة

ظهرت نماذج اللغات ذات التعقيد الخطي كبديل للنماذج القائمة على بنية الترانسفورمر التي تعاني من متطلبات حسابية تربيعية عند معالجة التسلسلات الطويلة. يُجمع نموذج RWKV بين إمكانية توزيع معالجة الترانسفورمر أثناء التدريب، وتمثيل الحالة المتكررة الشبيهة بالشبكات العصبية المتكررة (RNN). وقد تطور نموذج RWKV عبر عدة إصدارات، بدءًا من RWKV-4 وصولاً إلى RWKV-7.

كما ساهمت نماذج اللغات الهجينة، بما في ذلك Jamba و Zamba و MiniMax، في تطوير التصاميم الهجينة بشكل فريد. علاوة على ذلك، تُرتب آلية الانتباه المتفرق الأصلي (Native Sparse Attention) الرموز في كتل زمنية مع ثلاثة مسارات انتباه متميزة: رموز مُكثفة ذات حبيبات خشنة، ورموز مُحافظة عليها بشكل انتقائي ذات حبيبات دقيقة، ونوافذ منزلقة للمعلومات السياقية المحلية. وتشمل آليات الانتباه الأخرى SeerAttention و Block Attention (MoBA).

يقترح باحثون من مختبر قوانغدونغ للذكاء الاصطناعي والاقتصاد الرقمي (شنتشن)، وجامعة هوهي، نانجينغ، وجامعة شنتشن، وجامعة تشينغهاي، شينينغ، بنية هجينة جديدة تُسمى RWKV-X، تجمع بين كفاءة RWKV في النمذجة قصيرة المدى وآلية انتباه متفرق مصممة لالتقاط السياق طويل المدى. على عكس النهج الهجينة السابقة، يُحقق RWKV-X تعقيدًا زمنيًا خطيًا أثناء التدريب، وتعقيدًا زمنيًا ثابتًا أثناء فك تشفير الاستنتاج. يُظهر دقة شبه مثالية في معيار استرجاع كلمات المرور 64 ألف رمز عند تدريبه على تسلسلات 64 ألف رمز بشكل مستمر. ويتفوق النموذج باستمرار على نماذج RWKV-7 السابقة في معايير السياق الطويل، مع الحفاظ على أداء قوي في مهام السياق القصير.

بنية RWKV-X وطريقة التدريب

RWKV-X هو بنية هجينة تجمع بين كتل RWKV-7 وكتل الانتباه المتفرق. بدلاً من التدريب من الصفر، يستند RWKV-X على نماذج موجودة باستخدام نهج توسيع الكتل المتداخل وآلية تهيئة الصفر المستوحاة من LLaMA Pro. يتبع التدريب عملية من مرحلتين:

  1. المرحلة الأولى: يُدرب النموذج على سياقات قصيرة من 1024 رمز من مجموعة بيانات MiniPile مع تجميد جميع المعلمات باستثناء الكتل المضافة حديثًا.
  2. المرحلة الثانية: يتضمن التدريب المستمر طويل المدى باستخدام مجموعة بيانات ProLong-64K وطول سياق 64 ألف رمز، بمعالجة ما يقارب مليار رمز إجمالاً. خلال هذه المرحلة، يتم إلغاء تجميد جميع المعلمات وتحسينها بشكل مشترك. يستخدم التدريب دالة خسارة الانتروبيا المتقاطعة طويلة المدى (LongCE)، والتي تُزن الرموز ديناميكيًا بناءً على أهميتها.

الأداء والكفاءة

يُظهر التقييم قصير المدى أن RWKV-X يحافظ على أداء تنافسي عبر المعايير القياسية. يُحقق نموذج RWKV-X الأصغر (0.22 مليار معامل) متوسط درجة 51.0، وهو ما يُقارن بـ 51.8 لـ RWKV-7. وعلى نطاق أوسع، يصل RWKV-X (3.6 مليار معامل) إلى 71.9، وهو ما يُطابق تقريبًا RWKV-7 (2.9 مليار معامل، 72.8) و Qwen2.5-3B (71.4)، متجاوزًا LLaMA3.2-3B (69.7). تؤكد هذه النتائج فعالية RWKV-X كعمود فقري عام لنموذج اللغات الكبيرة دون التضحية بالأداء في السياقات الأقصر. علاوة على ذلك، يُظهر تحليل الكفاءة خصائص توسيع RWKV-X الفائقة للتسلسلات الطويلة. ففي 128 ألف رمز، يُحقق RWKV-X تسريعًا بنسبة 1.37 مرة مقارنة بـ Flash-Attention v3، مع توسع هذه الميزة مع زيادة طول السياق.

القيود والتحديات

على الرغم من أن RWKV-X يُظهر أداءً وكفاءة قويين في نمذجة اللغات ذات السياق الطويل، إلا أن بعض القيود لا تزال قائمة. أولاً، تعتمد آلية الانتباه المتفرق، التي تعتمد على اختيار الكتلة الأعلى (top-k)، على نهج تجريبي قد يتجاهل التبعيات ذات الصلة الدلالية. ثانيًا، يُظهر التنفيذ الحالي أن فك تشفير الانتباه المتفرق أبطأ من RWKV العادي، مما يشير إلى الحاجة إلى مزيد من الجهود الهندسية لتحسين الأداء.

المصدر: MarkTechPost