معالجة النصوص الطويلة جداً: إطار عمل MemAgent القائم على التعلم المعزز
يُشكل التعامل مع الوثائق الطويلة للغاية تحديًا مستمرًا لنماذج اللغات الكبيرة (LLMs). حتى مع تقنيات مثل استقراء الطول والانتباه المتناثر، غالبًا ما تعاني النماذج من تدهور الأداء وتكاليف حسابية عالية. للتغلب على هذه المشكلة، يقدم باحثون من ByteDance Seed وجامعة Tsinghua إطار عمل MemAgent، وهو وكيل ذاكرة قائم على التعلم المعزز مصمم لتمكين معالجة السياقات الطويلة بمعقدية خطية وأقل قدر من فقدان الأداء.
حدود الحلول الحالية
تندرج الحلول الحالية لنمذجة السياقات الطويلة في ثلاث فئات رئيسية:
- طرق استقراء الطول (مثل NTK، PI، YaRN، DCA): تعمل على توسيع نافذة السياق عبر عمليات معالجة تضمين الموقع. ومع ذلك، غالبًا ما تواجه هذه الطرق تدهورًا في الأداء ومشاكل في التوسع.
- آليات الانتباه المتناثرة والخطية: تقلل من تعقيد الانتباه إلى O(n) ولكنها تتطلب عادةً إعادة تدريب من الصفر وتعتمد على أنماط ثابتة أو قواعد محددة من قبل الإنسان.
- ضغط السياق: تستخدم وحدات ذاكرة على مستوى الرمز أو وحدات ذاكرة خارجية لتكثيف المدخلات الطويلة، ولكنها غالبًا ما تعطل عملية التوليد القياسية وتكافح مع الاستقراء.
تفشل هذه الأساليب في توفير السمات الثلاث الأساسية: دعم طول إدخال تعسفي، ودقة ثابتة، وفعالية معقدة خطية.
MemAgent: استراتيجية ذاكرة تشبه استراتيجية الإنسان
مستوحى من كيفية تلخيص البشر للمعلومات الرئيسية مع تجاهل الضوضاء، يعالج MemAgent الإدخال كدفق من الأدلة. في كل خطوة، يقرأ جزءًا من الوثيقة وذاكرة داخلية، ويُعيد كتابة الأخيرة بسياق مُحدّث ومُكثّف.
الابتكارات الرئيسية:
- ذاكرة قائمة على الرموز بطول ثابت: تُكثّف المعلومات الأساسية مع الحفاظ على توافق النموذج.
- آلية الكتابة فوق الجزئية: تدعم أطوال نصوص غير محدودة دون زيادة حجم الذاكرة.
- المعقدة الخطية: تظل تكلفة تحديث الذاكرة وفك التشفير ثابتة لكل جزء.
تدريب التعلم المعزز متعدد الالتواءات مع GRPO
يعامل MemAgent كل تفاعل بين أجزاء الوثيقة كحوار مستقل. يتم تدريبه عبر تحسين السياسة النسبية الجماعية (GRPO) ضمن خط أنابيب RL متعدد المحادثات يسمى DAPO، مما يسمح بتحديث الذاكرة القائم على المكافآت. تشمل العناصر الرئيسية:
- مدقق قائم على القواعد: يحسب مكافآت النتائج بمقارنة إجابات النموذج مع العديد من الحقائق الأرضية.
- إشارة RL على مستوى الرمز: تُطبق بشكل موحد عبر المحادثات الناتجة عن عينة.
يشجع هذا الإعداد على ضغط الذاكرة الذي يركز على المعلومات ذات الصلة بالإجابة ويتجاهل العوامل المشتتة.
تقييم الأداء
باستخدام معيار RULER ومجموعات بيانات اصطناعية من HotpotQA و SQuAD، تم تدريب MemAgent باستخدام نافذة سياق 8K وتم استقراءها حتى 3.5 مليون رمز.
النموذج | 224K | 896K | 3.5M |
---|---|---|---|
Qwen 2.5-Instruct-14B-1M | 37.5% | 0.0% | N/A |
QwenLong-L1-32B | 17.2% | 11.7% | N/A |
RL-MemAgent-14B | 81.3% | 77.3% | 78.1% |
حافظ MemAgent على دقة تزيد عن 95% في معايير RULER (من 8K إلى 512K رمز) وتفوق باستمرار الخطوط الأساسية القائمة على السياق الطويل والتقطير.
دراسة حالة: أسئلة وأجوبة متعددة القفزات
بالنظر إلى الاستعلام “يقع مخرج الفيلم الكوميدي الرومانسي ‘Big Stone Gap’ في أي مدينة في نيويورك؟”، تتبع MemAgent المحتوى ذي الصلة تدريجيًا عبر 3 أجزاء:
- تعرّف على المحتوى غير ذي الصلة ولكن احتفظ بمعلومات الموقع.
- حافظ على الذاكرة ضد الأجزاء غير ذات الصلة.
- قام بتحديث الذاكرة بشكل صحيح عند مواجهة سيرة Adriana Trigiani.
الإجابة النهائية: قرية غرينتش، مدينة نيويورك.
الأساس النظري والمعقدة
يعيد MemAgent صياغة النموذج التلقائي التراجعي باستخدام متغيرات ذاكرة كامنة (m₁…mₖ): p(x₁:N) = ∑ₘ₁:ₖ ∏ₖ p(cₖ | mₖ₋₁) * p(mₖ | cₖ, mₖ₋₁)
هذا يسمح بتكلفة حسابية O(N) وذاكرة وسيطة قابلة للقراءة من قبل الإنسان – على عكس ضغط الميزات القائم على الانتباه. يُعد التعلم المعزز ضروريًا، حيث إن تحديثات الذاكرة منفصلة ولا يمكن تعلمها عبر الانتشار العكسي.
الخلاصة
يقدم MemAgent حلاً قابلًا للتطوير وفعالًا لمعضلة السياق الطويل: طول إدخال غير محدود، ودقة شبه خالية من الخسائر، ومعقدة خطية. تتيح آلية ذاكرة الكتابة فوق القائمة على التعلم المعزز لـ LLMs قراءة واستخلاص وتوليد مدخلات تتجاوز ملايين الرموز دون تعديل معماري.
الأسئلة الشائعة
- س1: ما هو MemAgent؟ MemAgent هو إطار عمل قائم على التعلم المعزز يجهز LLMs برموز ذاكرة للتعامل مع السياقات الطويلة للغاية بكفاءة.
- س2: ما هو الاختلاف بينه وبين طرق الانتباه أو الاستقراء؟ على عكس تقنيات التوسع القائمة على الانتباه أو الاستقراء، يستخدم MemAgent ذاكرة قائمة على الرموز يتم تحديثها عبر التعلم المعزز.
- س3: ما هي النماذج التي يمكن تطبيق MemAgent عليها؟ أي نموذج LLM قائم على Transformer. لا يلزم إجراء تغييرات على بنية النموذج.
- س4: كيف يتوسع مع حجم الإدخال؟ يحافظ على تعقيد حسابي خطي بغض النظر عن طول الإدخال من خلال تثبيت حجم الذاكرة.
- س5: ما هي تطبيقات MemAgent؟ أسئلة وأجوبة طويلة الوثائق، وأنظمة ذاكرة الوكيل، ومراجعة الوثائق القانونية، وتحليل الأدبيات العلمية، واتخاذ القرارات في الوقت الفعلي مع قواعد بيانات كبيرة للأدلة.
اترك تعليقاً