ميميركس: نظام ذاكرة متعدد الوكلاء ذو بنية معيارية لتعزيز الاستدلال طويل المدى والتخصيص في وكلاء اللغات الكبيرة
يُركز التطور المُحرز مؤخراً في وكلاء اللغات الكبيرة بشكل أساسي على تعزيز قدراتهم في تنفيذ المهام المعقدة. ومع ذلك، يبقى بُعدٌ حاسمٌ غير مُستكشف بشكل كافٍ: وهو الذاكرة – قدرة الوكلاء على الاحتفاظ بالمعلومات الخاصة بالمستخدم، واسترجاعها، والاستدلال عليها عبر الزمن. فبدون ذاكرة دائمة، تظل معظم وكلاء اللغات الكبيرة عديمة الحالة، غير قادرة على بناء سياق يتجاوز المُوجه الواحد، مما يُحدّ من فائدتها في المواقف الواقعية التي تتطلب الاتساق والتخصيص.
للتغلب على هذا التحدي، تُقدم شركة ميركس للذكاء الاصطناعي نظام ميميركس، وهو نظام ذاكرة متعدد الوكلاء ذو بنية معيارية، مُصمم خصيصاً لتمكين ذاكرة طويلة المدى وقوية لوكلاء اللغات الكبيرة. وعلى عكس الأنظمة المسطحة التي تعتمد على النصوص فقط، يُدمج ميميركس أنواع الذاكرة المُهيكلة عبر الوسائط المتعددة – بما في ذلك المدخلات البصرية – وهو مُبني على بنية متعددة الوكلاء مُنسقة لإدارة الذاكرة.
البنية الأساسية وتكوين الذاكرة
يضم ميميركس ستة مكونات ذاكرة مُتخصصة وقابلة للتكوين، كل منها مُدار بواسطة مدير ذاكرة مُقابل:
- الذاكرة الأساسية: تخزن معلومات الوكيل والمستخدم الدائمة، مُقسمة إلى “شخصية” (ملف تعريف الوكيل، ونبرة صوته، وسلوكه) و “بشرية” (حقائق المستخدم مثل الاسم، والتفضيلات، والعلاقات).
- الذاكرة الحلقية: تُسجل الأحداث المُوقّتة وتفاعلات المستخدم مع سمات مُهيكلة مثل نوع الحدث، والمُلخص، والتفاصيل، والجهات الفاعلة، والوقت.
- الذاكرة الدلالية: تُشفر المفاهيم المُجردة، ورسوم المعرفة، والكيانات المُسماة، مع مدخلات مُنظمة حسب النوع، والمُلخص، والتفاصيل، والمصدر.
- الذاكرة الإجرائية: تحتوي على سير العمل المُهيكلة وتسلسلات المهام باستخدام خطوات وأوصاف مُحددة بوضوح، غالباً ما تكون مُنسقة بتنسيق JSON لتسهيل التلاعب بها.
- ذاكرة الموارد: تحافظ على مراجع الوثائق الخارجية، والصور، والصوت، المُسجلة حسب العنوان، والمُلخص، ونوع المورد، والمحتوى أو الرابط للاستمرارية السياقية.
- قبو المعرفة: يُؤمّن الحقائق الحرفية والمعلومات الحساسة مثل بيانات الاعتماد، وجهات الاتصال، ومفاتيح واجهة برمجة التطبيقات (API) مع ضوابط وصول صارمة وعلامات حساسية.
يُنسق مدير الذاكرة الرئيسي أنشطة مديري الذاكرة الستة المُتخصصين، مما يُمكّن من توجيه الرسائل الذكية، والتخزين الهرمي، وعمليات الاسترجاع الخاصة بالذاكرة. كما تتعاون وكلاء إضافية – بأدوار مثل الدردشة والواجهة – ضمن هذه البنية.
خط أنابيب الاسترجاع التفاعلي والتفاعل
يُعتبر آلية الاسترجاع النشط من الابتكارات الأساسية في ميميركس. عند إدخال المستخدم، يستنتج النظام أولاً الموضوع تلقائياً، ثم يسترجع مدخلات الذاكرة ذات الصلة من المكونات الستة، وأخيراً يُضيف علامات للبيانات المُسترجعة لإدراجها في سياق المُوجه الناتج. هذه العملية تُقلل من الاعتماد على معرفة النموذج المعلمي القديم وتوفر أساساً أقوى للإجابة. تتوفر استراتيجيات استرجاع متعددة – بما في ذلك embedding_match
، و bm25_match
، و string_match
– مما يُضمن الوصول الدقيق والواعي للسياق إلى الذاكرة. تسمح البنية بالتوسع الإضافي لأدوات الاسترجاع حسب الحاجة.
التنفيذ والتطبيق
يتم نشر ميميركس كتطبيق مساعد متعدد الأنظمة مُطوّر باستخدام React-Electron (لواجهة المستخدم) و Uvicorn (لواجهة برمجة التطبيقات الخلفية). يُراقب المساعد نشاط الشاشة من خلال التقاط لقطات شاشة كل 1.5 ثانية؛ يتم الاحتفاظ فقط بالشاشات غير الزائدة، ويتم تشغيل تحديثات الذاكرة في دفعات بعد جمع 20 لقطة شاشة فريدة (مرة واحدة تقريباً في الدقيقة). عمليات الرفع إلى واجهة برمجة تطبيقات Gemini تتم بشكل تدفقي، مما يُمكّن من معالجة البيانات المرئية بكفاءة ومُعدل زمني أقل من 5 ثوانٍ لتحديث الذاكرة من المدخلات البصرية. يتفاعل المستخدمون من خلال واجهة دردشة، والتي تستند ديناميكياً إلى مكونات ذاكرة الوكيل لإنشاء استجابات مُخصصة وواعية للسياق. يتم عرض الذاكرة الدلالية والإجرائية كأشجار أو قوائم قابلة للتوسيع، مما يُوفر الشفافية ويسمح للمستخدمين بمراجعة ما “يتذكره” الوكيل عنهم.
التقييم على معايير متعددة الوسائط والمحادثات
تم التحقق من صحة ميميركس من خلال مهمتين صارمتين:
- ScreenshotVQA: معيار أسئلة وأجوبة بصرية يتطلب ذاكرة دائمة وطويلة المدى على لقطات شاشة عالية الدقة. يتفوق ميميركس على معايير توليد مُعزّزة بالاسترجاع – تحديداً SigLIP و Gemini – بنسبة 35% في دقة LLM-as-a-Judge، مع تقليل احتياجات تخزين الاسترجاع بنسبة 99.9% مقارنة بالطرق الغنية بالنصوص.
- LOCOMO: معيار نصي يُقيّم ذاكرة المحادثة طويلة الأمد. يحقق ميميركس دقة مُتوسطة تبلغ 85.38%، متفوقاً على الأنظمة مفتوحة المصدر القوية مثل LangMem و Mem0 بأكثر من 8 نقاط، مُقترباً من حدود التسلسل الكامل السياقية العليا. يُمكّن التصميم المُعيارية من الأداء العالي عبر مجالات الاستنتاج متعددة الوسائط ونطاق النصوص فقط.
حالات الاستخدام: الأجهزة القابلة للارتداء وسوق الذاكرة
تم تصميم ميميركس من أجل قابلية التوسعة، مع دعم الأجهزة القابلة للارتداء خفيفة الوزن – بما في ذلك النظارات والمشابك الذكية – من خلال بنيته المُعيارية الفعالة. يُمكّن النشر الهجين من معالجة الذاكرة على الجهاز وعلى السحابة، بينما تشمل التطبيقات العملية تلخيص الاجتماعات في الوقت الفعلي، واستدعاء الموقع والسياق بدقة، والنمذجة الديناميكية لعادات المستخدم.
من الميزات الرائدة في ميميركس سوق الذاكرة: وهو نظام بيئي لامركزي يُمكّن من مشاركة الذاكرة الآمنة، وتجارتها، والتخصيص التعاوني للذكاء الاصطناعي بين المستخدمين. تم تصميم السوق مع ضوابط خصوصية دقيقة، وتشفير شامل من طرف إلى طرف، وتخزين لامركزي لضمان سيادة البيانات وملكية المستخدم الذاتية.
الخاتمة
يمثل ميميركس خطوة كبيرة نحو تزويد وكلاء اللغات الكبيرة بذاكرة شبيهة بالذاكرة البشرية. تُمكّن بنيته المُعيارية المُتعددة الوكلاء من التجريد القوي للذاكرة، ودعم الوسائط المتعددة، والاستدلال في الوقت الفعلي القائم على السياق. مع المكاسب التجريبية عبر معايير صعبة وواجهة تطبيق سهلة الوصول ومتعددة الأنظمة، يضع ميميركس معياراً جديداً لأنظمة الذكاء الاصطناعي المُعززة بالذاكرة.
اترك تعليقاً