درعLLM: تعزيز أمن نماذج اللغات الكبيرة عبر أنظمة متعددة الوكلاء التكيفية وقت الاستنتاج

يُشكل ازدياد التهديدات المتجهة نحو نماذج اللغات الكبيرة (LLMs) تحديًا متزايدًا. فقد أصبحت هذه النماذج هدفًا رئيسيًا لهجمات متطورة سريعًا، بما في ذلك حقن المُطالبات، واختراق القيود، واستخراج البيانات الحساسة. ولذلك، بات من الضروري تطوير آليات دفاعية تتجاوز الحلول الثابتة، وذلك لمواكبة الطبيعة المتغيرة لهذه التهديدات.

قصور أساليب أمن نماذج اللغات الكبيرة الحالية

تعاني تقنيات أمن نماذج اللغات الكبيرة الحالية من اعتمادها على التدخلات الثابتة وقت التدريب. فالمرشحات والحواجز الثابتة هشة أمام التعديلات المعادية الطفيفة، بينما تفشل تعديلات وقت التدريب في التعميم على الهجمات غير المرئية بعد نشر النموذج. كذلك، غالبًا ما تفشل عملية إلغاء تعلم الآلة في محو المعرفة تمامًا، مما يترك المعلومات الحساسة عرضة للظهور مرة أخرى. يركز توسيع نطاق السلامة والأمن حاليًا بشكل أساسي على أساليب وقت التدريب، مع استكشاف محدود لسلامة وقت الاختبار وسلامة النظام.

قيود الأساليب الحالية:

  • تعزيز التعلم المعزز (RLHF) والضبط الدقيق للسلامة: تحاول هذه الأساليب محاذاة النماذج أثناء التدريب، لكنها تُظهر فعالية محدودة ضد الهجمات الجديدة التي تظهر بعد النشر.
  • الحواجز على مستوى النظام واستراتيجيات الاختبار الأحمر: توفر هذه الأساليب طبقات حماية إضافية، لكنها تُثبت هشاشتها أمام الاضطرابات المعادية.
  • إلغاء تعلم السلوكيات غير الآمنة: يُظهر هذا الأسلوب وعدًا في سيناريوهات محددة، ولكنه لا يحقق قمعًا كاملاً للمعرفة.
  • الهياكل متعددة الوكلاء: تعتبر فعالة في توزيع المهام المعقدة، لكن تطبيقها المباشر على أمن نماذج اللغات الكبيرة لا يزال غير مستكشف.

درعLLM: إطار عمل أمني تكيفي وقت الاستنتاج

اقترح باحثون من جامعة ميريلاند، ومختبر لورنس ليفرمور الوطني، وCapital One، إطار عمل درعLLM (Adaptive Agentic Guardrails for LLM Security)، لتحسين أمن نماذج اللغات الكبيرة من خلال نظام متعدد الوكلاء تعاوني وقت الاستنتاج. يستخدم هذا الإطار نظامًا وكيلًا مُهيكلاً قائمًا على نماذج اللغات الكبيرة، يقوم بمراقبة التهديدات المعادية وتحليلها وتقليلها باستمرار.

مكونات درعLLM الرئيسية:

  • المنسق (Orchestrator): يدير عملية التعاون بين الوكلاء.
  • المُحوّل (Deflector): يُحوّل أو يُعيد توجيه المطالبات المعادية.
  • المُستجيب (Responder): يُقدم استجابات آمنة للمُستخدم.
  • المُقيم (Evaluator): يقيم فعالية استجابات النظام.

من خلال تحسين المطالبات الآلي والتعلم البييزي، يُحسّن النظام قدراته الدفاعية دون إعادة تدريب النموذج. يسمح هذا التصميم بالتكيف في الوقت الفعلي مع استراتيجيات الهجوم المتطورة، مما يوفر أمنًا قابلًا للتطوير وقت الاستنتاج مع الحفاظ على فائدة النموذج.

خط أنابيب الوكلاء المُنسّق وتحسين المطالبات

يعمل درعLLM من خلال خط أنابيب مُنسّق من الوكلاء المتخصصين، كلٌّ منهم مسؤول عن وظائف مُحددة، ويعملون معًا لضمان سلامة المخرجات. يتم توجيه جميع الوكلاء بواسطة مُطالبات نظام مُصممة بعناية ومدخلات المستخدم وقت الاختبار. يُحكم كل وكيل بمُطالبة نظام تُشفّر دوره وسلوكه المُخصص، لكن المُطالبات المُصممة يدويًا عادةً ما تفتقر إلى الأداء الأمثل في سيناريوهات الأمان عالية المخاطر. لذلك، يُحسّن النظام تلقائيًا مُطالبة نظام كل وكيل لزيادة الفعالية من خلال عملية تحسين مُتكررة. في كل تكرار، يقوم النظام بأخذ عينة من مجموعة من الاستفسارات وتقييمها باستخدام تكوينات مُطالبات مُرشحة لوكلاء مُحددين.

مقارنة أداء درعLLM

على معيار WMDP باستخدام Llama-3-8B، حقق درعLLM أقل دقة في المواضيع المُقيدة بين جميع الأساليب، حيث اقتربت دقة WMDP-Cyber و WMDP-Bio من الحد الأدنى النظري البالغ 25%. أما على معيار TOFU، فقد حقق دقة تصنيف مثالية تقريبًا عبر نماذج Llama-3-8B، وQwen2.5-72B، وDeepSeek-R1، حيث بلغت دقة Qwen2.5-72B تقريبًا 100% على جميع المجموعات الفرعية. في الدفاع ضد اختراق القيود، تُظهر النتائج أداءً قويًا ضد محاولات الهجوم مع الحفاظ على استجابات مناسبة للاستفسارات الشرعية على StrongREJECT و PHTest. حقق درعLLM درجة StrongREJECT تبلغ 0.038، وهي تنافسية مع أساليب متطورة، ومعدل امتثال بنسبة 88.5% دون الحاجة إلى تدريب مكثف، مما يُعزز القدرات الدفاعية.

الخاتمة: إعادة صياغة أمن نماذج اللغات الكبيرة كتنسق وكيل وقت الاستنتاج

في الختام، قدّم الباحثون درعLLM، وهو إطار عمل يُعيد صياغة أمن نماذج اللغات الكبيرة كنظام ديناميكي متعدد الوكلاء يعمل وقت الاستنتاج. يُبرز نجاح درعLLM أنه ينبغي النظر إلى الأمن كسلوك ناشئ من وكلاء مُتخصصين مُنسّقين، وليس كخاصية ثابتة للنموذج. يُحل هذا التحول من التدخلات الثابتة وقت التدريب إلى آليات الدفاع التكيفية وقت الاستنتاج قيود الأساليب الحالية مع توفير قابلية للتكيف في الوقت الفعلي ضد التهديدات المتطورة. ستصبح الأطر مثل درعLLM، التي تُمكّن الأمن الديناميكي القابل للتطوير، أكثر أهمية لنشر الذكاء الاصطناعي المسؤول مع استمرار تطور نماذج اللغات في قدراتها. يمكنكم الاطلاع على الورقة البحثية وصفحة GitHub. جميع حقوق هذا البحث تعود إلى باحثي هذا المشروع.

المصدر: MarkTechPost