إطار عمل هجين قائم على القواعد وآلة التعلم للكشف عن حيل اختراق نماذج اللغات الكبيرة والدفاع عنها

يقدم هذا البرنامج التعليمي إطار عمل دفاعي متطور تم بناؤه خطوة بخطوة للكشف عن مطالبات تجاوز السياسات ومعالجتها بأمان. سنقوم بتوليد أمثلة هجومية حميدة واقعية، وصياغة إشارات قائمة على القواعد، ودمجها مع ميزات TF-IDF في مُصنِّف مُدمج وقابل للتفسير، وذلك لتمكيننا من التقاط المطالبات المُضللة دون حجب الطلبات الشرعية. سنُوضح مقاييس التقييم، ونشرح منطق تقييم المخاطر المُدمج، ونقدم غلافًا محميًا يُظهر كيفية دمج الكاشف أمام أي خط أنابيب لنموذج لغة كبير (LLM).

توليد البيانات الاصطناعية وهندسة الميزات

نقوم بتوليد بيانات اصطناعية متوازنة من خلال تكوين مطالبات تشبه الهجوم ومطالبات حميدة، وإضافة طفرات صغيرة لالتقاط مجموعة متنوعة واقعية. نقوم بهندسة ميزات قائمة على القواعد تُحصي عدد مرات ظهور تعبيرات مُعينة (Regex) للاختراقات والتعبيرات الحميدة، بالإضافة إلى طول النص وإشارات حقن الأدوار، وذلك لإثراء المُصنِّف بما يتجاوز النص العادي. نُعيد مصفوفة ميزات رقمية مُدمجة نقوم بتوصيلها بخط أنابيب التعلم الآلي التابع لنا.

بناء خط أنابيب التعلم الآلي

نقوم بتجميع خط أنابيب هجين يُدمج ميزاتنا القائمة على تعبيرات Regex مع TF-IDF، ونُدرب نموذج انحدار لوجستي مُتوازن، ثم نقوم بالتقييم باستخدام AUC وتقرير مُفصّل. نُعرّف DetectionResult ووظيفة مساعدة detect() تُدمج احتمالية التعلم الآلي مع نتائج القواعد في مخاطر مُوحّدة. نقوم بوضع حدّ لتلك المخاطر لتحديد ما إذا كنا سنحجب، أو نصعد للمراجعة، أو نسمح بحرص – ونُرفق إجراءات مُحددة.

ميزات القواعد

تم تعريف ميزات القواعد باستخدام تعبيرات Regex للكشف عن محاولات تجاوز السياسات:

  • أنماط الاختراق (JAILBREAK_PATTERNS): تُحدد أنماطًا لغوية مُحددة تشير إلى محاولات تجاوز قواعد النموذج. أمثلة:

    • bignore (all|previous|above) (instructions|rules)b
    • b(jailbreak|override|exploit)b
    • bpretend to beb
  • علامات حميدة (BENIGN_HOOKS): تُحدد أنماطًا لغوية مُحددة تشير إلى مطالبات حميدة لتقليل الإيجابيات الكاذبة. أمثلة:

    • bresumeb
    • brecipeb
    • bsummar(y|ise|ize)b

نموذج التصنيف

نستخدم نموذج انحدار لوجستي (Logistic Regression) مدرب على البيانات المُولدة، مع استخدام تقنية TF-IDF لتمثيل النصوص.

تقييم النموذج ودمجه في خط أنابيب LLM

نقوم بتشغيل مجموعة صغيرة من المطالبات المثاليه من خلال وظيفة detect() لطباعة درجات المخاطر والأحكام والأساسيات المُختصرة حتى نتمكن من التحقق من السلوك في حالات الهجوم والحالات الحميدة المحتملة. ثم نقوم بتغليف الكاشف في غلاف guarded_answer() LLM يختار الحجب أو التصعيد أو الرد بأمان بناءً على المخاطر المُدمجة ويعيد استجابة مُهيكلة (الحكم، والمخاطر، والإجراءات، ورد آمن).

وظيفة detect()

تقوم هذه الوظيفة بتحديد مستوى المخاطر بناءً على احتمالية النموذج وميزات القواعد، وتصنف الطلب إلى إحدى الحالات التالية:

  • الحجب (block): مستوى خطر عالي جدًا.
  • مراجعة بشرية (needs_human_review): مستوى خطر متوسط.
  • السماح بحذر (allow_with_care): مستوى خطر منخفض.

غلاف guarded_answer()

يُمثّل غلافًا حول نموذج LLM، ويستخدم وظيفة detect() لاتخاذ القرار المناسب بناءً على مستوى المخاطر.

الخلاصة والتوصيات

يُظهر هذا البرنامج التعليمي كيفية استخدام إطار عمل دفاعي خفيف الوزن لتقليل المخرجات الضارة مع الحفاظ على المساعدة المفيدة. يوفر النهج الهجين للقواعد والتعلم الآلي كلًا من قابلية التفسير وقابلية التكيف. نُوصي باستبدال البيانات الاصطناعية بأمثلة مُسمّاة من فريق الاختبار الأحمر، وإضافة تصعيد مُراقب من قبل البشر، وتسلسل خط الأنابيب للنشر، مما يُمكّن من التحسين المستمر في الكشف مع تطور المُهاجمين.

المصدر: MarkTechPost