تعزيز أمان أنظمة الذكاء الاصطناعي الوكيلية: وصفة نيفيديا مفتوحة المصدر

مع تطور نماذج اللغات الكبيرة (LLMs) من مجرد مُولِّدات نصوص بسيطة إلى أنظمة وكيلية قادرة على التخطيط، والتفكير، والتصرف بشكل مستقل، ازدادت قدراتها بشكل كبير، وكذلك المخاطر المصاحبة لها. تعتمد المؤسسات بسرعة على الذكاء الاصطناعي الوكيلية في الأتمتة، لكن هذا الاتجاه يُعرّض المنظمات لتحديات جديدة: عدم محاذاة الأهداف، واختراق التعليمات، والسلوكيات غير المقصودة، وتسريب البيانات، وتقليل الإشراف البشري. ولمعالجة هذه المخاوف، أصدرت NVIDIA مجموعة برامج مفتوحة المصدر ووصفة أمان لما بعد التدريب مصممة لحماية أنظمة الذكاء الاصطناعي الوكيلية طوال دورة حياتها.

الحاجة إلى السلامة في أنظمة الذكاء الاصطناعي الوكيلية

تستفيد نماذج LLMs الوكيلية من قدرات التفكير المتقدمة واستخدام الأدوات، مما يسمح لها بالعمل بدرجة عالية من الاستقلالية. ومع ذلك، يمكن أن يؤدي هذا الاستقلال إلى:

  • فشل في ضبط المحتوى: (مثل توليد مخرجات ضارة، أو سامة، أو متحيزة).
  • ثغرات أمنية: (اختراق التعليمات، ومحاولات اختراق النظام).
  • مخاطر الامتثال والثقة: (عدم التوافق مع سياسات المؤسسة أو المعايير التنظيمية).

غالباً ما تفشل الضوابط التقليدية وفلاتر المحتوى مع تطور النماذج وتقنيات المُهاجمين بسرعة. تحتاج المؤسسات إلى استراتيجيات منهجية على مستوى دورة الحياة لمواءمة النماذج المفتوحة مع السياسات الداخلية واللوائح الخارجية.

وصفة نيفيديا للأمان: نظرة عامة والهندسة المعمارية

توفر وصفة نيفيديا للأمان في أنظمة الذكاء الاصطناعي الوكيلية إطارًا شاملاً من البداية إلى النهاية لتقييم، ومواءمة، وحماية نماذج LLMs قبل، وأثناء، وبعد النشر:

  • التقييم: قبل النشر، تُمكّن الوصفة من الاختبار ضد سياسات المؤسسة، ومتطلبات الأمان، وعتبات الثقة باستخدام مجموعات البيانات والمعايير المفتوحة.
  • المواءمة بعد التدريب: باستخدام التعلم المعزز (RL)، والضبط الدقيق المُشرف (SFT)، ومزائج مجموعات بيانات “on-policy”، يتم مواءمة النماذج بشكل أكبر مع معايير السلامة.
  • الحماية المستمرة: بعد النشر، توفر NVIDIA NeMo Guardrails وخدمات المراقبة الدقيقة في الوقت الحقيقي ضوابط قابلة للبرمجة مستمرة، تعمل على حظر المخرجات غير الآمنة والدفاع ضد اختراق التعليمات ومحاولات اختراق النظام.

المكونات الأساسية

المرحلة التقنية/الأدوات الغرض
التقييم قبل النشر Nemotron Content Safety Dataset، WildGuardMix، ماسح garak اختبار السلامة/الأمان
المواءمة بعد التدريب RL، SFT، بيانات مفتوحة الترخيص ضبط دقيق للسلامة/المواءمة
النشر والاستنتاج NeMo Guardrails، خدمات NIM الدقيقة (سلامة المحتوى، التحكم في الموضوع، كشف اختراق النظام) حظر السلوكيات غير الآمنة
المراقبة والتعليقات garak، تحليلات في الوقت الحقيقي الكشف عن الهجمات الجديدة ومقاومتها

مجموعات البيانات والمعايير المفتوحة

  • Nemotron Content Safety Dataset v2: تُستخدم للتقييم قبل وبعد التدريب، وتفحص هذه المجموعة مجموعة واسعة من السلوكيات الضارة.
  • WildGuardMix Dataset: تستهدف ضبط المحتوى عبر التعليمات الغامضة والمعادية.
  • Aegis Content Safety Dataset: أكثر من 35,000 عينة مُعلّقة، مما يُمكّن من تطوير مرشحات ومُصنّفات دقيقة لمهام أمان LLM.

عملية ما بعد التدريب

تُوزّع وصفة نيفيديا لما بعد التدريب كدفتر Jupyter مفتوح المصدر أو كنموذج قابل للتشغيل على السحابة، مما يضمن الشفافية والوصول الواسع. تتضمن عملية سير العمل عادةً:

  1. التقييم الأولي للنموذج: اختبار أساسي للسلامة/الأمان باستخدام معايير مفتوحة.
  2. التدريب الآمن على “on-policy”: توليد الاستجابات بواسطة النموذج المُستهدف/المُواءم، والضبط الدقيق المُشرف، والتعلم المعزز باستخدام مجموعات بيانات مفتوحة.
  3. إعادة التقييم: إعادة تشغيل معايير السلامة/الأمان بعد التدريب للتأكد من التحسينات.
  4. النشر: يتم نشر النماذج الموثوقة مع مراقبة حية وخدمات حماية دقيقة (ضبط المحتوى، التحكم في الموضوع/النطاق، كشف اختراق النظام).

التأثير الكمي

  • سلامة المحتوى: تحسنت من 88% إلى 94% بعد تطبيق وصفة نيفيديا للأمان لما بعد التدريب – زيادة بنسبة 6%، بدون أي فقدان مُقاس في الدقة.
  • أمان المنتج: تحسنت القدرة على الصمود ضد التعليمات المعادية (اختراق النظام وما إلى ذلك) من 56% إلى 63%، زيادة بنسبة 7%.

التكامل التعاوني وبيئة النظام الإيكولوجي

يتجاوز نهج نيفيديا الأدوات الداخلية – حيث تُمكّن الشراكات مع مُزوّدي الأمن السيبراني الرائدين (Cisco AI Defense، CrowdStrike، Trend Micro، Active Fence) من دمج إشارات السلامة المستمرة والتحسينات القائمة على الحوادث عبر دورة حياة الذكاء الاصطناعي.

كيفية البدء

  • الوصول مفتوح المصدر: وصفة التقييم والأمان لما بعد التدريب الكاملة (الأدوات، مجموعات البيانات، الأدلة) متاحة للتنزيل علنًا وكحل قابل للنشر على السحابة.
  • مواءمة السياسات المخصصة: يمكن للمؤسسات تحديد سياسات العمل المخصصة، وعتبات المخاطر، والمتطلبات التنظيمية – باستخدام الوصفة لمواءمة النماذج وفقًا لذلك.
  • التقوية التكرارية: تقييم، تدريب ما بعد التدريب، إعادة التقييم، ونشر مع ظهور مخاطر جديدة، مما يضمن استمرار موثوقية النموذج.

الخاتمة

تمثل وصفة نيفيديا للأمان لنماذج LLMs الوكيلية نهجًا متقدمًا على مستوى الصناعة، ومتاحًا بشكل مفتوح، ومنهجيًا لتقوية نماذج LLMs ضد مخاطر الذكاء الاصطناعي الحديثة. من خلال تشغيل بروتوكولات أمان قوية وشفافة وقابلة للتوسيع، يمكن للمؤسسات اعتماد الذكاء الاصطناعي الوكيلية بثقة، مع تحقيق التوازن بين الابتكار والأمان والامتثال.

المصدر: MarkTechPost