منصة CyberGym: اختبار حقيقي لقدرات الذكاء الاصطناعي في مواجهة الثغرات الأمنية واسعة النطاق

يُعدّ الأمن السيبراني مجالاً مهماً في تطبيقات الذكاء الاصطناعي، خاصةً مع تزايد الاعتماد على النظم البرمجية الضخمة وتطور قدرات أدوات الذكاء الاصطناعي. ومع تزايد تعقيد التهديدات، لم يعد ضمان أمن النظم البرمجية مجرد تطبيق للحماية التقليدية، بل أصبح يتطلب فهماً عميقاً للمنطق الآلي، وكشف الثغرات، وفهم الكود البرمجي على مستوى دقيق. يتطلب الأمن السيبراني الحديث أدوات وطرقاً قادرة على محاكاة سيناريوهات العالم الحقيقي، وتحديد العيوب الخفية، والتحقق من سلامة النظام عبر مختلف البُنى التحتية البرمجية. في هذا السياق، يعمل الباحثون على تطوير معايير وطرق لتقييم قدرة وكلاء الذكاء الاصطناعي على فهم وكشف، وحتى استغلال الثغرات الأمنية، على غرار ما يفعله الباحثون الأمنيون البشر. ومع ذلك، لا يزال سد الفجوة بين المنطق الاصطناعي وتعقيدات الأمن السيبراني في العالم الحقيقي تحديًا رئيسيًا.

مشكلة معايير التقييم الحالية

من المشاكل الملحة عدم وجود طرق فعالة لتقييم ما إذا كانت أنظمة الذكاء الاصطناعي قادرة حقاً على فهم ومعالجة المهام الأمنية في ظل ظروف واقعية. غالباً ما تهيمن مهام الاختبار المبسطّة على طرق الاختبار الحالية، والتي نادراً ما تعكس الواقع المعقد والمتعدد الطبقات لمستودعات البرمجيات واسعة النطاق. تتضمن هذه البيئات ظروف إدخال معقدة، ومسارات كود عميقة، وثغرات أمنية دقيقة تتطلب أكثر من فحص سطحي. بدون طرق تقييم قوية، يصعب تحديد ما إذا كان يمكن الوثوق بوكلاء الذكاء الاصطناعي لأداء مهام مثل كشف الثغرات أو تطوير استغلالات. والأهم من ذلك، أن معايير التقييم الحالية لا تعكس حجم ودقة الثغرات الموجودة في أنظمة البرمجيات المُحافظة عليها بنشاط، والمنتشرة على نطاق واسع، مما يترك فجوة تقييمية حرجة.

قيود الأدوات الحالية

تم استخدام العديد من معايير التقييم لتقييم القدرات الأمنية السيبرانية، بما في ذلك Cybench و NYU CTF Bench. تركز هذه المعايير على مهام على غرار “أمسك العلم” (Capture the Flag)، والتي تقدم تعقيداً محدوداً، وتتضمن عادةً قواعد بيانات برمجية صغيرة وبيئات اختبار محدودة. تحاول بعض معايير التقييم معالجة الثغرات الأمنية في العالم الحقيقي، لكنها غالباً ما تفعل ذلك على نطاق محدود. علاوة على ذلك، تعتمد العديد من الأدوات على حالات اختبار اصطناعية أو مشاكل تحدي ضيقة النطاق، والتي لا تمثل تنوع مدخلات البرمجيات، ومسارات التنفيذ، وأنواع الأخطاء الموجودة في الأنظمة الفعلية. حتى الوكلاء المتخصصون الذين تم إنشاؤهم لتحليل الأمان تم اختبارهم على معايير تضم عشرات أو بضع مئات من المهام فقط، وهو ما يقلّ بكثير عن تعقيد مناظر التهديدات في العالم الحقيقي.

مقدمة إلى منصة CyberGym

قدّم الباحثون منصة CyberGym، وهي أداة قياس واسعة النطاق وشاملة مصممة خصيصاً لتقييم وكلاء الذكاء الاصطناعي في سياقات الأمن السيبراني في العالم الحقيقي. تم تطوير CyberGym في جامعة كاليفورنيا، بيركلي، وتتضمن 1507 مهمة قياسية مميزة مستمدة من ثغرات أمنية فعلية تم العثور عليها وإصلاحها عبر 188 مشروعًا رئيسيًا مفتوح المصدر. تم تحديد هذه الثغرات في الأصل بواسطة OSS-Fuzz، وهي حملة فحص مستمرّة يديرها Google. لضمان الواقعية، تتضمن كل مهمة قياسية قاعدة بيانات الكود الكاملة قبل الإصلاح، وملفًا قابلًا للتنفيذ، ووصفًا نصيًا للثغرة الأمنية. يجب على الوكلاء إنشاء اختبار إثبات المفهوم الذي يعيد إنتاج الثغرة الأمنية في الإصدار غير المُصلَح، ويقوم CyberGym بتقييم النجاح بناءً على ما إذا كانت الثغرة الأمنية مُفعّلة في الإصدار غير المُصلَح وغائبة في الإصدار المُصلَح. يُشدد هذا المعيار بشكل فريد على توليد إثباتات المفهوم (PoCs)، وهي مهمة تتطلب من الوكلاء اجتياز مسارات كود معقدة وتوليف مدخلات لتلبية شروط أمان محددة. CyberGym نمطية وقابلة للحاويات، مما يتيح سهولة التوسع وإعادة الإنتاج.

مستويات تقييم CyberGym

أنبوب التقييم في CyberGym مبني على أربعة مستويات من الصعوبة، كل مستوى يزيد من كمية المعلومات المُقدّمة. في المستوى 0، يُعطى الوكيل قاعدة بيانات الكود فقط بدون أي تلميح للثغرة الأمنية. يضيف المستوى 1 وصفًا بلغة طبيعية. يُدخل المستوى 2 إثبات مفهوم (PoC) حقيقي ومسار مُكدس (Stack Trace)، بينما يتضمن المستوى 3 التصحيح نفسه وقاعدة بيانات الكود المُصلَحة. يقدم كل مستوى طبقة جديدة من التفكير والتعقيد. على سبيل المثال، في المستوى 1، يجب على الوكلاء استنتاج موقع الثغرة الأمنية وسياقها من وصفها النصي وقاعدة بيانات الكود فقط. لضمان جودة المعيار، يطبق CyberGym مرشحات مثل التحقق من فائدة رسائل الالتزام بالتصحيح، والتحقق من إمكانية إعادة إنتاج إثبات المفهوم (PoC)، وإزالة التكرار بمقارنة مسارات المكدس. تتألف مجموعة البيانات النهائية من قواعد بيانات كود بمتوسط 1117 ملف و 387,491 سطر من الكود، تتراوح حتى أكثر من 40,000 ملف و 7 ملايين سطر من الكود. تختلف أحجام التصحيحات أيضًا، حيث تعديل متوسط ملف وسبعة أسطر، ولكنها تمتد أحيانًا إلى 40 ملف وأكثر من 3000 سطر. تستهدف الثغرات الأمنية أنواعًا مختلفة من الأعطال، حيث ترتبط 30.4٪ بـ heap-buffer-overflow READ و 19.0٪ باستخدام قيمة غير مُهيأة.

النتائج التجريبية

عند اختبارها مقابل هذا المعيار، أظهرت الوكلاء الحاليين نجاحًا محدودًا. من بين أربعة أطر عمل للوكلاء، OpenHands، و Codex، و ENiGMA، و Cybench، كان أفضل أداء لـ OpenHands بالاشتراك مع Claude-3.7-Sonnet، والذي أعاد إنتاج 11.9٪ فقط من الثغرات الأمنية المستهدفة. انخفض هذا الأداء بشكل كبير عند التعامل مع مدخلات PoC الأطول، حيث كانت معدلات النجاح أعلى لـ PoCs التي تقل عن 10 بايت (43.5٪) وانخفضت إلى أقل من 8٪ للأطوال التي تزيد عن 100 بايت. تخلف النماذج مفتوحة المصدر، مثل DeepSeek-V3، حيث بلغ معدل النجاح 3.6٪ فقط. حتى النماذج المتخصصة التي تم ضبطها بدقة للتفكير في الكود، مثل SWE-Gym-32B و R2E-Gym-32B، فشلت في التعميم، حيث سجلت أقل من 2٪. ومن المثير للدهشة أن المعلومات الإدخالية الأغنى في مستويات الصعوبة الأعلى زادت الأداء: شهد المستوى 3 نجاحًا بنسبة 17.1٪، بينما حقق المستوى 0 نجاحًا بنسبة 3.5٪ فقط. كشف التحليل أيضًا أن معظم عمليات إعادة إنتاج PoC الناجحة حدثت بين 20 و 40 خطوة تنفيذ، مع تجاوز العديد من الجريان 90 خطوة وفشلها في النهاية. على الرغم من هذه التحديات، اكتشف الوكلاء 15 ثغرة أمنية جديدة من فئة الصفر (zero-day) وثغرتين تم الإفصاح عنهما ولكن لم يتم إصلاحهما عبر مشاريع حقيقية، مما يدل على قدرتها الكامنة على الاكتشاف الجديد.

النقاط الرئيسية

  • حجم المعيار وواقعيته: يحتوي CyberGym على 1507 مهمة مستمدة من ثغرات أمنية حقيقية تم إصلاحها عبر 188 مشروعًا برمجيًا، مما يجعله أكبر معيار وأكثرها واقعية من نوعه.
  • قيود الوكلاء: حتى أفضل مجموعة مزيج وكيل-نموذج أعادت إنتاج 11.9٪ فقط من الثغرات الأمنية، مع تسجيل العديد من المجموعات أقل من 5٪.
  • تدرج الصعوبة: أدى توفير مدخلات إضافية، مثل مسارات المكدس أو التصحيحات، إلى تحسين الأداء بشكل كبير، حيث حققت مهام المستوى 3 معدل نجاح 17.1٪.
  • الحساسية للطول: واجه الوكلاء صعوبة في المهام التي تتضمن PoCs طويلة. PoCs التي تتجاوز 100 بايت، والتي شكلت 65.7٪ من مجموعة البيانات، كانت أقل معدلات نجاح.
  • إمكانية الاكتشاف: تم اكتشاف 15 ثغرة أمنية جديدة من فئة الصفر (zero-day) بواسطة PoCs التي تم إنشاؤها بواسطة الوكيل، مما يثبت إمكانية استخدامها في تحليل الأمان في العالم الحقيقي.
  • سلوك النموذج: تم إنشاء معظم الاستغلالات الناجحة في وقت مبكر من تنفيذ المهمة، مع عوائد متناقصة بعد 80 خطوة.
  • تفاعلات الأدوات: أدى أداء الوكلاء بشكل أفضل عندما سُمح لهم بالتفاعل مع الأدوات (مثل استخدام “awk”، “grep”، أو تثبيت “xxd”) وتكييف PoCs بناءً على ردود الفعل أثناء وقت التشغيل.

الخلاصة

في الختام، تُبرز هذه الدراسة مشكلة حرجة: إن تقييم الذكاء الاصطناعي في مجال الأمن السيبراني ليس فقط تحديًا، بل هو أمر ضروري لفهم حدوده وقدراته. تتميز CyberGym بتقديم إطار عمل واسع النطاق وعالمي حقيقي للقيام بذلك. عالج الباحثون هذه المشكلة بمعيار عملي ومفصل يُجبر الوكلاء على التفكير بعمق عبر قواعد بيانات الكود بأكملها، وتوليد استغلالات صالحة، والتكيف من خلال التكرار. تُظهر النتائج بوضوح أنه بينما تُظهر الوكلاء الحاليين وعدًا، خاصةً في اكتشاف الأخطاء الجديدة، لا يزال هناك طريق طويل لنجعل الذكاء الاصطناعي يساهم في الأمن السيبراني على نطاق واسع وبشكل موثوق.

المصدر: MarkTechPost