إطار عمل Go-Browse: ثورة في تدريب وكلاء الويب القابلين للتطوير

يواجه وكلاء الويب الرقميون، المصممون لأتمتة المهام على الإنترنت مثل التنقل بين الصفحات، والنقر على الأزرار، وإرسال النماذج، تحديًا كبيرًا يتمثل في تعقيد واجهات الويب الديناميكية وتطورها المستمر. فقد أظهرت نماذج اللغات المدربة مسبقًا كفاءة عالية في مجالات أخرى، إلا أنها ما زالت تعاني من قيود في أدائها في مهام الويب القائمة على واجهة المستخدم الرسومية (GUI)، وذلك بسبب تعقيد صفحات الويب وتنوعها. يقدم هذا المقال نظرة متعمقة على إطار عمل Go-Browse، وهو حل مبتكر من جامعة كارنيجي ميلون، والذي يهدف إلى التغلب على هذه التحديات.

تحديات جمع البيانات لوكلاء الويب على نطاق واسع

تتمثل إحدى التحديات الرئيسية في فهم وكلاء الويب المحدود للبيئات التي يعملون بها. غالبًا ما تفشل النماذج المدربة مسبقًا عند التفاعل مع واجهات غير مألوفة أو معقدة. على عكس مجموعات البيانات الثابتة، تتطلب بيئات الويب الواقعية اتخاذ قرارات مستمرة استجابةً لاختلافات التصميم وتغيرات تدفق المستخدم. هذا يجعل من الصعب على وكلاء الويب إنجاز المهام بموثوقية، مثل العثور على منتج معين أو ملء نموذج عبر الإنترنت. وبالرغم من أن البيانات التي قام الإنسان بجمعها قد توفر توجيهًا، إلا أن جمع هذه البيانات عملية شاقة لا يمكن تكرارها لتلبية تنوع سيناريوهات الويب في العالم الحقيقي.

الأساليب السابقة: التفاعل أولاً مقابل التعليمات أولاً

حاول الباحثون سابقًا استخدام طرق مختلفة لجمع البيانات لتدريب هؤلاء الوكلاء. أحد هذه الأساليب، وهو ما يسمى “التفاعل أولاً”، يسمح للوكيل باستكشاف مواقع الويب بناءً على تعليمات عامة، ثم يتم وضع علامات على أنشطته لاحقًا باستخدام نموذج آخر. في حين أن هذا قد يؤدي إلى استكشاف أعمق، إلا أنه غالبًا ما ينتج عنه سلوك متكرر عبر الجلسات، مما يحد من تنوع البيانات. أما الأسلوب الآخر، وهو “التعليمات أولاً”، فيولّد مهام محددة للوكيل ليقوم بها بناءً على محتوى صفحة ويب واحدة. على الرغم من أن هذه المهام أكثر تركيزًا، إلا أنها غالبًا ما ترتبط فقط بالمحتوى المرئي وقد لا تكون قابلة للتطبيق، خاصةً عندما تستند إلى عناصر وهمية.

Go-Browse: استكشاف الويب القائم على الرسوم البيانية المُهيكلة

للتغلب على هذه القيود، قدم باحثون من جامعة كارنيجي ميلون إطار عمل Go-Browse، الذي يتعامل مع جمع البيانات على أنه مشكلة اجتياز رسوم بيانية. بدلاً من الاعتماد على الاستكشاف العام أو مطالبات المهام الثابتة، يبني Go-Browse بشكل متكرر رسومًا بيانية لـ URLs التي تم زيارتها، ويستخدم هذا الهيكل لاستكشاف الصفحات المكتشفة سابقًا والصفحات الجديدة. يسمح هذا للوكيل بالعودة إلى الصفحات المعروفة والتفرع منها، مما يقلل من التكرار مع زيادة تنوع البيانات. تقترح كل مرحلة من مراحل الاستكشاف وتتحقق من صحة المهام على صفحة مختارة، مما يضمن أن المهام القابلة للتطبيق فقط هي التي تولد بيانات التدريب.

آلية عمل Go-Browse: بنية معيارية للاستكشاف والتحقق من الصحة

يعمل Go-Browse من خلال وحدات متعددة:

  • NavExplorer: يركز على اقتراح مهام التنقل التي تربط بالصفحات الجديدة. يتفاعل كوكيل ويب ديناميكيًا مع كل صفحة لتحديد الروابط المؤدية إلى URLs غير مستكشفة.
  • PageExplorer: يقترح مهام محلية للصفحة الحالية.
  • FeasibilityChecker: يختبر هذه المهام باستخدام وكلاء مدربين مسبقًا ونماذج لغة ورؤية قوية لتحديد ما إذا كان يمكن إكمال الإجراءات المقترحة بنجاح. يتم وضع علامة على المهام التي تمر بهذه الخطوة على أنها قابلة للتطبيق ويتم إضافتها إلى مجموعة البيانات.
  • Solvers: يقوم بعينات إضافية لإكمال المهام، من نقاط بداية محددة مسبقًا ومن حالات أولية، باستخدام نماذج منخفضة التكلفة لزيادة توليد البيانات مع الحفاظ على الموارد.

تقييم WebArena: Go-Browse يتفوق على المعايير الأساسية السابقة

قام فريق البحث بتقييم Go-Browse على معيار WebArena، المعروف بصعوبة تقييم الوكلاء القائمين على واجهة المستخدم الرسومية. قاموا بجمع مجموعة بيانات تتضمن حوالي 10000 مسار مهمة ناجح و 17000 مسارًا غير ناجح عبر 100 عنوان URL فريد. أدى ضبط نموذج Qwen-2.5-7B-Instruct على هذه المجموعة من البيانات إلى معدل نجاح مهمة بلغ 21.7%. تجاوز هذا الأداء GPT-4o-mini بنسبة 2.4%، وتفوق على أفضل نموذج سابق ذي معلمات أقل من 10 مليارات، وهو NNetNav، بنسبة 2.9%. مع الأخذ في الاعتبار أن معدل نجاح الإنسان الأساسي هو 78%، فإن هذا لا يزال يعكس مجالًا للتحسين، ولكنه يمثل تقدمًا كبيرًا.

لماذا يعزز الاستكشاف المُهيكل ذكاء وكلاء الويب؟

يحدد البحث مشكلة رئيسية: وهي أن وكلاء الويب يكافحون لفهم بيئات الويب المعقدة. تُعالج طريقتهم المقترحة، Go-Browse، هذه المشكلة من خلال تنفيذ استراتيجية مُهيكلة ومرنة تجمع بين التنقل، وتخطيط المهام، والتحقق من صحة المسار. من خلال التعامل مع الاستكشاف كمهمة اجتياز رسوم بيانية، واستخدام التحقق والمعاينة المعيارية، يوفر النهج بيانات تدريب قابلة للتطوير ومتنوعة. تؤدي هذه المساهمات إلى زيادة الأداء القابلة للقياس، مما يدل على وعد الاستكشاف المُهيكل لتدريب وكلاء ويب أكثر ذكاءً.

ملخص:

يقدم البحث إطار عمل Go-Browse، وهو إطار عمل استكشاف مُهيكل طوره باحثون من جامعة كارنيجي ميلون لتحسين تدريب وكلاء الويب الرقميين. على عكس الأساليب السابقة، يُطوّر Go-Browse الاستكشاف كمهمة اجتياز رسوم بيانية، مما يُمكّن من جمع بيانات قابلة للتطوير ومتنوعة من خلال التنقل والتفاعل مع مواقع الويب بشكل منهجي. باستخدام مكونات معيارية مثل NavExplorer و FeasibilityChecker، يُولّد مسارات مهام قابلة للتطبيق وعالية الجودة. عند تقييمه على معيار WebArena، تفوقت النماذج المُدرّبة بواسطة Go-Browse على النماذج السابقة التي تحتوي على أقل من 10 مليارات معلمة، حتى أنها تجاوزت GPT-4o-mini، مما يدل على فعالية جمع البيانات المُهيكلة في بناء وكلاء ويب قويين.

المصدر: MarkTechPost