نموذج مكافآت العملية WEB-SHEPHERD: ثورة في تصفح الويب بواسطة الذكاء الاصطناعي
يُعَدّ بناء وكلاء ذكاء اصطناعي قادرين على تصفح الويب بفعالية تحديًا كبيرًا في مجال الذكاء الاصطناعي. يتطلب ذلك فهمًا دقيقًا لهيكلة المواقع الإلكترونية، وفهم أهداف المستخدم، واتخاذ سلسلة من القرارات عبر عدة خطوات. تزداد هذه التعقيدات مع الحاجة إلى قدرة الوكلاء على التكيف مع بيئات الويب الديناميكية، حيث يتغير المحتوى بشكل متكرر، ويجب فهم المعلومات متعددة الوسائط (مثل النصوص والصور) معًا.
تحديات نماذج المكافآت التقليدية
تتمثل إحدى المشكلات الرئيسية في تصفح الويب في غياب نماذج مكافآت موثوقة و مفصلة قادرة على توجيه الوكلاء في الوقت الفعلي. تعتمد الطرق الحالية بشكل أساسي على نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) مثل GPT-4o و GPT-4o-mini كمُقيمين، وهي مكلفة وبطيئة وغالبًا ما تكون غير دقيقة، خاصة عند التعامل مع تسلسلات طويلة من الإجراءات في المهام متعددة الخطوات. تستخدم هذه النماذج تقييمًا قائمًا على المطالبات أو ملاحظات نجاح/فشل ثنائية، لكنها تفشل في تقديم توجيهات على مستوى الخطوة، مما يؤدي غالبًا إلى أخطاء مثل تكرار الإجراءات أو تفويت خطوات مهمة مثل النقر على أزرار محددة أو ملء حقول النماذج. يقلل هذا القصور من إمكانية نشر وكلاء الويب في سيناريوهات العالم الحقيقي، حيث تعتبر الكفاءة والدقة والفعالية من حيث التكلفة أمورًا بالغة الأهمية.
WEB-SHEPHERD: حلٌّ ثوريّ
للتغلب على هذه التحديات، قدم فريق بحثي من جامعة يونسي وجامعة كارنيجي ميلون نموذج مكافآت العملية WEB-SHEPHERD، المصمم خصيصًا لمهام تصفح الويب. يُعد WEB-SHEPHERD أول نموذج يُقيّم وكلاء تصفح الويب على مستوى الخطوة، باستخدام قوائم مرجعية منظمة لتوجيه التقييمات.
مجموعة بيانات WEBPRM COLLECTION ومعيار WEBREWARDBENCH
طور الباحثون أيضًا مجموعة بيانات WEBPRM COLLECTION، التي تتضمن 40,000 مهمة تصفح ويب مُعلّمة على مستوى الخطوة، ومعيار WEBREWARDBENCH لتقييم نماذج مكافآت العملية (PRMs). صُممت هذه الموارد لتمكين WEB-SHEPHERD من تقديم ملاحظات مفصلة من خلال تقسيم المهام المعقدة إلى أهداف فرعية أصغر وقابلة للقياس.
آلية عمل WEB-SHEPHERD
يعمل WEB-SHEPHERD عن طريق توليد قائمة مرجعية لكل مهمة بناءً على تعليمات المستخدم، مثل “البحث عن منتج” أو “انقر على صفحة المنتج”، ويُقيّم تقدم الوكيل مقابل هذه الأهداف الفرعية. يستخدم النموذج التنبؤ بالرمز التالي لتوليد الملاحظات، ويُعيّن المكافآت بناءً على إكمال قائمة المراجعة. تتيح هذه العملية لـ WEB-SHEPHERD تقييم صحة كل خطوة بدقة عالية. يُقدّر النموذج مكافأة كل خطوة من خلال الجمع بين احتمالات رموز “نعم”، “لا”، و”قيد التنفيذ”، ويُعَدّل هذه الاحتمالات عبر قائمة المراجعة. يُمكّن نظام التسجيل المفصل هذا الوكلاء من تلقي ملاحظات مُستهدفة حول تقدمهم، مما يُعزز قدرتهم على التنقل في المواقع الإلكترونية المعقدة.
النتائج المُذهلة
أظهر الباحثون أن WEB-SHEPHERD يتفوق بشكل كبير على النماذج الحالية. في معيار WEBREWARDBENCH، حقق WEB-SHEPHERD درجة متوسط الترتيب المتبادل (MRR) بلغت 87.6% ودقة مسار بلغت 55% في الإعداد النصي فقط، مقارنةً بـ 47.5% MRR و 0% دقة مسار لـ GPT-4o-mini بدون قوائم مرجعية. عند اختباره في WebArena-lite باستخدام GPT-4o-mini كنموذج سياسة، حقق WEB-SHEPHERD معدل نجاح بلغ 34.55%، وهو أعلى بـ 10.9 نقطة من استخدام GPT-4o-mini كمقيّم، مع كونه أيضًا أكثر كفاءة بعشر مرات من حيث التكلفة.
في دراسات الاستبعاد، لاحظ الباحثون أن أداء WEB-SHEPHERD انخفض بشكل كبير عند إزالة قوائم المراجعة أو الملاحظات، مما يُثبت أهميتها لتعيين المكافآت بدقة. أظهروا أيضًا أن المدخلات متعددة الوسائط، بشكل مُفاجئ، لم تُحسّن الأداء دائمًا، بل أدخلت أحيانًا ضوضاء.
الخلاصة
يُبرز هذا البحث الدور الحاسم لمكافآت العملية التفصيلية على مستوى الخطوة في بناء وكلاء ويب موثوقين. يعالج عمل الفريق التحدي الأساسي لتصفح الويب – تقييم الإجراءات المعقدة متعددة الخطوات – ويقدم حلاً قابلًا للتطوير وفعال من حيث التكلفة. مع WEB-SHEPHERD، يمكن للوكلاء الآن تلقي ملاحظات دقيقة أثناء التنقل، مما يُمكّنهم من اتخاذ قرارات أفضل وإكمال المهام بفعالية أكبر.
اترك تعليقاً