إطلاق فريق Alibaba Qwen لإطار عمل متعدد الوكلاء من الجيل التالي لأتمتة واجهة المستخدم الرسومية: GUI-Owl و Mobile-Agent-v3
يُشكل هذا المقال استعراضًا شاملاً لإطار عمل Alibaba Qwen الجديد، والذي يضم وكيلين متطورين هما GUI-Owl و Mobile-Agent-v3، مصممين لأتمتة واجهات المستخدم الرسومية (GUI) عبر منصات متعددة. سنستعرض في هذا المقال بنية هذين الوكيلين، وقدراتهما الأساسية، وعملية تدريبهما، وأدائهما المتميز، بالإضافة إلى إمكانية دمجهما في التطبيقات الواقعية.
مقدمة: صعود وكلاء واجهة المستخدم الرسومية
تسيطر واجهات المستخدم الرسومية على الحوسبة الحديثة عبر الأجهزة المختلفة، من الهواتف المحمولة إلى أجهزة سطح المكتب والويب. كان أتمتة المهام في هذه البيئات تقليديًا يقتصر على استخدام وحدات ماكرو مُبرمجة أو قواعد مُهندسة يدويًا هشة. لكن التطورات الأخيرة في نماذج اللغة والرؤية تُوفر إمكانية رائعة لوكلاء قادرين على فهم الشاشات، و التفكير في المهام، وتنفيذ الإجراءات تمامًا مثل البشر. ومع ذلك، اعتمدت معظم النهج إما على نماذج “صندوق أسود” مغلقة المصدر، أو عانت من مشاكل في التعميم، ودقة التفكير، والمتانة عبر المنصات. يقدم فريق من الباحثين في Alibaba Qwen وكلاء GUI-Owl و Mobile-Agent-v3 كحل لهذه التحديات. GUI-Owl هو نموذج وكيل متعدد الوسائط أصلي من طرف إلى طرف، مبني على Qwen2.5-VL، وقد تم تدريبه بشكل مكثف على بيانات تفاعل واجهة المستخدم الرسومية واسعة النطاق والمتنوعة. يُوحد هذا النموذج الإدراك، والربط، والتفكير، والتخطيط، وتنفيذ الإجراءات ضمن شبكة سياسة واحدة، مما يُمكّن من التفاعل القوي عبر المنصات والتفكير الصريح متعدد الأدوار. ويعتمد إطار عمل Mobile-Agent-v3 على GUI-Owl كنموذج أساسي، حيث يُنسق العديد من الوكلاء المتخصصين (المدير، والعامل، والعاكس، وكاتب الملاحظات) للتعامل مع المهام المعقدة طويلة الأمد مع التخطيط الديناميكي، والتأمل، والذاكرة.
البنية والقدرات الأساسية
GUI-Owl: النموذج الأساسي
صُمّم GUI-Owl من البداية للتعامل مع التباين والديناميكية في بيئات واجهة المستخدم الرسومية الواقعية. تم تهيئته من Qwen2.5-VL، وهو نموذج لغة ورؤية متطور، ولكنه خضع لتدريب إضافي مكثف على مجموعات بيانات واجهة المستخدم الرسومية المتخصصة. يتضمن ذلك الربط (تحديد عناصر واجهة المستخدم من استعلامات اللغة الطبيعية)، وتخطيط المهام (تقسيم التعليمات المعقدة إلى خطوات قابلة للتنفيذ)، ودلالات الإجراءات (فهم كيفية تأثير الإجراءات على حالة واجهة المستخدم الرسومية). تم ضبط النموذج الدقيق من خلال مزيج من التعلم الخاضع للإشراف والتعلم المعزز، مع التركيز على مواءمة قراراته مع نجاح المهمة في العالم الحقيقي.
الابتكارات الرئيسية في GUI-Owl:
- شبكة سياسة موحدة: على عكس الأبحاث السابقة التي تفصل بين الإدراك والتخطيط والتنفيذ في وحدات منفصلة، يُدمج GUI-Owl هذه القدرات في شبكة عصبية واحدة. يسمح هذا باتخاذ القرارات السلسة متعددة الأدوار والتفكير الوسيط الصريح – وهو أمر بالغ الأهمية للتعامل مع غموض وتنوع واجهات المستخدم الرسومية الحقيقية.
- بنية تحتية تدريب قابلة للتطوير: قام الفريق ببناء بيئة افتراضية قائمة على السحابة تشمل Android و Ubuntu و macOS و Windows. يُنشئ خط أنابيب “إنتاج مسار واجهة المستخدم الرسومية ذاتي التطور” بيانات تفاعل عالية الجودة من خلال جعل GUI-Owl و Mobile-Agent-v3 يتفاعلان مع الأجهزة الافتراضية، ثم الحكم بدقة على صحة المسارات. تُستخدم المسارات الناجحة لمزيد من التدريب، مما يُنشئ دورة حميدة من التحسين.
- توليف البيانات المتنوعة: لتعليم النموذج الربط والتفكير القويين، يستخدم فريق البحث مجموعة متنوعة من استراتيجيات توليف البيانات: توليف مهام ربط عناصر واجهة المستخدم من أشجار إمكانية الوصول ولقطات الشاشة المُزاحمة، وتقطير معرفة تخطيط المهام من المسارات التاريخية ونماذج اللغة الكبيرة المدربة مسبقًا، وتوليد بيانات دلالات الإجراءات من خلال جعل النموذج يتنبأ بتأثير الإجراءات بالنظر إلى لقطات الشاشة قبل وبعد.
- مواءمة التعلم المعزز: يتم صقل GUI-Owl بشكل أكبر من خلال إطار عمل تعليم معزز قابل للتطوير يدعم التدريب غير المتزامن تمامًا و”تحسين السياسة النسبية المُدرك للمسار” (TRPO) الجديد. يُخصص TRPO الائتمان عبر تسلسلات إجراءات طويلة ومتغيرة الطول – وهو تقدم بالغ الأهمية لمهام واجهة المستخدم الرسومية حيث تكون المكافآت نادرة ولا تتوفر إلا عند اكتمال المهمة.
Mobile-Agent-v3: التنسيق متعدد الوكلاء
Mobile-Agent-v3 هو إطار عمل عام مصمم لمعالجة سير العمل المعقدة، متعددة الخطوات، وعبر التطبيقات. يقسم المهام إلى أهداف فرعية، ويُحدث الخطط ديناميكيًا بناءً على ملاحظات التنفيذ، ويحافظ على ذاكرة سياقية دائمة. يُنسق الإطار عمل أربعة وكلاء متخصصين:
- وكيل المدير: يُحلل التعليمات عالية المستوى إلى أهداف فرعية، ويُحدث الخطة ديناميكيًا بناءً على النتائج والملاحظات.
- وكيل العامل: يُنفذ الهدف الفرعي القابل للتنفيذ الأكثر صلة بالنظر إلى حالة واجهة المستخدم الرسومية الحالية، والملاحظات السابقة، والملاحظات المُتراكم.
- وكيل العاكس: يُقيّم نتيجة كل إجراء، ويُقارن انتقالات الحالة المقصودة والفعلية لتوليد ملاحظات تشخيصية.
- وكيل كاتب الملاحظات: يُحافظ على المعلومات المهمة (مثل الرموز، وبيانات الاعتماد) عبر حدود التطبيقات، مما يُمكّن من المهام طويلة الأمد.
تدريب خط أنابيب البيانات
يُشكل نقص بيانات التدريب عالية الجودة وقابلة للتطوير عقبة رئيسية في تطوير وكلاء واجهة المستخدم الرسومية. تعتمد النهج التقليدية على الترجمة اليدوية باهظة الثمن، والتي لا تتناسب مع تنوع وديناميكية واجهات المستخدم الرسومية الحقيقية. يعالج فريق GUI-Owl هذا من خلال خط أنابيب إنتاج بيانات ذاتي التطور:
- توليد الاستعلامات: بالنسبة لتطبيقات الهاتف المحمول، تُمثل رسم بياني غير دوري موجه (DAG) مُعلّم عليه يدويًا تدفقات التنقل الواقعية وأزواج القيمة والفتحة لإدخالات المستخدم. تُنشئ نماذج اللغة الكبيرة تعليمات طبيعية من هذه المسارات، والتي يتم صقلها والتحقق منها مقابل واجهات التطبيق الحقيقية.
- توليد المسار: بالنظر إلى استعلام، يتفاعل GUI-Owl أو Mobile-Agent-v3 مع بيئة افتراضية لإنتاج مسار – وهو تسلسل من الإجراءات وانتقالات الحالة.
- حكم على صحة المسار: يُقيّم نظام ناقد من مستويين كل خطوة (هل كان للإجراء التأثير المقصود؟) والمسار الكلي (هل نجحت المهمة؟). يستخدم هذا كل من التفكير النصي ومتعدد الوسائط، مع أحكام نهائية قائمة على الإجماع.
- توليف الإرشادات: بالنسبة للاستعلامات الصعبة، يُنشئ النظام إرشادات خطوة بخطوة من المسارات الناجحة (البشرية أو النموذجية)، مما يُساعد الوكيل على التعلم من الأمثلة الإيجابية.
- التدريب التكراري: تُضاف المسارات الناجحة المُنشأة حديثًا إلى مجموعة التدريب، ويتم إعادة تدريب النموذج، وإغلاق الحلقة على التحسين الذاتي.
المقارنة المعيارية والأداء
تم تقييم GUI-Owl و Mobile-Agent-v3 بدقة عبر مجموعة من معايير أتمتة واجهة المستخدم الرسومية، والتي تغطي الربط، واتخاذ القرارات أحادية الخطوة، والإجابة على الأسئلة، وإكمال المهمة من طرف إلى طرف. وقد تجاوز أداء هذين الوكيلين نماذج أخرى رائدة، بما في ذلك نماذج خاصة.
دمج في العالم الحقيقي
يدعم GUI-Owl مساحة إجراءات غنية خاصة بالمنصة. على الهواتف المحمولة، يتضمن ذلك النقرات، والضغط المطول، والتنقلات، وإدخال النص، وأزرار النظام (الرجوع، والمنزل، إلخ)، وتشغيل التطبيقات. على سطح المكتب، تشمل الإجراءات تحركات الماوس، والنقرات، والسحب، والتمرير، وإدخال لوحة المفاتيح، والأوامر الخاصة بالتطبيق. يتم تحويل الإجراءات إلى أوامر جهاز منخفضة المستوى (ADB لنظام Android، و pyautogui لسطح المكتب)، مما يجعل الإطار قابلًا للنشر بسهولة في بيئات حقيقية.
الخاتمة: نحو وكلاء واجهة المستخدم الرسومية متعددي الأغراض
يمثل GUI-Owl و Mobile-Agent-v3 قفزة كبيرة نحو وكلاء واجهة المستخدم الرسومية المستقلين متعددي الأغراض. من خلال توحيد الإدراك، والربط، والتفكير، والإجراءات في نموذج واحد، ومن خلال بناء خط أنابيب تدريب قابل للتطوير وتحسين الذات، حقق فريق البحث أداءً متطورًا عبر بيئات الجوّال وسطح المكتب، متجاوزًا حتى أكبر النماذج الخاصة في معايير رئيسية.





اترك تعليقاً