CoAct-1: نظام متعدد الوكلاء ثوري يجمع بين واجهة المستخدم الرسومية والتنفيذ البرمجي المباشر

يُقدم باحثون من جامعة جنوب كاليفورنيا، وسيلزفورس للذكاء الاصطناعي، وجامعة واشنطن، نظام CoAct-1، وهو نظام متعدد الوكلاء يستخدم الحاسوب (CUA) رائد يُمثل قفزة نوعية في تشغيل الحاسوب بشكل ذاتي. من خلال رفع مستوى البرمجة لتصبح إجراءً أساسياً – على قدم المساواة مع معالجة واجهة المستخدم الرسومية التقليدية – يتغلب CoAct-1 على التحديات القديمة المتعلقة بالكفاءة والموثوقية في مهام الحاسوب المعقدة طويلة الأمد. على مقياس الأداء OSWorld، يُحدد CoAct-1 معياراً ذهبيًا جديدًا، محققاً معدل نجاح متطورًا (SOTA) بلغ 60.76٪، ليصبح أول وكيل CUA يتجاوز نسبة 60٪.

لماذا CoAct-1؟ سدّ فجوة الكفاءة في وكلاء استخدام الحاسوب

تعتمد وكلاء CUA التقليدية بشكل أساسي على التفاعل مع واجهة المستخدم الرسومية القائم على وحدات البكسل – محاكاة المستخدمين من خلال النقر والكتابة والتنقل بين الواجهات. بينما يحاكي هذا النهج سير عمل المستخدم، إلا أنه يثبت هشاشته وعدم كفاءته في المهام المعقدة متعددة الخطوات، خاصة تلك التي تتضمن تخطيطات واجهة مستخدم كثيفة، أو خطوط أنابيب متعددة التطبيقات، أو عمليات نظام تشغيل معقدة. يمكن أن تؤدي الأخطاء الفردية، مثل النقر الخاطئ، إلى تعطيل سير العمل بالكامل، وتتضخم أطوال التسلسلات مع زيادة تعقيد المهام.

شملت الجهود المبذولة للتخفيف من هذه المشكلات تعزيز وكلاء واجهة المستخدم الرسومية بمخططات عالية المستوى، كما هو الحال في أنظمة مثل GTA-1 وأطر عمل متعددة الوكلاء المعيارية. ومع ذلك، لا تستطيع هذه الأساليب الهروب من عنق الزجاجة المتمثل في مساحات العمل التي تركز على واجهة المستخدم الرسومية، مما يحد في النهاية من كفاءة النظام وقدرته على التحمل.

CoAct-1: بنية هجينة مع البرمجة كعمل

يتبنى CoAct-1 نهجًا مختلفًا بشكل أساسي من خلال دمج ثلاثة وكلاء متخصصين:

  • المنسق (Orchestrator): المخطط عالي المستوى الذي يُحلل المهام المعقدة ويُوكل كل مهمة فرعية ديناميكيًا إما إلى المبرمج أو مشغل واجهة المستخدم الرسومية بناءً على متطلبات المهمة.
  • المبرمج (Programmer): يُنفذ عمليات الخلفية – إدارة الملفات، ومعالجة البيانات، وتكوين البيئة – مباشرةً عبر نصوص Python أو Bash، متجاوزًا تسلسلات إجراءات واجهة المستخدم الرسومية المُرهقة.
  • مشغل واجهة المستخدم الرسومية (GUI Operator): يستخدم نموذجًا للرؤية واللغة للتفاعل مع الواجهات المرئية عندما يكون التنقل في واجهة المستخدم الرسومية الشبيه بالبشر ضروريًا.

يُمكّن هذا النموذج الهجين CoAct-1 من استبدال عمليات الماوس ولوحة المفاتيح الهشة والطويلة بتنفيذ أكواد موجزة وموثوقة، مع الاستمرار في الاستفادة من تفاعلات واجهة المستخدم الرسومية عند الضرورة.

التقييم على OSWorld: أداء قياسي

يُثبت OSWorld – وهو مقياس أداء رائد يضم 369 مهمة تغطي إنتاجية المكتب، وبيئات التطوير المتكاملة (IDEs)، والمتصفحات، ومديري الملفات، وسير عمل متعدد التطبيقات – أنه بيئة اختبار دقيقة لأنظمة الوكلاء. تُحاكي كل مهمة أهداف اللغة في العالم الحقيقي، ويتم تقييمها بواسطة نظام تسجيل قائم على القواعد الدقيقة.

النتائج:

  • معدل النجاح الإجمالي المتطور (SOTA): حقق CoAct-1 نسبة 60.76٪ في فئة المهام التي تتجاوز 100 خطوة – وهو أول وكيل CUA يتجاوز عتبة 60 نقطة. يتفوق هذا على GTA-1 (53.10٪)، و OpenAI CUA 4o (31.40٪)، و UI-TARS-1.5 (29.60٪)، وأطر العمل الرائدة الأخرى.
  • أداء السماح المتدرج: بميزانية 100 خطوة، سجل CoAct-1 59.93٪، متقدماً مرة أخرى على جميع المنافسين.
  • الكفاءة: يُكمل المهام بمتوسط ​​10.15 خطوة لكل مهمة ناجحة، مقارنة بـ 15.22 لـ GTA-1، و 14.90 لـ UI-TARS، وبنجاح أعلى بكثير من OpenAI CUA 4o، الذي، على الرغم من عدد أقل من الخطوات (6.14)، حقق 31.40٪ فقط من النجاح.

تفصيل النتائج:

يُسيطر CoAct-1 على جميع أنواع المهام، مع مكاسب كبيرة بشكل خاص في سير العمل الذي يستفيد من تنفيذ التعليمات البرمجية:

  • تطبيقات متعددة: 47.88٪ (مقابل 38.34٪ لـ GTA-1)
  • مهام نظام التشغيل: 75.00٪
  • VLC: 66.07٪

في مجالات الإنتاجية وبيئات التطوير المتكاملة (LibreOffice Calc، Writer، VSCode)، يتصدر CoAct-1 أو يتعادل مع أفضل النتائج.

الرؤى الرئيسية: ما الذي يدفع مكاسب CoAct-1؟

  • إجراءات الترميز تحل محل تسلسلات واجهة المستخدم الرسومية الزائدة: بالنسبة للعمليات مثل تغيير حجم الصور دفعة واحدة أو معالجات الملفات المتقدمة، تحل النصوص البرمجية الفردية محل عشرات النقرات المعرضة للأخطاء، مما يقلل من كل من الخطوات وخطر الفشل.
  • التفويض الديناميكي: يضمن التعيين المرن للمهام من قبل المنسق الاستخدام الأمثل لإجراءات الترميز مقابل إجراءات واجهة المستخدم الرسومية.
  • التحسين مع النُظم الأساسية الأقوى: يستخدم أفضل تكوين OpenAI CUA 4o لـ مشغل واجهة المستخدم الرسومية، و OpenAI o3 للمنسق، و o4-mini للمبرمج، ليصل إلى أعلى درجة وهي 60.76٪. تحقق الأنظمة التي تستخدم فقط نُظم أساسية أصغر أو أقل قدرة درجات أقل بكثير.
  • الكفاءة مرتبطة بالموثوقية: يقلل عدد أقل من الخطوات بشكل مباشر من فرص حدوث الأخطاء – وهو أقوى مؤشر على إتمام المهمة بنجاح.

الخلاصة: قفزة إلى الأمام في أتمتة الحاسوب العامة

من خلال جعل البرمجة إجراءً أساسياً في النظام إلى جانب معالجة واجهة المستخدم الرسومية، يوفر CoAct-1 قفزة نوعية في كل من النجاح والكفاءة، ويُوضح المسار العملي للأمام لوكلاء الحاسوب ذاتية التشغيل القابلة للتطوير والموثوقة. تُحدد بنيته الهجينة ومنطقه التنفيذي الديناميكي علامة مائية جديدة لمجال CUA، معلنة عن تقدم قوي في أتمتة الحاسوب في العالم الحقيقي.

[اطلع على الورقة البحثية والتفاصيل التقنية](رابط الورقة البحثية)
[زيارة صفحة GitHub للحصول على البرامج التعليمية، والأكواد، ودفاتر الملاحظات](رابط صفحة GitHub)
[تابعنا على تويتر](رابط تويتر)
[انضم إلى مجتمعنا ML الذي يضم أكثر من 100 ألف عضو](رابط مجتمع ML)
[اشترك في قائمتنا البريدية](رابط القائمة البريدية)

المصدر: MarkTechPost