GTA1: وكيل واجهة مستخدم رسومية متطور من سيلزفورس يتفوق على نماذج OpenAI

أعلن باحثو الذكاء الاصطناعي في سيلزفورس عن إطلاقهم لـ GTA1، وهو وكيل جديد لواجهة المستخدم الرسومية (GUI) يُعيد تعريف أحدث ما توصل إليه العلم في مجال التفاعل بين الإنسان والحاسوب. صُمّم GTA1 للعمل بشكل مستقل في بيئات أنظمة تشغيل حقيقية مثل لينكس، ويعالج نقطتين أساسيتين تعيق تطوير وكلاء واجهة المستخدم الرسومية: غموض تخطيط المهام وعدم دقة تحديد المواقع الخاصة بالعمليات. بمعدل نجاح في المهام بلغ 45.2% على مقياس OSWorld، يتفوق GTA1 على وكيل OpenAI (CUA)، مسجلاً رقماً قياسياً جديداً بين النماذج مفتوحة المصدر.

التحديات الأساسية في وكلاء واجهة المستخدم الرسومية

عادةً ما يقوم وكلاء واجهة المستخدم الرسومية بترجمة تعليمات المستخدم عالية المستوى إلى تسلسلات من الإجراءات – نقرات، ضغطات مفاتيح، أو تفاعلات مع واجهة المستخدم – مع مراقبة تحديثات واجهة المستخدم بعد كل إجراء لتخطيط الخطوات اللاحقة. ومع ذلك، لا تزال مشكلتان قائمتان:

  • غموض التخطيط: يمكن أن تُحقق العديد من تسلسلات الإجراءات الصحيحة نفس المهمة، مما يؤدي إلى مسارات تنفيذ تختلف في الكفاءة والموثوقية.
  • دقة تحديد المواقع: يُعد ترجمة اقتراحات الإجراءات المجردة إلى تفاعلات دقيقة على مستوى الإحداثيات مع واجهة المستخدم تحديًا خاصًا في الواجهات الديناميكية عالية الدقة.

يقدم GTA1 آليات جديدة لحل كلا المشكلتين.

تخطيط أكثر ذكاءً من خلال التوسيع في وقت الاختبار

عادةً ما تلتزم المُخططات التقليدية باقتراح إجراء واحد في كل نقطة قرار، مما يحد من المتانة. يقدم توسيع وقت الاختبار في GTA1 حلاً بسيطًا وفعالًا: أخذ عينات متزامنة من عدة إجراءات مرشحة في كل خطوة، واستخدام نموذج مُقيم متعدد الوسائط – عادةً نموذج لغة كبير – لتقييم واختيار الأنسب. تتجنب هذه التقنية الالتزام المبكر بخطط دون المستوى الأمثل، وتمكن الوكيل من استكشاف مسارات التنفيذ بشكل أفضل دون الحاجة إلى نشر مستقبلي، وهو أمر غير عملي في بيئات واجهة المستخدم الرسومية نظرًا لعدم إمكانية التراجع عن الإجراءات. من المهم أن هذه الطريقة يمكن أن تعمل مع أي مُخطط وتتوسع بشكل جيد مع زيادة تعقيد المهمة وحجم مساحة الإجراءات.

تعلم التعزيز لدقة تحديد المواقع

بالنسبة لتحديد مواقع واجهة المستخدم الرسومية، تعتمد معظم النماذج السابقة على الضبط الدقيق الخاضع للإشراف للتنبؤ بمركز عناصر واجهة المستخدم المستهدفة، مما يحد من التعميم. يعتمد GTA1 على إطار عمل تعلم التعزيز (RL) القائم على تحسين السياسة النسبية الجماعية (GRPO). بدلاً من الاعتماد على التفكير الوسيط (“التفكير”) أو التنبؤ بمربعات الإحاطة، يتعلم النموذج مباشرةً من المكافآت القائمة على النقر: يُكافأ فقط عندما تقع الإحداثيات المُتنبأ بها ضمن عنصر واجهة المستخدم الصحيح. من خلال هيكل المكافآت هذا، يحقق GTA1 دقة متقدمة دون تعقيد أو تكلفة الإشراف على نمط سلسلة الأفكار. بشكل ملحوظ، تُظهر دراسة الاستبعاد أن إزالة الإشارات المساعدة مثل “التفكير” أو مكافآت المربع القائمة على IoU تُحسّن بالفعل أداء تحديد المواقع – خاصةً في البيئات الثابتة.

الأداء عبر المعايير

يضع GTA1 معيارًا جديدًا في العديد من التقييمات:

  • OSWorld (معدل نجاح المهمة): يصل GTA1-7B إلى 45.2%، متفوقًا على OpenAI CUA (42.9%) و Claude 3.7 (28.0%).
  • ScreenSpot-Pro (دقة تحديد المواقع): يحرز GTA1-7B 50.1%، متقدمًا على نماذج مثل UGround-72B (34.5%).
  • ScreenSpot-V2 (تحديد المواقع عبر الأنظمة الأساسية): يصل GTA1-72B إلى 94.8%، مطابقًا تقريبًا لأفضل النماذج الخاصة.
  • OSWorld-G (تحديد المواقع في واجهة مستخدم رسومية لينكس): يصل GTA1-7B إلى 67.7%، متفوقًا على جميع النهج مفتوحة المصدر السابقة.

تُثبت هذه النتائج فعالية كل من ابتكارات التخطيط وتحديد المواقع المُقدّمة في GTA1.

أبرز ميزات التصميم الإضافية

  • تنظيف البيانات: يتم تصفية التسميات غير المحاذاة من مجموعات البيانات مثل Aria-UI و OS-Atlas باستخدام OmniParser لتحسين دقة إشارة التدريب.
  • توسيع النموذج: يتوسع النهج بشكل جيد عبر النماذج من 7B إلى 72B من المعلمات، مع تقديم GTA1-7B لأفضل توازن بين الأداء والحوسبة.
  • إعادة استخدام المُقيم: يمكن أن يكون النموذج المُقيم متعدد الوسائط المستخدم في توسيع وقت الاختبار هو نفس نموذج اللغة الكبير المستخدم للتخطيط، مما يقلل من التكاليف.

الخلاصة

يُظهر GTA1 أنه يمكن بناء وكلاء واجهة مستخدم رسومية قوية ودقيقة باستخدام إطار عمل من جزئين مُعزز بتنوع التخطيط في وقت الاختبار وتحديد مواقع دقيق قائم على تعلم التعزيز. من خلال التخلي عن التعقيد غير الضروري – مثل التفكير في سلسلة الأفكار في المهام الثابتة – قدمت سيلزفورس AI بنية وكيل فعالة وخفيفة الوزن تدفع حدود التفاعل الرقمي المفتوح.

يمكنكم الاطلاع على الورقة البحثية، والرموز، ونموذج 7B، ونموذج 32B، ونموذج 72B. جميع الحقوق لهذه الدراسة تخص الباحثين في هذا المشروع. كما ندعوكم لمتابعتنا على تويتر، ويوتيوب، وسبوتيفاي، ولا تنسوا الانضمام إلى مجتمعنا على ريديت (أكثر من 100 ألف مشترك) والاشتراك في قائمتنا البريدية.

المصدر: MarkTechPost