نماذج Holo1.5: ثورة في فهم واجهات المستخدم الرسومية
تُعلن شركة H الفرنسية المتخصصة في مجال الذكاء الاصطناعي عن إطلاق عائلة نماذج Holo1.5، وهي نماذج رؤية أساسية مفتوحة المصدر مصممة خصيصًا للوكلاء المستخدمين في الحواسيب (CU) الذين يتفاعلون مع واجهات المستخدم الحقيقية عبر لقطات شاشة وأوامر مؤشر/لوحة مفاتيح. تتضمن هذه النسخة نقاط تفتيش 3 مليار و 7 مليار و 72 مليار مع زيادة في الدقة بنسبة 10% تقريبًا مقارنةً بنسخة Holo1 السابقة. يُستخدم نموذج 7 مليار تحت ترخيص Apache-2.0، بينما يخضع نموذجا 3 مليار و 72 مليار لقيود بحثية فقط من قواعدهما الأصلية.
القدرات الأساسية لنماذج Holo1.5
ترتكز سلسلة Holo1.5 على قدرتين أساسيتين لتحسين أداء أنظمة استخدام الحواسيب:
-
التحديد الدقيق لعناصر واجهة المستخدم (تنبؤ الإحداثيات): تُحدد هذه الخاصية كيفية تحويل الوكيل للنوايا إلى إجراءات على مستوى البكسل. فعلى سبيل المثال، طلب “فتح Spotify” يُترجم إلى التنبؤ بإحداثيات النقر القابلة للنقر للتحكم الصحيح على الشاشة الحالية. يُعدّ هذا الأمر بالغ الأهمية، حيث إن أي خطأ بسيط في تحديد الإحداثيات قد يؤدي إلى تعطيل سير العمل متعدد الخطوات. وقد تم تدريب وتقييم Holo1.5 على شاشات عالية الدقة (حتى 3840 × 2160) عبر واجهات سطح المكتب (macOS، Ubuntu، Windows)، والويب، والجوال، مما يحسن من متانة الأداء على واجهات المستخدم المهنية الكثيفة حيث تزيد الرموز والهدف صغير الحجم من معدلات الخطأ.
-
الإجابة على الأسئلة المرئية المتعلقة بواجهة المستخدم (UI-VQA): تُتيح هذه الخاصية فهم حالة واجهة المستخدم. تساعد هذه القدرة على تقليل الغموض وتمكين التحقق من صحة الإجراءات من خلال الاستفسارات مثل “أي علامة تبويب نشطة؟” أو “هل تم تسجيل دخول المستخدم؟”.
Holo1.5 مقابل نماذج الرؤية اللغوية الشاملة
تُحسّن نماذج الرؤية اللغوية الشاملة من فهم السياق العام وكتابة التعليقات التوضيحية، بينما تحتاج وكلاء استخدام الحواسيب إلى دقة عالية في تحديد المواقع وفهم واجهة المستخدم. لذلك، تُلائم Holo1.5 بياناتها وأهدافها مع هذه المتطلبات من خلال التدريب الخاضع للإشراف واسع النطاق على مهام واجهة المستخدم الرسومية، تليها عملية تعزيز التعلم على طريقة GRPO لزيادة دقة الإحداثيات وموثوقية القرارات. وتُقدم النماذج كمكونات إدراكية ليتم تضمينها في المخططات/المنفذين (مثل وكلاء Surfer)، وليس كوكلاء شاملين.
أداء Holo1.5 في معايير تحديد المواقع
تُظهر نتائج Holo1.5 أنها الأفضل في تحديد المواقع على واجهة المستخدم الرسومية عبر معايير ScreenSpot-v2، وScreenSpot-Pro، وGroundUI-Web، وShowdown، وWebClick. فعلى سبيل المثال، حقق نموذج 7 مليار من Holo1.5 معدل دقة 77.32% مقارنةً بـ 60.73% لنموذج Qwen2.5-VL-7B. وفي اختبار ScreenSpot-Pro (تطبيقات مهنية ذات تصميمات كثيفة)، حقق Holo1.5-7B معدل دقة 57.94% مقابل 29.00% لـ Qwen2.5-VL-7B، مما يدل على تحسين كبير في اختيار الهدف في ظل ظروف واقعية. وتُظهر نقاط التفتيش 3 مليار و 72 مليار مكاسب نسبية مماثلة مقابل نظيراتها من Qwen2.5-VL.
تحسين فهم واجهة المستخدم (UI-VQA)
حققت Holo1.5 تحسينات كبيرة في دقة فهم واجهة المستخدم على معايير VisualWebBench، وWebSRC، وScreenQA (قصيرة/معقدة). بلغ متوسط دقة نموذج 7 مليار حوالي 88.17%، بينما بلغت دقة النسخة 72 مليار حوالي 90.00%.
Holo1.5 مقابل الأنظمة المتخصصة والمغلقة
تتفوق Holo1.5 على نماذج الأساس المفتوحة (Qwen2.5-VL)، والأنظمة المتخصصة التنافسية (مثل UI-TARS، UI-Venus)، وتُظهر مزايا مقارنةً بنماذج شاملة مغلقة (مثل Claude Sonnet 4) في مهام واجهة المستخدم المذكورة. ولكن، نظرًا لأن البروتوكولات، والطلبات، ودقة الشاشة تؤثر على النتائج، ينبغي على المختصين تكرار التجربة قبل استخلاص استنتاجات على مستوى النشر.
آثار التكامل مع وكلاء استخدام الحواسيب
-
دقة نقر أعلى بدقة الشاشة الأصلية: يُشير الأداء المحسن على ScreenSpot-Pro إلى تقليل النقرات الخاطئة في التطبيقات المعقدة (بيئات تطوير متكاملة، مجموعات تصميم، لوحات تحكم إدارية).
-
تتبع الحالة الأقوى: تُحسّن دقة UI-VQA من اكتشاف حالة تسجيل الدخول، والعلامة التبويب النشطة، وظهور النوافذ المنبثقة، وإشارات النجاح/الفشل.
-
مسار ترخيص عملي: يُعدّ نموذج 7 مليار (Apache-2.0) مناسبًا للإنتاج. أما نقطة التفتيش 72 مليار فهي حاليًا للبحث فقط؛ استخدمها للتجارب الداخلية أو لتحديد الحد الأقصى.
مكان Holo1.5 في بنية استخدام الحواسيب الحديثة
يُمكن اعتبار Holo1.5 طبقة إدراك الشاشة:
-
المدخلات: لقطات شاشة بدقة كاملة (اختياريًا مع بيانات وصفية لواجهة المستخدم).
-
المخرجات: إحداثيات الهدف بثقة؛ إجابات نصية قصيرة حول حالة الشاشة.
-
المراحل اللاحقة: تُحوّل سياسات الإجراء التنبؤات إلى أحداث نقر/لوحة مفاتيح؛ يُحقق المراقبة الشروط اللاحقة ويُشغل إعادة المحاولات أو عمليات الاحتياط.
الخلاصة
تُقلص Holo1.5 الفجوة العملية في أنظمة استخدام الحواسيب من خلال الجمع بين تحديد المواقع القوي وفهم واجهة المستخدم الموجز. إذا كنت بحاجة إلى قاعدة قابلة للاستخدام تجاريًا اليوم، فابدأ بـ Holo1.5-7B (Apache-2.0)، وقم بقياس الأداء على شاشاتك، وقم بتجهيز مخططاتك/طبقات الأمان الخاصة بك حولها. تفضل بزيارة نماذج Hugging Face والتفاصيل التقنية. ولا تتردد في زيارة صفحة GitHub للحصول على الدروس التعليمية، والأكواد، ودفاتر الملاحظات. تابعنا أيضًا على Twitter، وانضم إلى مجتمع ML الذي يضم أكثر من 100 ألف مشترك، واشترك في قائمتنا البريدية.
اترك تعليقاً