نموذج أوفيس 2.5 متعدد الوسائط: ثورة في معالجة البيانات المرئية والمنطقية
أعلنت شركة علي بابا مؤخراً عن إطلاق نموذجها اللغوي الكبير متعدد الوسائط الجديد، أوفيس 2.5 (Ovis 2.5)، والذي يأتي في نسختين، إحداهما بـ 9 مليارات معلمة والأخرى بـ 2 مليار معلمة. يُعد هذا الإصدار قفزة نوعية في مجال الذكاء الاصطناعي مفتوح المصدر، حيث يُظهر أداءً متفوقاً وكفاءة عالية في معالجة المعلومات المرئية المعقدة.
تحسينات جذرية في معالجة الصور والمنطق
يتمثل أحد أهم الابتكارات في أوفيس 2.5 في دمج محوّل الرؤية بدقة أصلية (NaViT)، والذي يُعالج الصور بدقة وضوحها الأصلية، دون اللجوء إلى تقنيات تقسيم الصورة أو تغيير حجمها، وهو ما كان يُسبب فقداناً للمعلومات المهمة والتفاصيل الدقيقة في النماذج السابقة. تُمكن هذه التقنية النموذج من التفوق في المهام التي تتطلب معالجة صور عالية الكثافة، مثل المخططات العلمية والرسوم البيانية المعقدة والنماذج.
لتحسين قدرات الاستدلال والتفكير، يعتمد أوفيس 2.5 منهجية تعليمية متقدمة تتجاوز أساليب التفكير المتسلسلة التقليدية (CoT). تتضمن بيانات تدريبه أمثلة تُظهر “أسلوب التفكير”، مما يُساعد النموذج على تصحيح نفسه والتفكير بشكل نقدي. ويتيح ذلك وضع “وضع التفكير” الاختياري أثناء الاستنتاج، والذي يُمكّن المستخدمين من الحصول على دقة أعلى مع خطوات تفصيلية، على حساب سرعة الاستجابة. يُعد هذا الوضع مفيداً بشكل خاص في المهام التي تتطلب تحليلاً متعدد الوسائط متعمقاً، مثل الإجابة على الأسئلة العلمية أو حل المسائل الرياضية.
معايير الأداء والنتائج المتقدمة
حقق نموذج أوفيس 2.5-9B متوسط درجة 78.3 على لوحة قيادة OpenCompass متعددة الوسائط، متفوقاً على جميع نماذج الذكاء الاصطناعي مفتوحة المصدر التي تقل عن 40 مليار معلمة. أما نموذج أوفيس 2.5-2B، فقد سجل 73.9، مُحدِثاً معياراً جديداً للنماذج الخفيفة المثالية للاستخدام على الأجهزة المحمولة أو الأجهزة ذات الموارد المحدودة.
وتفوق كلا النموذجين على المنافسين في مجالات متخصصة، بما في ذلك:
- الاستدلال في مجالات العلوم والتكنولوجيا والهندسة والرياضيات (STEM): (MathVista, MMMU, WeMath)
- الاستخراج البصري للبيانات (OCR) وتحليل المخططات: (OCRBench v2, ChartQA Pro)
- ربط الصور بالنصوص: (RefCOCO, RefCOCOg)
- فهم مقاطع الفيديو والصور المتعددة: (BLINK, VideoMME)
أظهرت التعليقات الفنية على منصات Reddit و X التطورات الملحوظة في تقنيات OCR ومعالجة المستندات، حيث لاحظ المستخدمون تحسناً في استخراج النصوص من الصور المزدحمة، وفهم النماذج بشكل أفضل، ودعمًا مرناً للاستعلامات المرئية المعقدة.
كفاءة عالية في التدريب ونشر قابل للتطوير
يُحسّن أوفيس 2.5 كفاءة التدريب الشاملة من خلال استخدام تقنيات حزم البيانات متعددة الوسائط والتوازي الهجين المتقدم، مما يُحقق زيادة في الإنتاجية بنسبة 3-4 أضعاف. وتواصل نسخة 2B الخفيفة فلسفة “نموذج صغير، أداء كبير”، مما يُمكّن من فهم متعدد الوسائط عالي الجودة على الأجهزة المحمولة وأجهزة الحافة.
الخلاصة
يمثل نموذج أوفيس 2.5 (النسختان 9B و 2B) إنجازاً هاماً في مجال الذكاء الاصطناعي متعدد الوسائط مفتوح المصدر، حيث حقق نتائج متقدمة على لوحة قيادة OpenCompass. وتشمل أهم ابتكاراته محوّل الرؤية بدقة أصلية (NaViT) ووضع “التفكير” الاختياري. ويتفوق أوفيس 2.5 في مجالات STEM، و OCR، وتحليل المخططات، وفهم الفيديو، متجاوزاً النماذج المفتوحة المصدر السابقة. وتُسهّل كفاءة تدريبه ونسخته الخفيفة إمكانية الوصول إلى قدرات متعددة الوسائط المتقدمة لكل من الباحثين والتطبيقات ذات الموارد المحدودة.
لمعرفة المزيد، يرجى زيارة:
- [الورقة الفنية](رابط الورقة الفنية)
- [نماذج Hugging Face](رابط نماذج Hugging Face)
- [صفحة GitHub](رابط صفحة GitHub)
- [حساب تويتر](رابط حساب تويتر)
- [صفحة Reddit](رابط صفحة Reddit)
- [النشرة البريدية](رابط النشرة البريدية)







اترك تعليقاً