نموذج GLM-4.1V-Thinking: فهم ومعالجة متقدمة للبيانات متعددة الوسائط

يُعدّ فهم البيانات متعددة الوسائط (النصوص والصور والفيديوهات) تحديًا رئيسيًا في مجال الذكاء الاصطناعي. وتُعتبر نماذج اللغة والرؤية (VLMs) أداةً أساسيةً في تطوير أنظمة ذكية قادرة على فهم محتوى الوسائط المتعددة بشكل دقيق. لكنّ متطلبات هذه النماذج تتجاوز مجرد استيعاب المحتوى البصري البسيط، لتشمل قدرات استنتاجية متقدمة تُمكّنها من حلّ المشكلات المعقدة.

وقد قام باحثون من جامعة تشينغهوا وشركة Zhipu AI بتطوير نموذج GLM-4.1V-Thinking، وهو نموذج متطور لفهم ومعالجة البيانات متعددة الوسائط، ويهدف إلى تعزيز القدرات العامة في هذا المجال.

مكونات النموذج:

يتألف النموذج من ثلاثة مكونات رئيسية:

  1. مشفّر رؤية (Vision Encoder): يستخدم نموذج AIMv2-Huge للتحليل الدقيق للمحتوى البصري، مع استبدال عمليات الالتفاف ثنائية الأبعاد (2D convolutions) بعمليات التفاف ثلاثية الأبعاد (3D convolutions) لتحسين معالجة الفيديوهات. كما يدعم النموذج دقةً عاليةً للصور تصل إلى 4K وأبعادًا غير متناسقة تصل إلى 200:1.
  2. محوّل MLP (MLP Adapter): يلعب دورًا في الربط بين مشفّر الرؤية وفكّ تشفير اللغة.
  3. فكّ تشفير لغة كبير (LLM Decoder): يستخدم نموذج GLM كفكّ تشفير للغة، مع إضافة تحسينات خاصة مثل 3D-RoPE لتحسين الفهم المكاني في سياقات متعددة الوسائط. كما يتم إضافة رموز مؤشر زمني (time index tokens) بعد كل إطار من الفيديو، مع ترميز الطوابع الزمنية كسلاسل نصية لمساعدة النموذج على فهم الفجوات الزمنية الحقيقية بين الإطارات.

عملية التدريب:

تضمن عملية التدريب استخدام مجموعات بيانات متنوعة، تجمع بين النصوص الأكاديمية الضخمة وبيانات نصوص-صور غنية بالمعرفة. وقد ساهم تضمين بيانات نصية بحتة في الحفاظ على قدرات اللغة الأساسية للنموذج، مما أدى إلى أداء أفضل من نماذج أخرى مماثلة في الحجم.

وتتضمن عملية التدريب ثلاث مراحل:

  1. التدريب الخاضع للإشراف: تحويل النموذج الأساسي إلى نموذج قادر على الاستدلال طويل المدى (long CoT inference) باستخدام مجموعة بيانات من مسائل STEM ومهام أخرى.
  2. التحسين باستخدام التعزيز المعزز (RL): استخدام تقنية التعلم المعزز مع أخذ العينات المنهجية (RLCS) لتعزيز قدرات النموذج في مجالات مختلفة.
  3. التدريب الدقيق عبر مجالات متعددة: تدريب شامل عبر مجالات متعددة الوسائط، بما في ذلك حلّ مسائل STEM، وتحديد المواقع، والتعرف على الحروف الضوئية (OCR)، والوكلاء القائمين على واجهة المستخدم الرسومية (GUI agents)، وغيرها.

الأداء والنتائج:

يُظهر نموذج GLM-4.1V-9B-Thinking، وهو نسخة مفتوحة المصدر من النموذج بحجم 9 مليار معلمة، أداءً متفوقًا على النماذج مفتوحة المصدر الأخرى التي تقلّ عن 10 مليار معلمة في مهام متعددة، بما في ذلك:

  • الأسئلة والأجوبة المرئية (VQA): أداء متفوق في مهام تتضمن صورًا واحدة ومتعددة.
  • مهام STEM: أعلى أداء في معايير مقارنة صعبة مثل MMMU_Val، MMMU_Pro، VideoMMMU، وAI2D.
  • التعرف على الحروف الضوئية (OCR) والرسوم البيانية: أرقام قياسية جديدة في ChartQAPro وChartMuseum.
  • فهم الوثائق الطويلة: أداء متفوق على جميع النماذج الأخرى في MMLongBench.
  • الوكلاء القائمين على واجهة المستخدم الرسومية (GUI Agents): نتائج متقدمة.
  • ترميز متعدد الوسائط: أداء متفوق.
  • فهم الفيديو: أداء متفوق في معايير VideoMME، MMVU، وMotionBench.

يُعتبر هذا النموذج نقلة نوعية في مجال معالجة البيانات متعددة الوسائط، حيث يتفوق على نماذج أكبر حجمًا بكثير، مع ذلك، لا يزال هناك مجال للتحسين في بعض الجوانب، مثل استقرار التدريب والتعامل مع الحالات المعقدة.

الخلاصة:

يُمثل نموذج GLM-4.1V-Thinking خطوة مهمة نحو تطوير نماذج ذكاء اصطناعي متعددة الوسائط ذات قدرات عامة متقدمة. ويفتح هذا العمل آفاقًا جديدة في البحث والتطوير في هذا المجال الحيوي. يمكنكم الاطلاع على الورقة البحثية وصفحة المشروع على GitHub عبر الروابط المرفقة.

المصدر: MarkTechPost