قياس التآزر الحقيقي في نماذج الذكاء الاصطناعي متعددة الوسائط: إطار عمل جديد ومقياس أداء شامل

تطوّر مجال الذكاء الاصطناعي بشكلٍ كبير، متجاوزًا النظم التي تعتمد على اللغة فقط، ليصل إلى نماذج قادرة على معالجة أنواع متعددة من المدخلات، مثل النصوص، والصور، والصوت، والفيديو. يُعرف هذا المجال باسم “التعلّم متعدد الوسائط”، ويهدف إلى محاكاة القدرة البشرية الطبيعية على دمج وتفسير البيانات الحسية المتنوعة. على عكس نماذج الذكاء الاصطناعي التقليدية التي تعالج وسيلة واحدة فقط، صُممت النماذج العامة متعددة الوسائط لمعالجة البيانات والاستجابة عبر تنسيقات متعددة. الهدف هو الاقتراب من إنشاء أنظمة تحاكي الإدراك البشري من خلال الجمع السلس لأنواع مختلفة من المعرفة والإدراك.

التحدي: تحقيق التآزر الحقيقي بين الوسائط والمهام

يكمن التحدي الرئيسي في هذا المجال في تمكين هذه النظم متعددة الوسائط من إظهار تعميم حقيقي. ففي حين أن العديد من النماذج قادرة على معالجة مدخلات متعددة، إلا أنها غالبًا ما تفشل في نقل التعلم عبر المهام أو الوسائط. يُعرف غياب هذا التحسين عبر المهام – المعروف بالتآزر – بأنه عائق أمام التقدم نحو أنظمة أكثر ذكاءً وقابلية للتكيف. قد تتفوق إحدى النماذج في تصنيف الصور وتوليد النصوص بشكل منفصل، لكن لا يمكن اعتبارها نموذجًا عامًا قويًا بدون القدرة على ربط المهارات من كلا المجالين. إن تحقيق هذا التآزر ضروري لتطوير أنظمة ذكاء اصطناعي أكثر قدرة واستقلالية.

الاعتماد على نماذج اللغات الكبيرة (LLMs) والقيود المصاحبة

تعتمد العديد من الأدوات الحالية بشكل كبير على نماذج اللغات الكبيرة (LLMs) كقلب لها. غالبًا ما تُضاف إلى هذه النماذج مكونات خارجية متخصصة مصممة لمهام التعرف على الصور أو تحليل الكلام. على سبيل المثال، تدمج النماذج الحالية مثل CLIP أو Flamingo اللغة مع الرؤية، لكنها لا تربط الاثنين بشكل عميق. بدلاً من العمل كنظام موحد، تعتمد على وحدات مترابطة بشكل فضفاض تحاكي الذكاء متعدد الوسائط. هذا النهج المجزأ يعني أن النماذج تفتقر إلى البنية الداخلية اللازمة للتعلم متعدد الوسائط ذي المعنى، مما يؤدي إلى أداء منفصل للمهام بدلاً من الفهم الشامل.

إطار عمل General-Level ومقياس الأداء General-Bench

اقترح باحثون من جامعة سنغافورة الوطنية (NUS)، وجامعة نانيانغ التكنولوجية (NTU)، وجامعة تشجيانغ (ZJU)، وجامعة بكين (PKU)، وغيرها، إطار عمل للذكاء الاصطناعي يُسمى General-Level، ومقياسًا للأداء يُسمى General-Bench. صُممت هذه الأدوات لقياس وتعزيز التآزر عبر الوسائط والمهام. يُنشئ General-Level خمسة مستويات من التصنيف بناءً على مدى دمج النموذج لفهم المهام، وتوليدها، ومهام اللغة. يُدعم هذا المقياس بواسطة General-Bench، وهي مجموعة بيانات ضخمة تضم أكثر من 700 مهمة و325,800 مثالاً مُعلّقًا مأخوذًا من النصوص، والصور، والصوت، والفيديو، وبيانات ثلاثية الأبعاد.

منهجية التقييم في General-Level

تُبنى طريقة التقييم داخل General-Level على مفهوم التآزر. يتم تقييم النماذج بناءً على أداء المهمة وقدرتها على تجاوز درجات المتخصصين الأفضل حاليًا (SoTA) باستخدام المعرفة المشتركة. يُعرّف الباحثون ثلاثة أنواع من التآزر – من مهمة إلى مهمة، ومن الفهم إلى التوليد، ومن وسيلة إلى وسيلة – ويتطلبون قدرة متزايدة في كل مستوى. على سبيل المثال، يدعم نموذج المستوى الثاني العديد من الوسائط والمهام، بينما يجب أن يُظهر نموذج المستوى الرابع تآزرًا بين الفهم والتوليد. تُوزن الدرجات لتقليل التحيز الناتج عن هيمنة الوسائط، وتشجيع النماذج على دعم مجموعة متوازنة من المهام.

نتائج اختبار النماذج

اختبر الباحثون 172 نموذجًا كبيرًا، بما في ذلك أكثر من 100 نموذج من أفضل نماذج اللغات متعددة الوسائط (MLLMs)، مقابل General-Bench. أظهرت النتائج أن معظم النماذج لا تُظهر التآزر اللازم للتأهل كمتخصصين عامين من المستويات العليا. حتى النماذج المتقدمة مثل GPT-4V و GPT-4o لم تصل إلى المستوى الخامس، والذي يتطلب من النماذج استخدام مدخلات غير لغوية لتحسين فهم اللغة. لم تنجح النماذج الأعلى أداءً إلا في التفاعلات متعددة الوسائط الأساسية، ولم يُظهر أي منها دليلًا على التآزر الكامل عبر المهام والوسائط. على سبيل المثال، أظهر المقياس 702 مهمة تم تقييمها عبر 145 مهارة، ومع ذلك لم يحقق أي نموذج هيمنة في جميع المجالات. غطاء General-Bench عبر 29 تخصصًا، باستخدام 58 مقياسًا تقييميًّا، وضع معيارًا جديدًا للشمولية.

الخلاصة: الطريق نحو نماذج ذكاء اصطناعي أكثر ذكاءً

يُوضح هذا البحث الفجوة بين الأنظمة متعددة الوسائط الحالية والنموذج العام المثالي. يعالج الباحثون مشكلة أساسية في مجال الذكاء الاصطناعي متعدد الوسائط من خلال تقديم أدوات تُعطي الأولوية للتكامل على التخصص. بفضل General-Level و General-Bench، يقدمون مسارًا صارمًا للمضي قدمًا في تقييم وبناء نماذج تعالج مدخلات متنوعة وتتعلم وتستنتج عبرها. يساعد نهجهم في توجيه المجال نحو أنظمة أكثر ذكاءً تتمتع بمرونة عملية حقيقية وفهم متعدد الوسائط.

المصدر: MarkTechPost