قياس الصور المُولّدة حسب المواضيع أصبح أسهل: باحثو جوجل يقدمون REFVNLI لتقييم المحاذاة النصية واتساق الموضوع دون الحاجة إلى واجهات برمجة باهظة التكلفة
قياس الصور المُولّدة حسب المواضيع: مقدمة REFVNLI
تطورت تقنية توليد الصور من النص (T2I) لتشمل أساليب تعتمد على المواضيع، مما يُعزز نماذج T2I القياسية من خلال دمج صور مرجعية بجانب مطالبات نصية. يسمح هذا التطور بتقديم تمثيل أكثر دقة للموضوع في الصور المُولّدة. وعلى الرغم من التطبيقات الواعدة، إلا أن توليد الصور من النص بناءً على المواضيع يواجه تحديًا كبيرًا يتمثل في عدم وجود طرق تقييم آلية موثوقة. تركز المقاييس الحالية إما على محاذاة المطالبات النصية أو اتساق الموضوع، في حين أن كليهما ضروريان لتوليد فعال قائم على الموضوع. في حين توجد طرق تقييم أكثر ارتباطًا، إلا أنها تعتمد على مكالمات واجهة برمجة التطبيقات (API) باهظة التكلفة لنماذج مثل GPT-4، مما يحد من فعاليتها في تطبيقات البحث المكثفة.
طرق التقييم الحالية وتحدياتها
تشمل نهج تقييم نماذج اللغة المرئية (VLMs) أطر عمل متنوعة، مع تركيز تقييمات النص إلى صورة (T2I) على جودة الصورة وتنوعها ومحاذاة النص. يستخدم الباحثون مقاييس قائمة على التضمين مثل CLIP و DINO لتقييم توليد الصور القائم على الموضوع لقياس الحفاظ على الموضوع. تستخدم المقاييس المعقدة مثل VIEScore و DreamBench++ نموذج GPT-4 لتقييم المحاذاة النصية واتساق الموضوع، ولكن بتكلفة حسابية أعلى.
نهج توليد الصور القائم على المواضيع
تطورت أساليب توليد الصور القائمة على المواضيع في مسارين رئيسيين: ضبط النماذج العامة بدقة إلى إصدارات مُتخصصة تُلتقط مواضيع وأنماط محددة، أو تمكين قابلية تطبيق أوسع من خلال أمثلة لقطة واحدة. تتضمن هذه الأساليب القائمة على لقطة واحدة تقنيات تعتمد على المُكيّفات وتقنيات بدون مُكيّفات.
REFVNLI: مقياس جديد فعال من حيث التكلفة
اقترح باحثون من جوجل ريسيرش وجامعة بن غوريون REFVNLI، وهو مقياس فعال من حيث التكلفة يُقيّم في وقت واحد المحاذاة النصية والحفاظ على الموضوع في توليد الصور من النص القائم على الموضوع. يتنبأ بمؤشرين، هما المحاذاة النصية واتساق الموضوع، في تصنيف واحد بناءً على مجموعة ثلاثية <صورة مرجعية، مطالبة، صورة مُستهدفة>. تم تدريبه على مجموعة بيانات واسعة النطاق مُشتقة من معايير استنتاج الفيديو واضطرابات الصورة، متفوقًا على أو مُطابقًا لخطوط الأساس الموجودة عبر معايير متعددة وفئات مواضيعية. يُظهر REFVNLI تحسينات تصل إلى 6.4 نقطة في المحاذاة النصية و 8.5 نقطة في اتساق الموضوع. إنه فعال مع المفاهيم الأقل شهرة، حيث يتوافق مع تفضيلات الإنسان بدقة تزيد عن 87%.
عملية تدريب وتقييم REFVNLI
لتدريب REFVNLI، تم إنشاء مجموعة بيانات واسعة النطاق من المجموعات الثلاثية <صورة مرجعية، مطالبة، صورة مُستهدفة>، مُوصوفة بـ <محاذاة نصية، حفظ موضوع>، بشكل آلي. تم تقييم REFVNLI على مجموعات اختبار مُوصوفة يدويًا متعددة لتوليد الصور القائم على الموضوع، بما في ذلك DreamBench++ و ImagenHub و KITTEN. يمتد التقييم إلى فئات متنوعة مثل البشر والحيوانات والأشياء والمعالم، وإعدادات ذات مواضيع متعددة. تتضمن عملية التدريب ضبط نموذج PaliGemma، وهو نموذج لغوي مرئي بحجم 3 مليارات معلمة، مع التركيز على متغير مُكيّف لإدخالات متعددة الصور. أثناء الاستدلال، يأخذ النموذج صورتين ومطالبة مع علامات خاصة حول الموضوع المُشار إليه، ويُجري تصنيفات ثنائية متسلسلة للمحاذاة النصية والحفاظ على الموضوع.
بالنسبة لاتساق الموضوع، يُصنف REFVNLI ضمن أفضل مقياسين عبر جميع الفئات، ويُحقق أفضل أداء في فئة “الأشياء”، متجاوزًا DreamBench++ القائم على GPT4 بـ 6.3 نقطة. على ImagenHub، يحقق REFVNLI تصنيفًا ضمن أفضل اثنين من حيث المحاذاة النصية في فئة “الحيوانات” وأعلى درجة في فئة “الأشياء”، متفوقًا على أفضل نموذج غير مُضبوط بدقة بـ 4 نقاط. كما أنه يُظهر أداءً جيدًا في إعدادات المواضيع المتعددة، حيث يُصنف ضمن أفضل ثلاثة. يحقق REFVNLI أعلى درجة في المحاذاة النصية على KITTEN، لكن لديه قيود في اتساق الموضوع نظرًا لتدريبه الحساس للهوية الذي يُعاقب حتى الاختلافات الطفيفة في سمات تحديد الهوية. تُظهر دراسات الاستبعاد أن التدريب المُشترك يوفر فوائد تكميلية، حيث يؤدي التدريب أحادي المهمة إلى انخفاض الأداء.
الخلاصة والمستقبل
في هذا البحث، قدم الباحثون REFVNLI، وهو مقياس موثوق وفعال من حيث التكلفة لتوليد الصور من النص القائم على الموضوع، والذي يُعالج تحديات المحاذاة النصية والحفاظ على الموضوع. تم تدريب REFVNLI على مجموعة بيانات مُولّدة آليًا واسعة النطاق، ويُحقق توازنًا فعالًا بين المتانة تجاه الاختلافات غير المُتعلقة بالهوية مثل الوضع والإضاءة والخلفية، والحساسية تجاه السمات الخاصة بالهوية، بما في ذلك ملامح الوجه وشكل الكائن والتفاصيل الفريدة. تشمل اتجاهات البحث المستقبلية تعزيز قدرات تقييم REFVNLI عبر الأنماط الفنية، ومعالجة التعديلات النصية التي تُغير صراحةً سمات تحديد الهوية، وتحسين معالجة صور مرجعية متعددة لمواضيع مفردة ومُتميزة.
اترك تعليقاً