نموذج بليب 3-أُو مفتوح المصدر: ثورة في فهم وتوليد الصور متعددة الوسائط
يُعَدّ بناء النماذج متعددة الوسائط، القادرة على فهم وتوليد المحتوى المرئي والنصي على حد سواء، تحديًا كبيرًا في مجال الذكاء الاصطناعي. تهدف هذه النماذج إلى تفسير المشاهد المرئية وإنشاء صور جديدة بناءً على مطالبات نصية طبيعية. مع ازدياد الاهتمام بدمج الرؤية واللغة، يعمل الباحثون على دمج قدرات التعرف على الصور وتوليدها في نظام موحد. يُزيل هذا النهج الحاجة إلى خطوط أنابيب منفصلة، ويمهد الطريق لتفاعلات أكثر تماسكًا وذكاءً عبر الوسائط المختلفة.
التحديات الرئيسية في بناء نماذج متعددة الوسائط
يكمن التحدي الرئيسي في تطوير بنى معمارية قادرة على معالجة كل من فهم الصور وتوليدها دون المساومة على جودة أي منهما. يجب أن تتمتع هذه النماذج بفهم عميق للمفاهيم البصرية المعقدة، وأن تُنتج صورًا عالية الجودة تتوافق مع مطالبات المستخدم. تتجلى صعوبة هذه المهمة في تحديد تمثيلات الصور المناسبة وإجراءات التدريب التي تدعم كلتا المهام. تصبح هذه المشكلة أكثر وضوحًا عندما يُتوقع من النموذج نفسه تفسير الأوصاف النصية المُفصّلة، وتوليد مخرجات بصرية دقيقة بناءً عليها، مما يتطلب توافقًا بين الفهم الدلالي وتوليف مستوى البكسل.
التحديات التقنية السابقة
اعتمدت النهج السابقة بشكل عام على مُشفرات (Encoders) مثل مشفرّات Variational Autoencoders (VAEs) أو تلك القائمة على CLIP. تُعتبر VAEs فعّالة في إعادة البناء، لكنها تُشفر ميزات منخفضة المستوى، مما يؤدي غالبًا إلى تمثيلات أقل إفادة. أما المُشفرات القائمة على CLIP، فتُوفر تضمينات دلالية عالية المستوى من خلال التعلم من أزواج نصوص-صور واسعة النطاق. ومع ذلك، لم يتم تصميم CLIP لإعادة بناء الصور، مما يجعل استخدامه في توليد الصور أمرًا صعبًا ما لم يتم إقرانه بنماذج مثل مُشفرات الانتشار (Diffusion Decoders).
تحديات تدريب النماذج
أما فيما يتعلق بالتدريب، فيُستخدم خطأ التربيع المتوسط (MSE) على نطاق واسع لبساطته، لكنه يميل إلى إنتاج مخرجات حتمية. ولتحسين تنوع وجودة التوليد، لجأ الباحثون إلى مطابقة التدفق (Flow Matching)، الذي يُدخِل عشوائية مُتحكم بها، ويُحسّن من نمذجة الطبيعة المستمرة لميزات الصورة.
نموذج BLIP-3o: حلٌّ شامل
قدّم باحثون من Salesforce Research، بالتعاون مع جامعة ماريلاند وعدة مؤسسات أكاديمية، عائلة من النماذج متعددة الوسائط الموحدة تُسمى BLIP-3o. يتبنى النموذج استراتيجية تدريب من مرحلتين، حيث يتم تعلم فهم الصورة أولاً، ثم توليدها. يستفيد النظام المقترح من تضمينات CLIP لتمثيل الصور، ويدمجها مع مُحوّل انتشار (Diffusion Transformer) لتوليف مخرجات بصرية جديدة. على عكس أساليب التدريب المشترك السابقة، يحافظ النهج التسلسلي على قوة كل مهمة بشكل مستقل. يتم تدريب وحدة الانتشار مع إبقاء العمود الفقري التلقائي التكراري ثابتًا، لتجنب تداخل المهام.
تحسين جودة النموذج
ولتحسين المحاذاة والدقة البصرية، قام الفريق أيضًا بإنشاء مجموعة بيانات ضبط تعليمات عالية الجودة تُسمى BLIP-3o-60k، من خلال توجيه GPT-4o عبر فئات مرئية متنوعة، بما في ذلك المشاهد والأشياء والإيماءات والنصوص.
إصدارات النموذج
طوّر الباحثون إصدارين من النموذج:
- نموذج 8 مليارات بارامتر مدرب باستخدام بيانات خاصة وبيانات مفتوحة المصدر.
- نموذج 4 مليارات بارامتر مُدرب باستخدام بيانات مفتوحة المصدر فقط.
بنية النموذج
يعتمد خط أنابيب توليد الصور في BLIP-3o على نماذج اللغات الكبيرة Qwen2.5-VL. يتم معالجة المطالبات لإنتاج ميزات بصرية مُحسّنة من خلال مُحوّل انتشار مطابقة التدفق (Flow Matching Diffusion Transformer). يُعتمد في هذا المُحوّل على بنية Lumina-Next، المُحسّنة من حيث السرعة والجودة باستخدام تضمين الموضع الدوراني ثلاثي الأبعاد (3D rotary position embedding) والانتباه المُجمّع (grouped-query attention). يُشفر النموذج كل صورة إلى 64 متجهًا دلاليًا بطول ثابت، بغض النظر عن الدقة، مما يدعم التخزين المُدمج وفك التشفير بكفاءة.
بيانات التدريب
استخدم فريق البحث مجموعة بيانات واسعة النطاق تضم 25 مليون صورة من مصادر مثل CC12M وSA-1B وJourneyDB لتدريب النماذج. وقد تم توسيعها بـ 30 مليون عينة خاصة للنموذج 8B. كما تم تضمين 60 ألف عينة ضبط تعليمات تغطي مطالبات صعبة مثل الإيماءات والمعالم المعقدة، تم توليدها عبر GPT-4o.
أداء نموذج BLIP-3o
أظهر نموذج BLIP-3o نتائج عالية في العديد من المقاييس المعيارية. حقق نموذج 8B درجة GenEval تبلغ 0.84 لمحاذاة توليد الصور، ودرجة WISE تبلغ 0.62 لقدرة الاستدلال. كما حقق درجات عالية في مقاييس فهم الصور. وأظهر التقييم البشري تفوق BLIP-3o على نماذج أخرى.
الخلاصة
يُلخّص هذا البحث حلًا واضحًا للتحدي المزدوج المتمثل في فهم وتوليد الصور. تُظهر تضمينات CLIP، ومطابقة التدفق، واستراتيجية التدريب التسلسلي، كيف يمكن معالجة المشكلة بطريقة منهجية. يُقدم نموذج BLIP-3o نتائج متقدمة، ويُقدم نهجًا فعالًا ومفتوح المصدر للنمذجة متعددة الوسائط الموحدة. يمكنكم الاطلاع على الورقة البحثية، وصفحة GitHub، والنموذج على Hugging Face.
اترك تعليقاً