مجموعة بيانات “الكيميائي” من ياندكس: نقلة نوعية في تحسين نماذج النص إلى صورة
تُعَدُّ نماذج توليد الصور من النصوص، مثل DALL-E 3 و Imagen 3 و Stable Diffusion 3، قفزةً نوعيةً في مجال الذكاء الاصطناعي، إلا أن تحقيق جودة متسقة في المخرجات، من حيث الجماليات والمطابقة للنص، لا يزال يمثل تحديًا مستمرًا. فبينما يوفر التدريب المسبق واسع النطاق معرفة عامة، إلا أنه غير كافٍ لتحقيق جودة جمالية عالية ومطابقة دقيقة. لذا، يأتي دور “التحسين الدقيق المُشرف عليه” (SFT) كخطوة أساسية بعد التدريب، لكن فعاليته تعتمد بشكل كبير على جودة مجموعة البيانات المُستخدمة في عملية التحسين.
تحديات مجموعات البيانات الحالية
تعاني مجموعات البيانات العامة المُستخدمة حاليًا في عملية التحسين الدقيق المُشرف عليه من قصورٍ عدة:
- التخصص الضيق: تستهدف العديد منها مجالات بصرية محددة، مثل الرسوم المتحركة أو أنواع فنية معينة.
- الاعتماد على تصفية بسيطة: تعتمد بعضها على مرشحات تقريبية لتصفية البيانات الضخمة من الويب، مما يؤدي إلى جودة متدنية.
- العمل اليدوي المكلف: يتطلب الإشراف البشري تكاليف باهظة وغير قابلة للتوسع، كما أنه غالبًا ما يفشل في تحديد العينات التي تحقق أكبر قدر من التحسين.
- الافتقار للشفافية: تستخدم نماذج النص إلى صورة الحديثة مجموعات بيانات خاصة، مما يحد من إمكانية إعادة إنتاج النتائج ويُبطئ التقدم في هذا المجال.
“الكيميائي”: حلٌّ مبتكر من ياندكس
للتغلب على هذه التحديات، أصدرت شركة ياندكس مجموعة بيانات “الكيميائي” (Alchemist)، وهي مجموعة بيانات عامة مفتوحة المصدر مخصصة للتحسين الدقيق المُشرف عليه، تتكون من 3350 زوجًا من الصور والنصوص المُختارة بعناية.
منهجية فريدة لانتقاء البيانات
على عكس مجموعات البيانات التقليدية، اعتمدت ياندكس على منهجية مبتكرة تعتمد على نموذج انتشار مُدرب مسبقًا لتقييم جودة العينات. وهذا النهج يسمح باختيار بيانات تدريب ذات تأثير كبير على أداء النموذج التوليدي، دون الاعتماد على التصنيفات البشرية الذاتية أو التقييمات الجمالية البسيطة. تتضمن العملية مراحل متعددة:
- التصفية الأولية: إزالة المحتوى غير اللائق والصور منخفضة الدقة (أقل من 1024 × 1024 بكسل).
- التصفية الدقيقة للجودة: استخدام مُصنفات مُدرّبة على مجموعات بيانات تقييم جودة الصور القياسية، مثل KonIQ-10k و PIPAL، لاستبعاد الصور ذات الشوائب مثل ضغط الصور، وتشويش الحركة، والعلامات المائية.
- إزالة الازدواجية وتقليم الصور بناءً على جودة الصورة: استخدام ميزات مشابهة لـ SIFT لتصنيف الصور المتشابهة، مع الاحتفاظ بالصور عالية الجودة فقط. يتم تقييم الصور أيضًا باستخدام نموذج TOPIQ لضمان الاحتفاظ بالعينات النظيفة.
- الاختيار القائم على نماذج الانتشار: استخدام تنشيطات الانتباه المتبادلة في نموذج انتشار مُدرّب مسبقًا لتصنيف الصور. تحدد دالة التسجيل العينات التي تُنشط بقوة الميزات المرتبطة بالتعقيد البصري، والجذب الجمالي، والغنى الأسلوبي.
- إعادة كتابة التعليقات التوضيحية: يتم إعادة كتابة التعليقات التوضيحية للصور المُختارة باستخدام نموذج لغة ورؤية مُحسّن لإنتاج أوصاف نصية على شكل مطالبات (prompts).
نتائج التجربة
تم تقييم فعالية مجموعة بيانات “الكيميائي” على خمسة متغيرات من Stable Diffusion: SD1.5، SD2.1، SDXL، SD3.5 Medium، و SD3.5 Large. تم تحسين كل نموذج باستخدام ثلاث مجموعات بيانات: مجموعة بيانات “الكيميائي”، ومجموعة فرعية مُطابقة للحجم من LAION-Aesthetics v2، وخطوط الأساس الخاصة بكل منها.
أظهرت النتائج تحسينات كبيرة في الجودة الجمالية وتعقيد الصور، متفوقة على خطوط الأساس و النماذج المُدرّبة على LAION-Aesthetics v2.
الخلاصة
تُقدم مجموعة بيانات “الكيميائي” منهجية مُعيارية ومدعومة بالتجارب للتحسين الدقيق المُشرف عليه لنماذج النص إلى صورة، مع التركيز على جودة العينة بدلاً من حجمها. على الرغم من أن التحسينات الأكثر وضوحًا تظهر في الجوانب الإدراكية مثل الجماليات وتعقيد الصورة، إلا أن الإطار يُبرز أيضًا التوازنات التي تنشأ في الدقة، خاصةً بالنسبة للنماذج الأساسية الأحدث التي تم تحسينها بالفعل من خلال التحسين الدقيق المُشرف عليه الداخلي. ومع ذلك، تُمثل مجموعة بيانات “الكيميائي” معيارًا جديدًا لمجموعات البيانات العامة للتحسين الدقيق المُشرف عليه، وتُوفر موردًا قيمًا للباحثين والمطورين العاملين على تطوير جودة مخرجات نماذج الرؤية التوليدية.
اترك تعليقاً