تحسين الصور بتقنية الذكاء الاصطناعي: تعرف على Qwen-Image-Edit
قدم فريق Qwen التابع لشركة علي بابا نموذجًا متطورًا لتحرير الصور يُدعى Qwen-Image-Edit، والذي يعتمد على نموذج Qwen-Image ذي 20 مليار معلمة. يتميز هذا النموذج الجديد بقدرات تحرير متقدمة على مستوى الدلالات والمظهر، متجاوزًا حدود التعديل التقليدي للصور. يتوفر النموذج عبر منصة Hugging Face ومتكامل مع Qwen Chat، مما يسهل عملية إنشاء المحتوى الاحترافي للمستخدمين.
قدرات تحرير متقدمة
يُعد Qwen-Image-Edit نقلة نوعية في مجال تحرير الصور المدعوم بالذكاء الاصطناعي، حيث يجمع بين قدرات تحرير الدلالات والمظهر في آن واحد.
تحرير دلالي:
- تحويل الأنماط: يُتيح النموذج تحويل أنماط الصور بسهولة، مثل تحويل صورة إلى أسلوب رسوم استوديو جيبلي الشهير، مع الحفاظ على سلامة ودقة العناصر الدلالية.
- توليد مناظر جديدة: يدعم النموذج توليد مناظر جديدة بزاوية 180 درجة، مع الحفاظ على دقة عالية في تفاصيل الصورة.
- إنشاء محتوى جديد: يُمكن استخدام Qwen-Image-Edit لإنشاء محتوى جديد كليًا، مثل تصميم رموز تعبيرية (إيموجي) مستوحاة من اختبارات الشخصية (MBTI) مع الحفاظ على اتساق عناصر التصميم.
تحرير مظهري:
- إضافة وعزل العناصر: يُتيح النموذج إضافة عناصر جديدة إلى الصورة، أو إزالة عناصر موجودة بدقة عالية، دون التأثير على باقي أجزاء الصورة.
- التعديل الدقيق: يُمكن تعديل تفاصيل دقيقة في الصورة، مثل إزالة خصلات شعر أو إضافة لوحات إعلانية مع انعكاسات واقعية.
- تحرير النصوص بدقة: يدعم النموذج تحرير النصوص بلغات متعددة (الصينية والإنجليزية)، مع إمكانية إضافة، حذف، أو تعديل النصوص مع الحفاظ على الخط، الحجم، وأسلوب الكتابة الأصلي.
بنية النموذج والابتكارات الرئيسية
يعتمد Qwen-Image-Edit على بنية مُحوّل الانتشار متعدد الوسائط (MMDiT) من Qwen-Image، والتي تتضمن:
- نموذج لغة كبير متعدد الوسائط (MLLM): Qwen2.5-VL لتكييف النصوص.
- مشفر ذاتي التباين (VAE): لتمثيل الصورة.
- هيكل MMDiT: للنمذجة المشتركة للنصوص والصور.
ويُقدم Qwen-Image-Edit ابتكارًا رئيسيًا يتمثل في ترميز مزدوج للصورة المدخلة، حيث تُعالَج بواسطة Qwen2.5-VL للحصول على خصائص دلالية عالية المستوى، و بواسطة VAE للحصول على تفاصيل مُعاد بناؤها على مستوى منخفض. يتم دمج هاتين المخرجات في تدفق صورة MMDiT، مما يُحقق توازنًا بين الاتساق الدلالي والدقة البصرية.
كما تم تعزيز ترميز الموقع القابل للتطوير متعدد الوسائط (MSRoPE) ببُعد إطار لتمييز الصور قبل وبعد التعديل، مما يدعم مهام التحرير من صورة إلى صورة عبر النص (TI2I).
التدريب ومجموعة البيانات
استخدم Qwen-Image-Edit مجموعة بيانات Qwen-Image المُعدة بعناية، والتي تتضمن مليارات أزواج الصورة والنص، مُقسمة على عدة مجالات:
- الطبيعة (55%)
- التصميم (27%)
- الأشخاص (13%)
- البيانات الاصطناعية (5%)
ويعتمد التدريب على منهجية متعددة المهام، تجمع بين أهداف T2I و I2I و TI2I. وتم استخدام خط أنابيب تصفية مكون من سبع مراحل لضمان جودة البيانات وتوازنها.
النتائج والاختبارات
أظهر Qwen-Image-Edit أداءً متفوقًا في معايير الاختبار، متفوقًا على نماذج أخرى مثل GPT Image 1 و FLUX.1 Kontext [Pro]. وقد حقق نتائج ممتازة في مهام مثل استبدال الكائنات وتغيير الأنماط.
الاستخدام والانتشار
يتوفر Qwen-Image-Edit عبر منصة Hugging Face Diffusers، كما يُمكن الوصول إليه عبر واجهة برمجة التطبيقات (API) من خلال منصة Alibaba Cloud’s Model Studio.
الاستنتاج
يُمثل Qwen-Image-Edit قفزة نوعية في مجال واجهات الرؤية واللغة، مما يُمكّن المُبدعين من التلاعب بسلاسة بمحتوى الصور. ويشير النهج الموحد في الفهم والإنشاء إلى إمكانية توسيع النموذج ليشمل الفيديو والصور ثلاثية الأبعاد، مما يُفتح آفاقًا جديدة للتطبيقات المبتكرة في مجال التصميم المدعوم بالذكاء الاصطناعي.





اترك تعليقاً