نموذج قَوصِفيد: نهج هجين لإنشاء مقاطع فيديو عالية الجودة بسرعة فائقة
مقدمة
تُظهر نماذج الانتشار (Diffusion Models) مثل SORA من OpenAI و VEO 2 من Google إمكانياتٍ هائلة في توليد مقاطع فيديو واقعية، إلا أنها تعاني من بطءٍ في عملية المعالجة وعدم القدرة على إجراء تغييرات آنية. وقد طور باحثون من مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) في معهد ماساتشوستس للتكنولوجيا (MIT) وبالتعاون مع Adobe Research، نهجًا هجينًا جديدًا أطلقوا عليه اسم “CausVid” للتغلب على هذه القيود، مما يُمكن من إنشاء مقاطع فيديو عالية الجودة في ثوانٍ معدودة.
نهج CausVid الهجين
يعتمد CausVid على مبدأ التعلّم من خلال التعاون بين نموذجين: نموذج “المُعلم” القائم على الانتشار، ونموذج “الطالب” التلقائي الانحداري (Autoregressive). يعمل نموذج المُعلم، وهو نموذج انتشار مُدرّب مسبقًا، على توجيه نموذج الطالب، مُعلّمًا إياه كيفية التنبؤ بالإطار التالي بدقة عالية وفعالية، مع ضمان التناسق والاتساق بين الإطارات. يُمكن هذا النهج من توليد مقاطع فيديو سلسة عالية الجودة بسرعة فائقة.
إمكانيات CausVid
يُتيح CausVid إنشاء مقاطع فيديو من خلال مدخلات نصية بسيطة، أو من خلال تحويل صورة إلى مشهد متحرك، أو تمديد مقطع فيديو قائم، أو إجراء تعديلات عليه أثناء عملية التوليد. يُمكن استخدامه في العديد من التطبيقات، بما في ذلك:
- إنشاء محتوى إبداعي: مثل تحويل طائرة ورقية إلى بجعة، أو رسم ماموث صوفي يتجول في الثلج، أو طفل يقفز في بركة ماء.
- تحرير الفيديو: مثل مساعدة المشاهدين على فهم بث مباشر بلغة مختلفة من خلال توليد فيديو مُزامن مع ترجمة صوتية.
- إنشاء محتوى ألعاب الفيديو: بإمكان CausVid توليد محتوى جديد بسرعة عالية.
- توليد محاكاة تدريبية للروبوتات: للتعليم الروبوتات مهام جديدة.
الأداء والمقارنة
أظهر CausVid تفوقًا ملحوظًا على نماذج أخرى مثل OpenSORA و MovieGen في توليد مقاطع فيديو عالية الدقة بطول 10 ثوانٍ، حيث كان أسرع منها بمقدار 100 مرة مع الحفاظ على جودة عالية وثبات في الإخراج. كما تفوق في توليد مقاطع فيديو بطول 30 ثانية، مُشيرًا إلى إمكانية توليد مقاطع فيديو أطول بكثير في المستقبل. وقد فضّل المستخدمون مقاطع الفيديو التي أنتجها نموذج الطالب في CausVid على تلك التي أنتجها نموذج المُعلم، وذلك بسبب سرعته العالية مع الحفاظ على جودة عالية.
النتائج والآفاق المستقبلية
حصل CausVid على أعلى درجة إجمالية (84.27) عند اختباره على أكثر من 900 مُدخل نصي، متفوقًا على نماذج توليد الفيديو المتطورة مثل Vchitect و Gen-3. يُشير الباحثون إلى إمكانية زيادة سرعة CausVid أكثر من ذلك في المستقبل، ربما إلى حدّ التوليد الفوري، وذلك من خلال استخدام بنية تلقائية انحدارية أصغر حجمًا. كما أن تدريب النموذج على مجموعات بيانات مُحددة للمجال، مثل الروبوتات وألعاب الفيديو، من شأنه أن يُحسّن جودة مقاطع الفيديو المُولّدة. يُعتبر CausVid خطوة هامة نحو تحسين كفاءة توليد الفيديو باستخدام الذكاء الاصطناعي، مما يُفتح آفاقًا جديدة في العديد من التطبيقات.
اترك تعليقاً