لوموس-1: ثورة في توليد الفيديوهات بتقنية التنبؤ الذاتي
يُمثّل توليد الفيديوهات بتقنية التنبؤ الذاتي (Autoregressive) مجالًا بحثيًا سريع التطور، يركز على توليد الفيديوهات إطارًا تلو الآخر باستخدام أنماط مُتعلمة من الترتيبات المكانية والديناميكيات الزمنية. بخلاف أساليب إنشاء الفيديو التقليدية التي قد تعتمد على إطارات مُعدّة مسبقًا أو انتقالات مُصممة يدويًا، تهدف النماذج التنبؤية الذاتية إلى توليد المحتوى ديناميكيًا بناءً على الرموز السابقة، مشابهة لكيفية توقع نماذج اللغات الكبيرة للكلمة التالية. يُتيح هذا النهج إمكانية توحيد توليد الفيديو والصورة والنص ضمن إطار عمل مشترك باستخدام القوة البنيوية للبنى القائمة على المُحوّلات (Transformers).
التحديات في نمذجة العلاقات المكانية والزمانية
تُشكّل إحدى المشاكل الرئيسية في هذا المجال كيفية التقاط ونمذجة التبعيات المكانية والزمانية المتأصلة في الفيديوهات بدقة. تحتوي الفيديوهات على بنى غنية عبر الزمن والمكان، ويشكل ترميز هذا التعقيد بحيث تتمكن النماذج من التنبؤ بإطارات مستقبلية متماسكة تحديًا كبيرًا. فإن لم يتم نمذجة هذه التبعيات بشكل جيد، يؤدي ذلك إلى انقطاع في استمرارية الإطارات أو توليد محتوى غير واقعي. كما تعاني تقنيات التدريب التقليدية مثل الإخفاء العشوائي (Random Masking) حيث غالبًا ما تفشل في توفير إشارات تعلم متوازنة عبر الإطارات. وعندما تتسرب المعلومات المكانية من الإطارات المجاورة، يصبح التنبؤ أسهل من اللازم.
محاولات سابقة وعيوبها
تحاول العديد من الطرق معالجة هذا التحدي من خلال تكييف خط أنابيب التوليد التنبؤي الذاتي، لكنها غالبًا ما تنحرف عن بنى نماذج اللغات الكبيرة القياسية. بعضها يستخدم مُشفرات نصية مُدرّبة مسبقًا، مما يجعل النماذج أكثر تعقيدًا وأقل تماسكًا. والبعض الآخر يُسبب تأخيرًا كبيرًا أثناء التوليد مع فك تشفير غير فعال. تحاول النماذج التنبؤية الذاتية مثل Phenaki و EMU3 دعم التوليد من طرف إلى طرف، لكنها لا تزال تعاني من ثبات الأداء وتكاليف تدريب عالية. كما أن تقنيات مثل ترتيب المسح الضوئي النقطي أو الانتباه المتسلسل العالمي لا تتوسع جيدًا إلى بيانات الفيديو عالية الأبعاد.
لوموس-1: حلٌّ مبتكر من علي بابا
قدم فريق بحثي من أكاديمية دامو (DAMO Academy) ومختبر هوبان (Hupan Lab) وجامعة زيجيانغ التابعة لمجموعة علي بابا نموذج لوموس-1، وهو نموذج موحد لتوليد الفيديوهات بتقنية التنبؤ الذاتي يبقى وفياً لمعمارية نماذج اللغات الكبيرة. وعكس الأدوات السابقة، يلغي لوموس-1 الحاجة إلى مُشفرات خارجية ويُجري تغييرات طفيفة جدًا في التصميم الأصلي لنماذج اللغات الكبيرة.
تقنيات مُبتكرة في لوموس-1
-
MM-RoPE (Multi-Modal Rotary Position Embeddings): يعالج تحدي نمذجة البنية ثلاثية الأبعاد للفيديو من خلال توسيع طرق RoPE الحالية لتحقيق التوازن بين طيف التردد للأبعاد المكانية والزمانية. يُعيد MM-RoPE هيكلة التخصيصات بحيث يحصل كل من البعد الزمني والارتفاع والعرض على تمثيل متوازن.
-
AR-DF (Autoregressive Discrete Diffusion Forcing): يعالج عدم توازن الخسارة في تدريب الإطارات من خلال استخدام إخفاء الأنابيب الزمنية أثناء التدريب، بحيث لا يعتمد النموذج بشكل كبير على المعلومات المكانية غير المُخفية. يضمن ذلك تعلمًا متساويًا عبر تسلسل الفيديو. وتُحاكي استراتيجية الاستنتاج التدريب، مما يسمح بتوليد إطارات عالية الجودة دون تدهور.
نتائج مُبهرة وفعالية عالية
تم تدريب لوموس-1 من الصفر على 60 مليون صورة و 10 ملايين فيديو، باستخدام 48 وحدة معالجة رسومية فقط، مما يُعتبر فعالًا من حيث الذاكرة بالنظر إلى حجم التدريب. حقق النموذج نتائج مُقارنة بأفضل النماذج في هذا المجال، حيث طابق نتائج EMU3 على معايير GenEval، وأدى بشكل مُكافئ لـ COSMOS-Video2World على اختبار VBench-I2V، وتنافس مع OpenSoraPlan على معيار VBench-T2V. تُظهر هذه المقارنات أن التدريب الخفيف الوزن في لوموس-1 لا يُؤثر على القدرة التنافسية. كما يدعم النموذج توليد الفيديو من النص، والفيديو من الصورة، والصورة من النص، مما يُظهر تعميمًا قويًا عبر الوسائط المختلفة.
خلاصة
لا يقتصر هذا البحث على تحديد ومعالجة التحديات الأساسية في النمذجة المكانية والزمانية لتوليد الفيديو، بل يُظهر أيضًا كيف يُحدد لوموس-1 معيارًا جديدًا لتوحيد الكفاءة والفعالية في الأطر التنبؤية الذاتية. من خلال الجمع الناجح بين البنى المتقدمة والتدريب المبتكر، يُمهد لوموس-1 الطريق للجيل التالي من نماذج توليد الفيديو القابلة للتوسع وعالية الجودة، ويفتح آفاقًا جديدة للبحوث متعددة الوسائط في المستقبل.
اترك تعليقاً