DiffusionRenderer: ثورة NVIDIA في توليد وتعديل المشاهد ثلاثية الأبعاد الواقعية من فيديو واحد
يشهد مجال توليد الفيديوهات المدعمة بالذكاء الاصطناعي تطوراً مذهلاً. ففي فترة زمنية قصيرة، انتقلنا من مقاطع فيديو ضبابية وغير متماسكة إلى فيديوهات توليدية ذات واقعية مذهلة. ومع ذلك، فقد ظل هناك جانب حاسم مفقود: القدرة على التحكم والتعديل. فبينما يُعدّ توليد فيديو جميل أمرًا رائعًا، إلا أن القدرة على تعديله بشكل احترافي وواقعي – تغيير الإضاءة من النهار إلى الليل، أو تبديل مادة جسم ما من الخشب إلى المعدن، أو إدراج عنصر جديد بسلاسة في المشهد – ظلت مشكلة كبيرة إلى حد كبير لم تُحَل. وقد كان هذا الفجوة هو الحاجز الرئيسي الذي منع الذكاء الاصطناعي من أن يصبح أداة أساسية حقاً لصناع الأفلام والمصممين والمبدعين. حتى ظهور DiffusionRenderer!!
DiffusionRenderer: نقلة نوعية في معالجة الفيديوهات
في ورقة بحثية رائدة جديدة، كشف باحثون في NVIDIA وجامعة تورنتو ومعهد Vector وجامعة إلينوي أوربانا شامبين عن إطار عمل يعالج هذه التحديات مباشرة. يمثل DiffusionRenderer قفزة ثورية إلى الأمام، حيث يتجاوز مجرد التوليد ليقدم حلاً موحدًا لفهم وتلاعب المشاهد ثلاثية الأبعاد من فيديو واحد. وهو يربط بفعالية الفجوة بين التوليد والتعديل، مما يفتح الإمكانات الإبداعية الحقيقية للمحتوى المدعوم بالذكاء الاصطناعي.
الطريقة القديمة مقابل الطريقة الجديدة: تحول في النموذج
لعقود من الزمن، ارتكزت الواقعية في التصوير على (PBR)، وهي منهجية تحاكي بدقة تدفق الضوء. وبينما تنتج نتائج مذهلة، إلا أنها نظام هش. يعتمد PBR بشكل كبير على وجود مخطط رقمي مثالي للمشهد – هندسة ثلاثية الأبعاد دقيقة، ونسيج مواد مفصل، وخرائط إضاءة دقيقة. إن عملية التقاط هذا المخطط من العالم الحقيقي، والمعروفة باسم العرض العكسي، صعبة ومعرضة للخطأ بشكل كبير. حتى العيوب الصغيرة في هذه البيانات يمكن أن تسبب أخطاء كارثية في العرض النهائي، وهو اختناق رئيسي حدّ من استخدام PBR خارج بيئات الاستوديوهات المُتحكمة.
أما تقنيات العرض العصبي السابقة مثل NeRFs، على الرغم من كونها ثورية في إنشاء مناظر ثابتة، إلا أنها واجهت مشكلة في التعديل. فهي “تخبز” الإضاءة والمواد في المشهد، مما يجعل التعديلات بعد التقاط الصورة شبه مستحيلة.
يعالج DiffusionRenderer “ماذا” (خصائص المشهد) و “كيف” (العرض) في إطار موحد مبني على بنية انتشار الفيديو القوية نفسها التي تدعم نماذج مثل Stable Video Diffusion. تستخدم هذه الطريقة اثنين من أدوات العرض العصبي لمعالجة الفيديو:
-
أداة العرض العكسي العصبية (Neural Inverse Renderer): تعمل هذه الأداة كمحقق مشهد. فهي تحلل فيديو RGB المدخل وتقدر بذكاء الخصائص الجوهرية، وتوليد مخازن البيانات الأساسية (G-buffers) التي تصف هندسة المشهد (العموديات، العمق) والمواد (اللون، الخشونة، المعدنية) على مستوى البكسل. يتم إنشاء كل سمة في تمريرة مخصصة لتمكين توليد عالي الجودة.
-
أداة العرض الأمامي العصبية (Neural Forward Renderer): تعمل هذه الأداة كفنان. فهي تأخذ G-buffers من أداة العرض العكسي، وتجمعها مع أي إضاءة مرغوبة (خريطة بيئة)، وتُنتج فيديو واقعي. الأمر بالغ الأهمية، أنه تم تدريبها لتكون قوية، قادرة على إنتاج تأثيرات نقل ضوء معقدة مذهلة مثل الظلال الناعمة والانعكاسات المتبادلة حتى عندما تكون G-buffers المدخلة من أداة العرض العكسي غير مثالية أو “ضوضاء”.
هذا التآزر الذاتي التصحيح هو جوهر الاختراق. تم تصميم النظام لمواجهة فوضى العالم الحقيقي، حيث البيانات المثالية هي مجرد أسطورة.
السر: استراتيجية بيانات مبتكرة لجسر الفجوة بين الواقع والمثالية
النموذج الذكي لا يعني شيئاً بدون بيانات ذكية. قام الباحثون وراء DiffusionRenderer بتصميم استراتيجية بيانات بارعة ذات شقين لتعليم نموذجهم دقائق كل من الفيزياء المثالية والواقع غير المثالي:
-
كون اصطناعي هائل: أولاً، قاموا ببناء مجموعة بيانات اصطناعية ضخمة وعالية الجودة من 150,000 فيديو. باستخدام آلاف الكائنات ثلاثية الأبعاد، ومواد PBR، وخرائط إضاءة HDR، قاموا بإنشاء مشاهد معقدة وعرضها باستخدام محرك تتبع مسار مثالي. وهذا أعطى نموذج العرض العكسي “دليلًا” مثاليًا ليتعلم منه، مما وفر له بيانات أرضية صحيحة مثالية.
-
وضع علامات تلقائية على العالم الحقيقي: وجد الفريق أن أداة العرض العكسي، المدربة فقط على البيانات الاصطناعية، كانت جيدة بشكل مدهش في التعميم على مقاطع الفيديو الحقيقية. قاموا بتشغيلها على مجموعة بيانات ضخمة من 10,510 فيديوهات من العالم الحقيقي (DL3DV10k). قام النموذج تلقائيًا بتوليد علامات G-buffer لهذه اللقطات من العالم الحقيقي. هذا خلق مجموعة بيانات ضخمة، تضم 150,000 عينة من مشاهد حقيقية مع خرائط خصائص جوهرية مقابلة – وإن كانت غير مثالية. من خلال التدريب المشترك لأداة العرض الأمامي على كل من البيانات الاصطناعية المثالية والبيانات الحقيقية ذات العلامات التلقائية، تعلم النموذج جسر “الفجوة المجالية” الحاسمة. لقد تعلم القواعد من العالم الاصطناعي والمظهر والشعور بالعالم الحقيقي. ولمعالجة عدم الدقة الحتمية في البيانات ذات العلامات التلقائية، قام الفريق بدمج وحدة LoRA (التكييف منخفض المرتبة)، وهي تقنية ذكية تسمح للنموذج بالتكيف مع البيانات الحقيقية الأكثر ضوضاء دون المساومة على المعرفة المكتسبة من المجموعة الاصطناعية النظيفة.
الأداء المتقدم
تتكلم النتائج عن نفسها. في مقارنات مباشرة صارمة ضد كل من الطرق الكلاسيكية والطرق العصبية المتقدمة، تفوقت DiffusionRenderer باستمرار في جميع المهام التي تم تقييمها بها بفارق كبير:
-
العرض الأمامي: عند توليد الصور من G-buffers والإضاءة، تفوقت DiffusionRenderer بشكل كبير على الطرق العصبية الأخرى، خاصة في المشاهد المعقدة متعددة الكائنات حيث تعتبر الانعكاسات والظلال الواقعية أمرًا بالغ الأهمية.
-
العرض العكسي: أثبت النموذج تفوقه في تقدير الخصائص الجوهرية للمشهد من فيديو، محققًا دقة أعلى في تقدير الألبيدو والمواد والعموديات من جميع النماذج الأساسية. وقد ثبت أن استخدام نموذج فيديو (مقابل نموذج صورة واحدة) فعال بشكل خاص، حيث قلل الأخطاء في التنبؤ بالمعدنية والخشونة بنسبة 41٪ و 20٪ على التوالي، لأنه يستفيد من الحركة لفهم التأثيرات المعتمدة على العرض بشكل أفضل.
-
إعادة الإضاءة: في الاختبار النهائي لخط الأنابيب الموحد، أنتج DiffusionRenderer نتائج إعادة إضاءة متفوقة من الناحية الكمية والنوعية مقارنة بالطرق الرائدة مثل DiLightNet و Neural Gaffer، حيث أنتج انعكاسات سطوع أكثر دقة وإضاءة عالية الدقة.
ماذا يمكنك أن تفعل مع DiffusionRenderer: تعديل قوي!
يفتح هذا البحث مجموعة من تطبيقات التعديل العملية والقوية التي تعمل من فيديو يومي واحد. تتمثل سير العمل في: يقوم النموذج أولاً بإجراء عرض عكسي لفهم المشهد، ثم يقوم المستخدم بتعديل الخصائص، ثم يقوم النموذج بإجراء عرض أمامي لإنشاء فيديو واقعي جديد.
-
إعادة الإضاءة الديناميكية: غيّر وقت النهار، أو استبدل أضواء الاستوديو بغروب الشمس، أو غيّر مزاج المشهد تمامًا من خلال توفير خريطة بيئة جديدة. يعيد الإطار عمل الفيديو بشكل واقعي مع جميع الظلال والانعكاسات المقابلة.
-
تعديل المواد بشكل حدسي: هل تريد رؤية كيف سيكون شكل هذا الكرسي الجلدي بالكروم؟ أو جعل تمثال معدني يبدو وكأنه مصنوع من حجر خشن؟ يمكن للمستخدمين تعديل G-buffers الخاصة بالمواد مباشرةً – ضبط الخشونة والمعدنية وخصائص اللون – وسيقوم النموذج بعرض التغييرات بشكل واقعي.
-
إدراج كائنات سلس: ضع كائنات افتراضية جديدة في مشهد من العالم الحقيقي. من خلال إضافة خصائص الكائن الجديد إلى G-buffers الخاصة بالمشهد، يمكن لأداة العرض الأمامي توليد فيديو نهائي يتم فيه دمج الكائن بشكل طبيعي، مع إسقاط ظلال واقعية والتقط انعكاسات دقيقة من محيطه.
أساس جديد للرسومات
يمثل DiffusionRenderer اختراقًا نهائيًا. من خلال حل العرض العكسي والأمامي بشكل شامل ضمن إطار عمل واحد قوي قائم على البيانات، فإنه يهدم الحواجز القديمة لـ PBR التقليدية. فهو يُمكّن العرض الواقعي، وينقله من المجال الحصري لخبراء VFX الذين يمتلكون أجهزة قوية إلى أداة أكثر سهولة للمبدعين والمصممين ومطوري AR / VR.
في تحديث حديث، قام المؤلفون بتحسين إزالة الإضاءة وإعادة الإضاءة للفيديو من خلال الاستفادة من NVIDIA Cosmos وتحسين تنظيم البيانات. هذا يدل على اتجاه تصعيد واعد: مع ازدياد قوة نموذج انتشار الفيديو الأساسي، تتحسن جودة الإخراج، مما ينتج عنه نتائج أكثر وضوحًا ودقة. تجعل هذه التحسينات التكنولوجيا أكثر إقناعًا.
تم إصدار النموذج الجديد بموجب ترخيص Apache 2.0 وترخيص NVIDIA Open Model، وهو متوفر هنا:
- فيديو توضيحي: https://youtu.be/jvEdWKaPqkc
- الورقة البحثية: https://arxiv.org/abs/2501.18590 (ملاحظة: الرابط غير صحيح، يحتاج للتعديل)
- الكود: https://github.com/nv-tlabs/cosmos1-diffusion-renderer
- صفحة المشروع: https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/
(شكرًا لفريق NVIDIA على القيادة الفكرية والموارد لهذا المقال. وقد دعم فريق NVIDIA ورعى هذا المحتوى/المقال.)





اترك تعليقاً