EmbodiedGen: مُولد عوالم ثلاثية الأبعاد قابلة للتطوير لتدريب أنظمة الذكاء الاصطناعي المتجسد

تُعَدّ بيئات ثلاثية الأبعاد واقعية ودقيقة الحجم ضرورية لتدريب وتقييم أنظمة الذكاء الاصطناعي المتجسد (Embodied AI). لكن الطرق الحالية ما زالت تعتمد على الرسوميات ثلاثية الأبعاد المصممة يدوياً، وهي عملية مكلفة وتفتقر إلى الواقعية، مما يحد من قابلية التطوير والتعميم. على عكس البيانات الضخمة المُستخدمة في نماذج مثل GPT وCLIP، فإن بيانات الذكاء الاصطناعي المتجسد مكلفة، وذات سياق محدد، ويصعب إعادة استخدامها. ويتطلب الوصول إلى ذكاء عام في بيئات مادية محاكاة واقعية، وتعلم تقوية، وأصول ثلاثية الأبعاد متنوعة. وبالرغم من أن نماذج الانتشار الحديثة وتقنيات توليد ثلاثية الأبعاد تُظهر وعداً كبيراً، إلا أن العديد منها يفتقر إلى ميزات أساسية مثل الدقة الفيزيائية، والهندسة المغلقة (Watertight Geometry)، والحجم الصحيح، مما يجعلها غير مناسبة لبيئات التدريب الروبوتية.

قيود تقنيات توليد ثلاثية الأبعاد الحالية

يتبع توليد الأجسام ثلاثية الأبعاد عادةً ثلاثة مناهج رئيسية:

  1. التوليد التغذية الأمامي (Feedforward Generation): للحصول على نتائج سريعة.
  2. الطرق القائمة على التحسين (Optimization-based Methods): للحصول على جودة عالية.
  3. إعادة بناء المنظر من صور متعددة (View Reconstruction): للحصول على دقة عالية.

على الرغم من أن التقنيات الحديثة قد حسّنت الواقعية من خلال فصل إنشاء الهندسة عن الملمس، إلا أن العديد من النماذج لا تزال تُعطي الأولوية للمظهر البصري على الفيزياء الواقعية. هذا يجعلها أقل ملاءمة للمحاكاة التي تتطلب قياساً دقيقاً وهندسة مغلقة. بالنسبة للمشاهد ثلاثية الأبعاد، أتاحت تقنيات البانوراما عرضاً كاملاً، لكنها لا تزال تفتقر إلى التفاعلية. وعلى الرغم من أن بعض الأدوات تحاول تعزيز بيئات المحاكاة بأصول مُولدة، إلا أن الجودة والتنوع لا يزالان محدودين، مما يقلل من كفاءتها في أبحاث الذكاء الاصطناعي المتجسد المعقدة.

مقدمة إلى EmbodiedGen: منصة مفتوحة المصدر، معمارية، وجاهزة للمحاكاة

EmbodiedGen هو إطار عمل مفتوح المصدر تم تطويره بشكل تعاوني من قبل باحثين من شركة Horizon Robotics، والجامعة الصينية في هونغ كونغ، ومعهد تشي تشي في شنغهاي، وجامعة تسينغهوا. وقد تم تصميمه لتوليد أصول ثلاثية الأبعاد واقعية وقابلة للتطوير مصممة خصيصاً لمهام الذكاء الاصطناعي المتجسد. تُخرج المنصة أجساماً ثلاثية الأبعاد دقيقة من الناحية الفيزيائية، وهندستها مغلقة، بصيغة URDF، مُكتملة بالبيانات الوصفية لضمان توافقها مع المحاكاة. بفضل مكوناته الستة المعيارية، بما في ذلك تحويل الصورة إلى ثلاثي الأبعاد، وتحويل النص إلى ثلاثي الأبعاد، وتوليد التصميم، وإعادة ترتيب الأجسام، فهو يُمكّن من إنشاء مشاهد قابلة للتحكم وفعالة. من خلال سد الفجوة بين الرسومات ثلاثية الأبعاد التقليدية والأصول الجاهزة للروبوتات، يُسهّل EmbodiedGen التطوير القابل للتطوير والفعال من حيث التكلفة للبيئات التفاعلية لأبحاث الذكاء الاصطناعي المتجسد.

الميزات الرئيسية: توليد متعدد الوسائط لمحتوى ثلاثي الأبعاد غني

EmbodiedGen عبارة عن مجموعة أدوات متعددة الاستخدامات مصممة لتوليد بيئات ثلاثية الأبعاد واقعية وتفاعلية مصممة خصيصاً لمهام الذكاء الاصطناعي المتجسد. وهي تجمع بين وحدات توليد متعددة:

  • تحويل الصور أو النصوص إلى أجسام ثلاثية الأبعاد مفصلة.
  • إنشاء عناصر مفصلية بأجزاء متحركة.
  • توليد قوام متنوعة لتحسين الجودة البصرية.

كما تدعم بناء المشهد الكامل من خلال ترتيب هذه الأصول بطريقة تحترم الخصائص الفيزيائية والحجم في العالم الحقيقي. والنتيجة متوافقة مباشرة مع منصات المحاكاة، مما يجعل من السهل وبأسعار معقولة بناء عوالم افتراضية واقعية. يساعد هذا النظام الباحثين على محاكاة سيناريوهات العالم الحقيقي بكفاءة دون الاعتماد على النمذجة اليدوية المكلفة.

تكامل المحاكاة والدقة الفيزيائية في العالم الحقيقي

EmbodiedGen عبارة عن منصة قوية وسهلة الوصول تُمكّن من توليد أصول ثلاثية الأبعاد متنوعة وعالية الجودة مصممة خصيصاً لأبحاث الذكاء الاصطناعي المتجسد. وتتميز بعدة وحدات رئيسية تسمح للمستخدمين بإنشاء أصول من الصور أو النصوص، وتوليد أجسام مفصلية ذات قوام، وبناء مشاهد واقعية. هذه الأصول مغلقة، وواقعية من الناحية التصويرية، ودقيقة من الناحية الفيزيائية، مما يجعلها مثالية للتدريب والتقييم القائم على المحاكاة في مجال الروبوتات. تدعم المنصة التكامل مع بيئات المحاكاة الشائعة، بما في ذلك OpenAI Gym، وMuJoCo، وIsaac Lab، وSAPIEN، مما يُمكّن الباحثين من محاكاة المهام بكفاءة، مثل التنقل، والتلاعب بالأجسام، وتجنب العقبات بتكلفة منخفضة.

RoboSplatter: عرض ثلاثي الأبعاد عالي الدقة باستخدام تقنية Gaussian Splatting (3DGS) للمحاكاة

من الميزات البارزة RoboSplatter، الذي يُدخِل عرض ثلاثي الأبعاد متطور باستخدام تقنية Gaussian Splatting (3DGS) في عمليات المحاكاة الفيزيائية. على عكس خطوط الأنابيب الرسومية التقليدية، يُحسّن RoboSplatter من الدقة البصرية مع تقليل العبء الحسابي. من خلال وحدات مثل توليد القوام وتحويل الواقع إلى محاكاة، يمكن للمستخدمين تحرير مظهر الأصول ثلاثية الأبعاد أو إعادة إنشاء مشاهد العالم الحقيقي بدرجة عالية من الواقعية.

أهمية هذا البحث

يعالج هذا البحث عقبة رئيسية في مجال الذكاء الاصطناعي المتجسد: وهي نقص بيئات ثلاثية الأبعاد قابلة للتطوير، وواقعية، ومتوافقة مع الفيزياء، للتدريب والتقييم. بينما ساهمت البيانات الضخمة في دفع التقدم في نماذج الرؤية واللغة، إلا أن الذكاء الاصطناعي المتجسد يتطلب أصولاً جاهزة للمحاكاة مع مقياس دقيق، وهندسة، وتفاعلية – وهي صفات غالباً ما تفتقر إليها خطوط أنابيب توليد ثلاثية الأبعاد التقليدية. يُسد EmbodiedGen هذه الفجوة من خلال تقديم منصة مفتوحة المصدر، ومعمارية، قادرة على إنتاج أجسام ومشاهد ثلاثية الأبعاد عالية الجودة وقابلة للتحكم، ومتوافقة مع محاكيات الروبوتات الرئيسية. إن قدرتها على تحويل النصوص والصور إلى بيئات ثلاثية الأبعاد واقعية من الناحية الفيزيائية على نطاق واسع يجعلها أداة أساسية لتطوير أبحاث الذكاء الاصطناعي المتجسد، والتوأمين الرقميين، وتعلم الواقع إلى محاكاة.

(روابط البحث والمشروع)

المصدر: MarkTechPost