نماذج كوزموس-ريزن1 من إنفيديا: ثورة في الفهم الفيزيائي للذكاء الاصطناعي

يُعدّ التقدم المُحرز في مجال الذكاء الاصطناعي مذهلاً في مجالات معالجة اللغات، والرياضيات، وتوليد الأكواد. إلا أن تطبيقه في البيئات الفيزيائية الحقيقية لا يزال يمثل تحديًا كبيرًا. يهدف الذكاء الاصطناعي الفيزيائي (Physical AI) إلى سد هذه الفجوة من خلال تطوير أنظمة قادرة على إدراك، وفهم، والتصرف في بيئات ديناميكية وعالمية حقيقية.

الذكاء الاصطناعي الفيزيائي: تحديات وحلول

على عكس أنظمة الذكاء الاصطناعي التقليدية التي تُعالج النصوص أو الرموز، يتفاعل الذكاء الاصطناعي الفيزيائي مع المدخلات الحسية، وخاصةً الفيديو، ويُنتج استجابات قائمة على الفيزياء الواقعية. تُصمم هذه الأنظمة للتنقل، والتلاعب، والتفاعل، معتمدة على التفكير المنطقي العام وفهم متجسد للمكان، والزمان، وقوانين الفيزياء. تتضمن تطبيقاتها الروبوتات، والمركبات ذاتية القيادة، والتعاون بين الإنسان والآلة، حيث تُعد القدرة على التكيف مع الإدراك في الوقت الفعلي أمرًا بالغ الأهمية.

التحديات الرئيسية للذكاء الاصطناعي الفيزيائي:

  • الصلة الضعيفة بالفيزياء الواقعية: تُظهر نماذج الذكاء الاصطناعي الحالية ضعفًا في فهم الفيزياء الواقعية، حيث تُنجز مهامًا مجردة بنجاح، لكنها غالبًا ما تفشل في التنبؤ بالنتائج الفيزيائية أو الاستجابة بشكل مناسب للبيانات الحسية. مفاهيم مثل الجاذبية أو العلاقات المكانية ليست مفهومة بشكل حدسي، مما يجعلها غير موثوقة للمهام المتجسدة.
  • التدريب المكلف والمُحفوف بالمخاطر: يُعد التدريب مباشرةً في العالم الحقيقي مكلفًا ومُحفوفًا بالمخاطر، مما يُعيق التطوير والتكرار.
  • نقص الإطار الموحد: كانت الأدوات السابقة للتفكير الفيزيائي في الذكاء الاصطناعي مُجزأة. ربطت نماذج الرؤية واللغة بين البيانات المرئية والنصية، لكنها افتقرت إلى العمق في التفكير. كانت الأنظمة القائمة على القواعد جامدة، وفشلت في السيناريوهات الجديدة. غالبًا ما تُغفل المحاكاة والبيانات الاصطناعية دقائق الفيزياء الواقعية. لم يكن هناك إطار مُوحد لتعريف أو تقييم الفهم الفيزيائي العام أو التفكير المُتجسد. كما أن منهجيات ومعايير الأداء غير المُتناسقة جعلت من الصعب قياس التقدم.
  • تعلم التعزيز: افتقرَت مناهج تعلم التعزيز إلى هياكل مُكافآت خاصة بالمهام، مما أدى إلى نماذج تعاني من صعوبة في التفكير السببي والجدوى الفيزيائية.

كوزموس-ريزن1: حلول إنفيديا للتفكير الفيزيائي

قدمت إنفيديا مجموعة من نماذج اللغات الكبيرة متعددة الوسائط، تُعرف باسم كوزموس-ريزن1 (Cosmos-Reason1)، والتي تتضمن نموذجين: كوزموس-ريزن1-7B وكوزموس-ريزن1-56B. صُممت هذه النماذج خصيصًا لمهام التفكير الفيزيائي.

مراحل التدريب:

  • التدقيق الدقيق الخاضع للإشراف (SFT): Physical AI Supervised Fine-Tuning.
  • تعلم التعزيز (RL): Physical AI Reinforcement Learning.

المنهجية المبتكرة:

يتمثل التميز في هذا النهج في إدخال نظام ثنائي للتصنيف:

  • تصنيف هرمي: يُنظم الفهم الفيزيائي العام إلى ثلاث فئات رئيسية: المكان، والزمان، والفيزياء الأساسية، مقسمة إلى 16 فئة فرعية.
  • تصنيف ثنائي الأبعاد: يُرسم قدرات التفكير عبر خمسة وكلاء متجسدين، بما في ذلك البشر، وأذرع الروبوت، والروبوتات البشرية الشكل، والمركبات ذاتية القيادة.

يُعد هذان التصنيفان أدوات تدريب وتقييم لمعيار أداء التفكير الفيزيائي للذكاء الاصطناعي.

بنية النموذج:

يستخدم كوزموس-ريزن1 نموذج لغة مُشفّر فقط (decoder-only LLM) مُعزز بمُشفّر رؤية (vision encoder). يتم معالجة مقاطع الفيديو لاستخراج الميزات المرئية، والتي يتم إسقاطها بعد ذلك في مساحة مُشتركة مع رموز اللغة. يُمكّن هذا التكامل النموذج من التفكير في البيانات النصية والمرئية في وقت واحد.

مجموعة البيانات:

استخدم الباحثون مجموعة بيانات ضخمة تضم حوالي 4 ملايين زوج من الفيديو والنص المُعلّق للتدريب. تتضمن هذه الأزواج أوصافًا للأفعال، وأسئلة اختيار من متعدد، وآثار تفكير طويلة السلسلة.

تعلم التعزيز:

تُدار مرحلة تعلم التعزيز بواسطة مكافآت قائمة على القواعد وقابلة للتحقق، مُستمدة من أسئلة الاختيار من متعدد المُعلّقة يدويًا ومهام الفيديو ذاتية الإشراف. تتضمن هذه المهام التنبؤ بالاتجاه الزمني لمقاطع الفيديو وحل الألغاز باستخدام الرقع المكانية والزمانية، مما يجعل التدريب مرتبطًا بشكل وثيق بالمنطق الفيزيائي في العالم الحقيقي.

معايير الأداء:

بنى الفريق ثلاثة معايير للأداء للفهم الفيزيائي العام (المكان، والزمان، والفيزياء الأساسية) تحتوي على 604 أسئلة من 426 مقطع فيديو، وستة معايير للتفكير المُتجسد مع 610 أسئلة من 600 مقطع فيديو، تغطي مجموعة واسعة من المهام.

النتائج:

تجاوزت نماذج كوزموس-ريزن1 النماذج الأساسية السابقة، خاصةً بعد مرحلة تعلم التعزيز. ولاحظ الباحثون تحسناً ملحوظًا في التحقق من إتمام المهام، والتنبؤ بالإجراءات المُحتملة التالية، وتقييم الجدوى الفيزيائية للإجراءات. وقد لوحظت هذه المكاسب في حجمي النموذج، مع إظهار كوزموس-ريزن1-56B لأداء أقوى عبر معظم المقاييس.

الاستنتاج:

يُظهر مشروع كوزموس-ريزن1 كيف يمكن تجهيز الذكاء الاصطناعي بشكل أفضل للعالم المادي. فهو يُعالج القيود الرئيسية في الإدراك، والتفكير، وصنع القرار، والتي أعاقت التقدم في نشر الذكاء الاصطناعي في السيناريوهات المُتجسدة. يضمن خط أنابيب التدريب المُنظم، القائم على البيانات الواقعية وأطر التصنيف، دقة النماذج وقدرتها على التكيف. وتُشير هذه التطورات إلى خطوة رئيسية إلى الأمام في سد الفجوة بين التفكير المجرد للذكاء الاصطناعي واحتياجات الأنظمة التي يجب أن تعمل في بيئات عالمية حقيقية غير متوقعة.

المصدر: MarkTechPost