VeBrain: إطار عمل متعدد الوسائط للذكاء الاصطناعي يُمكّن الروبوتات من التفكير البصري والتحكم في العالم الحقيقي
يُعَدّ دمج قدرات الإدراك والفعل في مجال الروبوتات تحديًا رئيسيًا. تُظهر نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) وعدًا كبيرًا في تمكين الآلات، مثل الأذرع الروبوتية والروبوتات ذات الأرجل، من إدراك محيطها، وتفسير السيناريوهات، واتخاذ إجراءات مُفيدة. يُسهم دمج هذا النوع من الذكاء في الأنظمة الفيزيائية في تطوير مجال الروبوتات، ودفعها نحو آلات مستقلة لا تكتفي بالرؤية والوصف، بل تخطط وتتحرك داخل بيئاتها بناءً على فهم سياقي.
التحديات في دمج الإدراك والفعل
على الرغم من القوة المتزايدة لنماذج اللغات الكبيرة متعددة الوسائط، إلا أن هناك مشكلة مستمرة تتمثل في عدم قدرتها على الجمع بين الرؤية، والتفكير، والتفاعل المادي في نظام متماسك واحد. عادةً ما تُعاني النماذج المُدرّبة على فهم الصور أو النصوص من قصور عند طلب التحكم في الروبوتات في المساحات الحقيقية. تكمن المشكلة الأساسية في أن فهم المشهد يختلف اختلافًا جوهريًا عن التصرف داخله. يركز الفهم متعدد الوسائط على الإدراك والتحليل، بينما يتطلب التحكم المادي اتخاذ قرارات دقيقة وفي الوقت الفعلي بناءً على هذا الإدراك. يُخلق هذا الانفصال نقاط ضيق عند محاولة بناء وكلاء يجب عليهم مراقبة، والتفكير، والتصرف في بيئات متنوعة في وقت واحد.
قصور نماذج VLA السابقة
تعتمد الأدوات السابقة المُصممة للتحكم في الروبوتات بشكل كبير على نماذج الرؤية-اللغة-الفعل (VLA). تُدرّب هذه النماذج على مجموعات بيانات روبوتية واسعة لتحويل الملاحظات البصرية إلى إشارات تحكم. بينما تحاول بعض الحلول الحفاظ على قدرة نماذج اللغات الكبيرة متعددة الوسائط على التفكير من خلال ترجمة الأوامر إلى إجراءات نصية، إلا أنها تواجه صعوبة في الحفاظ على الدقة وقابلية التكيف أثناء مهام التحكم. على سبيل المثال، غالبًا ما تتدهور أداء نماذج VLA عند تطبيقها على عمليات روبوتية متنوعة أو طويلة الأمد. علاوة على ذلك، نظرًا للفجوة بين الفهم القائم على الصور والتحكم في الحركة، فإن هذه الأدوات عادةً ما تفشل في التعميم عبر بيئات أو أنواع روبوتات مختلفة.
VeBrain: إطار عمل متعدد الوسائط موحد
قدّم باحثون من مختبر شنغهاي للذكاء الاصطناعي، وجامعة تسينغهوا، وبحث SenseTime، بالتعاون مع معاهد أخرى، إطارًا عملًا موحدًا يُسمى الدماغ المرئي المُجسّد (VeBrain). يعيد VeBrain صياغة التحكم في الروبوتات على هيئة مهام نصية ضمن مساحة بصرية ثنائية الأبعاد، مما يُقربه أكثر من طريقة عمل نماذج اللغات الكبيرة متعددة الوسائط. يُدمج الإطار الفهم متعدد الوسائط، والتفكير المكاني، والتحكم في الروبوتات في هيكل واحد. يُعالِج مُكيّف روبوتي مُصمم خصيصًا مخرجات نموذج اللغات الكبيرة متعددة الوسائط إلى سياسات حركة قابلة للتنفيذ، مما يُمكّن نموذجًا واحدًا من إدارة الإدراك، والتفكير، والتحكم. كما يدعم VeBrain مجموعة بيانات تعليمات عالية الجودة تُسمى VeBrain-600k، والتي تجمع أكثر من 600,000 عينة من المهام متعددة الوسائط، بما في ذلك حركة الروبوت وخطوات التفكير.
المكونات التقنية: البنية والمحول الروبوتي
لتنفيذ وظائفه، يستخدم VeBrain بنية قائمة على Qwen2.5-VL، مُعززة بمكونات تُمكّن التحكم في العالم الحقيقي. يحتوي المحول الروبوتي على أربعة وحدات رئيسية:
- متتبع النقاط: يُحدّث نقاط المفتاح ثنائية الأبعاد مع تغير رؤية الروبوت، مما يُضمن الاستهداف الدقيق.
- وحدة تحكم الحركة: تُحوّل نقاط المفتاح ثنائية الأبعاد إلى حركات ثلاثية الأبعاد من خلال دمج بيانات الصورة مع خرائط العمق.
- منفذ المهارات: يُطابق الإجراءات المُتنبأ بها، مثل “الدوران” أو “الإمساك”، مع مهارات روبوتية مُدرّبة مسبقًا.
- وحدة الاستلام الديناميكي: تُراقب حالات الفشل أو الشذوذ، وتُعيد التحكم إلى نموذج اللغات الكبيرة متعددة الوسائط عند الضرورة.
تشكل هذه الوحدات نظامًا مغلق الحلقة يتخذ القرارات، ويتصرف، ويصحح نفسه، مما يسمح للروبوتات بالعمل بكفاءة في مواقف متنوعة.
تقييم الأداء عبر معايير متعددة الوسائط والروبوتات
تم تقييم VeBrain عبر 13 معيارًا متعدد الوسائط و 5 معايير مكانية. على MMVet، حقق تحسنًا بنسبة 5.6٪ مقارنةً بـ Qwen2.5-VL. حقق درجة 101.5 على مقياس CIDEr لـ ScanQA وحصل على درجة 83.7 على MMBench. على معيار VSI، بلغ متوسطه 39.9، متفوقًا على 35.9 لـ Qwen2.5-VL. في التقييمات الروبوتية، أظهر VeBrain نجاحًا بنسبة 86.4٪ عبر سبع مهام روبوتية ذات أرجل، متجاوزًا بشكل كبير نماذج مثل VLA و π0، التي سجلت 32.1٪ و 31.4٪ على التوالي. في مهام الذراع الروبوتية، حقق معدل نجاح بلغ 74.3٪، متفوقًا على غيره بنسبة تصل إلى 80٪. تُظهر هذه النتائج قدرة VeBrain على التعامل مع تحديات التحكم طويلة الأمد والمعقدة مكانيًا بموثوقية عالية.
الخاتمة
يُقدّم البحث اتجاهًا مُقنعًا للذكاء الاصطناعي المُجسّد. نجح الباحثون في إعادة تعريف التحكم في الروبوتات كمهمة لغوية، مما يُمكّن التفكير عالي المستوى والفعل منخفض المستوى من التعايش. تُسدّد هذه الطريقة الفجوة بين فهم الصورة وتنفيذ الروبوت بطريقة عملية وقابلة للتطوير. بفضل تصميمه القوي وأدائه القوي، يُشير VeBrain إلى تحول نحو أنظمة روبوتية أكثر توحيدًا وذكاءً قادرة على العمل بشكل مستقل عبر مهام وبيئات متنوعة.
اترك تعليقاً