دليل شامل لتعلم الروبوتات باستخدام مكتبة LeRobot: تدريب وتقييم وتصور سياسات استنساخ السلوك على مجموعة بيانات PushT
في هذا البرنامج التعليمي، سنستعرض خطوة بخطوة كيفية استخدام مكتبة LeRobot من Hugging Face لتدريب وتقييم سياسة استنساخ السلوك على مجموعة بيانات PushT. سنبدأ بإعداد بيئة العمل في Google Colab، وتثبيت التبعيات المطلوبة، وتحميل مجموعة البيانات من خلال واجهة برمجة التطبيقات الموحدة لـ LeRobot. ثم سنصمم سياسة بصريّة-حركيّة مدمجة تجمع بين بنية Convolutional أساسية ورأس MLP صغير، مما يسمح لنا بتعيين ملاحظات الصور والحالة مباشرةً إلى إجراءات الروبوت. من خلال التدريب على مجموعة فرعية من مجموعة البيانات من أجل السرعة، سنتمكن من إظهار بسرعة كيف تُمكّن LeRobot خطوط أنابيب تعلم الروبوت القابلة للتكرار والمدفوعة بمجموعات البيانات. يمكنك الاطلاع على الكود الكامل هنا: [رابط الكود الكامل]
1. إعداد بيئة العمل وتثبيت التبعيات
نبدأ بتثبيت المكتبات المطلوبة وإعداد بيئة العمل للتدريب. نقوم باستيراد جميع الوحدات الأساسية، وتكوين مُحمّل مجموعة البيانات، وتثبيت البذرة العشوائية لضمان التكرار. كما نكتشف ما إذا كنا نعمل على وحدة معالجة رسوميات (GPU) أو وحدة معالجة مركزية (CPU)، مما يسمح لتجاربنا بالعمل بكفاءة. يمكنك الاطلاع على الكود الكامل هنا: [رابط الكود الكامل]
2. تحميل وتفقد بنية مجموعة بيانات PushT
نقوم بتحميل مجموعة بيانات PushT باستخدام LeRobot ونتفقد بنيتها. نتحقق من المفاتيح المتاحة، ونحدد أيها يتوافق مع الصور، والحالات، والإجراءات، ونقوم بتعيينها للوصول المُتناسق طوال خط أنابيب التدريب. يمكنك الاطلاع على الكود الكامل هنا: [رابط الكود الكامل]
3. معالجة البيانات وإنشاء مُحمّلات البيانات (DataLoaders)
نقوم بلف كل عينة بحيث نحصل باستمرار على صورة مُعاد قياس حجمها إلى 96×96، وحالة مُسّطحة، وإجراء، واختيار الإطار الأخير إذا كان هناك تراكب زمني. ثم نقوم بالخلط، وتقسيمها إلى مجموعات تدريب/اختبار، ووضع حد للأحجام لتشغيل سريع على Colab. أخيرًا، نقوم بإنشاء مُحمّلات بيانات فعالة مع المعالجة الدُفعية، والخلط، والذاكرة المُثبتة للحفاظ على سلاسة التدريب. يمكنك الاطلاع على الكود الكامل هنا: [رابط الكود الكامل]
4. تصميم وتدريب سياسة استنساخ السلوك (Behavior Cloning Policy)
نُعرف سياسة بصريّة-حركيّة مدمجة: تقوم بنية CNN الأساسية باستخراج ميزات الصورة التي نقوم بدمجها مع حالة الروبوت للتنبؤ بإجراءات ثنائية الأبعاد. نقوم بالتدريب باستخدام AdamW، وجدول معدل تعلم جيب التمام، والدقة المختلطة، وقصّ التدرجات، مع التقييم باستخدام MSE على مجموعة الاختبار. نقوم بتسجيل النقطة المرجعية لأفضل نموذج بواسطة خسارة الاختبار حتى نتمكن من إعادة تحميل أقوى سياسة لاحقًا. يمكنك الاطلاع على الكود الكامل هنا: [رابط الكود الكامل]
5. تصور نتائج التدريب
نقوم بإعادة تحميل أفضل نقطة مرجعية وتغيير السياسة إلى وضع التقييم حتى نتمكن من تصور سلوكها. نقوم بتراكب أسهم الإجراءات المُتوقعة على الإطارات، ونسجها في ملف MP4 قصير، ونقوم أيضًا بحفظ شبكة صور سريعة لعرض سريع لمجموعة البيانات. هذا يسمح لنا بالتأكد، في لمح البصر، من الإجراءات التي يُخرجها نموذجنا على ملاحظات PushT الحقيقية.
6. الخلاصة
في الختام، نرى كيف تُدمج LeRobot بسهولة معالجة البيانات، وتحديد السياسات، والتقييم في إطار عمل واحد. من خلال تدريب سياستنا الخفيفة وتصور الإجراءات المُتوقعة على إطارات PushT، نؤكد أن المكتبة تُعطينا نقطة دخول عملية لتعلم الروبوتات دون الحاجة إلى أجهزة مادية. نحن الآن مُجهزون لتوسيع خط الأنابيب إلى نماذج أكثر تقدمًا، مثل نماذج الانتشار أو سياسات ACT، لتجربة مجموعات بيانات مختلفة، وحتى لمشاركة سياساتنا المُدرّبة على Hugging Face Hub.
يمكنك الاطلاع على الكود الكامل هنا: [رابط الكود الكامل]
يمكنك أيضًا زيارة صفحتنا على جيثب للحصول على المزيد من البرامج التعليمية والأكواد والدفاتر: [رابط جيثب]
تابعونا على تويتر: [رابط تويتر]
انضم إلى مجتمعنا على ريديت: [رابط ريديت]
اشترك في قائمتنا البريدية: [رابط النشرة البريدية]






اترك تعليقاً