نموذج عالمي برمجي متعدد الوحدات يتفوق على تقنيات التعلم المعزز في لعبة “مونتي زوما الانتقام”
يُعد فهم آلية عمل العالم أمراً بالغ الأهمية لإنشاء وكلاء ذكاء اصطناعي قادرين على التكيف مع المواقف المعقدة. بينما توفر النماذج القائمة على الشبكات العصبية، مثل نموذج “دريمر” (Dreamer)، مرونة عالية، إلا أنها تتطلب كميات هائلة من البيانات للتعلم الفعال، وهو ما يتجاوز بكثير ما يحتاجه البشر عادةً. من ناحية أخرى، تستخدم الأساليب الحديثة توليف البرامج مع نماذج اللغات الكبيرة لإنشاء نماذج عالمية قائمة على البرمجة. هذه النماذج أكثر كفاءة من حيث البيانات، ويمكنها التعميم بشكل جيد من مدخلات محدودة. ومع ذلك، اقتصر استخدامها في الغالب على المجالات البسيطة، مثل النصوص أو عوالم الشبكة، حيث يظل التوسع إلى بيئات ديناميكية معقدة تحديًا بسبب صعوبة إنشاء برامج كبيرة وشاملة.
قيود نماذج العالم البرمجية الحالية
بحثت الأبحاث الحديثة في استخدام البرامج لتمثيل نماذج العالم، مستفيدةً غالبًا من نماذج اللغات الكبيرة لتوليف دوال انتقال بلغة بايثون. تقوم أساليب مثل “وورلد كودر” (WorldCoder) و “كود وورلد مودلز” (CodeWorldModels) بتوليد برنامج واحد كبير، مما يحد من قابليتها للتوسع في البيئات المعقدة وقدرتها على التعامل مع عدم اليقين والملاحظة الجزئية. تركز بعض الدراسات على النماذج الرمزية عالية المستوى للتخطيط الآلي من خلال دمج المدخلات البصرية مع التفكير المجرد. استخدمت الجهود السابقة لغات محددة المجال مقيدة مصممة خصيصًا لمعايير محددة، أو استخدمت هياكل ذات صلة مفاهيميًا، مثل رسوم العوامل في شبكات المخططات. كما تستكشف النماذج النظرية، مثل AIXI، نماذج العالم باستخدام آلات تورينج وتمثيلات قائمة على التاريخ.
تقديم PoE-World: نماذج عالمية احتمالية معيارية
يقدم باحثون من جامعات كورنيل، كامبريدج، معهد آلان تورينج، وجامعة دالهاوسي، نهج PoE-World، وهو نهج لتعلم نماذج العالم الرمزية من خلال الجمع بين العديد من البرامج الصغيرة التي تم توليدها بواسطة نماذج اللغات الكبيرة، حيث يمثل كل برنامج قاعدة محددة للبيئة. بدلاً من إنشاء برنامج واحد كبير، يبني PoE-World بنية معيارية احتمالية يمكنها التعلم من عروض توضيحية موجزة. يدعم هذا الإعداد التعميم على مواقف جديدة، مما يسمح للوكلاء بالتخطيط بشكل فعال، حتى في ألعاب معقدة مثل “بونج” و “مونتي زوما الانتقام”. بينما لا يقوم بمحاكاة بيانات البكسل الخام، إلا أنه يتعلم من ملاحظات الكائنات الرمزية ويركز على النمذجة الدقيقة بدلاً من الاستكشاف لاتخاذ القرارات بكفاءة.
بنية وآلية تعلم PoE-World
يقوم PoE-World بنمذجة البيئة كمجموعة من برامج بايثون الصغيرة، القابلة للتفسير، والتي تسمى الخبراء البرمجيّين، حيث يكون كل منها مسؤولاً عن قاعدة أو سلوك محدد. يتم وزن هذه الخبراء ودمجها للتنبؤ بالحالات المستقبلية بناءً على الملاحظات والأفعال السابقة. من خلال التعامل مع الميزات على أنها مستقلة بشرط، والتعلم من التاريخ الكامل، يظل النموذج معياريًا وقابلًا للتوسع. تقوم القيود الصعبة بتحسين التنبؤات، ويتم تحديث الخبراء أو تقليمهم مع جمع بيانات جديدة. يدعم النموذج التخطيط والتعلم المعزز من خلال محاكاة النتائج المستقبلية المحتملة، مما يسمح باتخاذ قرارات فعالة. يتم توليف البرامج باستخدام نماذج اللغات الكبيرة ويتم تفسيرها بشكل احتمالي، مع تحسين أوزان الخبراء عبر نزول التدرج.
التقييم التجريبي على ألعاب أتاري
تقيم الدراسة وكيلها، PoE-World + Planner، على لعبتي “بونج” و “مونتي زوما الانتقام” من أتاري، بما في ذلك إصدارات معدلة أكثر صعوبة من هذه الألعاب. باستخدام بيانات عرض توضيحية ضئيلة، يتفوق أسلوبهم على الأساليب المرجعية مثل PPO و ReAct و WorldCoder، خاصةً في بيئات البيانات المنخفضة. يُظهر PoE-World تعميمًا قويًا من خلال نمذجة ديناميكيات اللعبة بدقة، حتى في بيئات معدلة بدون عروض توضيحية جديدة. وهو أيضًا الأسلوب الوحيد الذي يحقق نتائج إيجابية باستمرار في لعبة “مونتي زوما الانتقام”. تساعد سياسات ما قبل التدريب في بيئة PoE-World المحاكاة على تسريع التعلم في العالم الحقيقي. على عكس نماذج WorldCoder المحدودة وفي بعض الأحيان غير الدقيقة، ينتج PoE-World تمثيلات أكثر تفصيلاً وواعية للقيود، مما يؤدي إلى تخطيط أفضل وسلوك أكثر واقعية داخل اللعبة.
الخلاصة: برامج رمزية معيارية للتخطيط القابل للتوسع في الذكاء الاصطناعي
في الختام، يُعد فهم كيفية عمل العالم أمرًا بالغ الأهمية لبناء وكلاء ذكاء اصطناعي متكيفين؛ ومع ذلك، تتطلب نماذج التعلم العميق التقليدية مجموعات بيانات كبيرة وتكافح للتحديث بمرونة مع مدخلات محدودة. مستوحاة من كيفية إعادة البشر والأنظمة الرمزية دمج المعرفة، تقترح الدراسة PoE-World. تستخدم هذه الطريقة نماذج اللغات الكبيرة لتوليف “خبراء” برمجيّين معياريين يمثلون أجزاء مختلفة من العالم. تتحد هذه الخبراء بشكل تكويني لتشكيل نموذج عالمي رمزي قابل للتفسير يدعم التعميم القوي من بيانات ضئيلة. عند اختبار هذا النهج على ألعاب أتاري مثل “بونج” و “مونتي زوما الانتقام”، فإنه يُظهر تخطيطًا وأداءً فعالين، حتى في السيناريوهات غير المألوفة. الشيفرة وعروض توضيحية متاحة للجمهور. يمكنك الاطلاع على الورقة البحثية، وصفحة المشروع، وصفحة جيثب. جميع حقوق هذه الدراسة تعود إلى الباحثين في هذا المشروع. كما يمكنك متابعتنا على تويتر، والانضمام إلى مجتمعنا المكون من أكثر من 100 ألف مشترك في ريديت، والاشتراك في قائمتنا البريدية.
اترك تعليقاً