نموذج PoE-World: ثورة في بناء نماذج العالم الرمزية القابلة للتطوير

يُعد فهم آليات عمل العالم حجر الزاوية في تطوير وكلاء الذكاء الاصطناعي القادرين على التكيف مع المواقف المعقدة. بينما تتميز النماذج القائمة على الشبكات العصبية، مثل Dreamer، بالمرونة، إلا أنها تتطلب كميات هائلة من البيانات للتعلم الفعال، أكثر بكثير مما يحتاجه البشر عادةً. من ناحية أخرى، تستخدم الأساليب الحديثة توليف البرامج مع نماذج اللغات الكبيرة لإنشاء نماذج عالمية مبنية على أكواد برمجية. هذه النماذج أكثر كفاءة من حيث البيانات، وتتمتع بقدرة أفضل على التعميم من مدخلات محدودة. ومع ذلك، اقتصر استخدامها في الغالب على المجالات البسيطة، مثل النصوص أو عوالم الشبكات، حيث يظل التوسع إلى بيئات ديناميكية معقدة تحديًا بسبب صعوبة إنشاء برامج شاملة ضخمة.

قيود نماذج العالم البرمجية الحالية

بحثت الأبحاث الحديثة في استخدام البرامج لتمثيل نماذج العالم، مستفيدةً غالبًا من نماذج اللغات الكبيرة لتوليف دوال انتقال مكتوبة بلغة بايثون. تقوم أساليب مثل WorldCoder و CodeWorldModels بتوليد برنامج واحد كبير، مما يحد من قابليتها للتطوير في البيئات المعقدة وقدرتها على التعامل مع عدم اليقين والملاحظة الجزئية. تركز بعض الدراسات على النماذج الرمزية عالية المستوى للتخطيط الروبوتي من خلال دمج المدخلات البصرية مع التفكير المجرد. استخدمت الجهود السابقة لغات محددة المجال مقيدة مصممة خصيصًا لمعايير محددة، أو هياكل ذات صلة من الناحية المفاهيمية، مثل رسوم العوامل في شبكات المخططات. كما تستكشف النماذج النظرية، مثل AIXI، نماذج العالم باستخدام آلات تورينج وتمثيلات تعتمد على التاريخ.

تقديم PoE-World: نماذج عالمية معيارية احتمالية

يقدم باحثون من جامعات كورنيل، كامبريدج، ومعهد آلان تورينج، وجامعة دالهوسي، نموذج PoE-World، وهو أسلوب لتعلم نماذج العالم الرمزية من خلال الجمع بين العديد من البرامج الصغيرة التي تم توليدها بواسطة نماذج اللغات الكبيرة، حيث يمثل كل برنامج قاعدة محددة من قواعد البيئة. بدلاً من إنشاء برنامج واحد كبير، يبني PoE-World بنية معيارية احتمالية يمكنها التعلم من عروض توضيحية موجزة. يدعم هذا الإعداد التعميم على مواقف جديدة، مما يسمح للوكلاء بالتخطيط بشكل فعال، حتى في ألعاب معقدة مثل Pong و Montezuma’s Revenge. على الرغم من أنه لا يُنمذج بيانات البكسل الخام، إلا أنه يتعلم من ملاحظات الكائنات الرمزية ويؤكد على النمذجة الدقيقة على الاستكشاف لاتخاذ القرارات بكفاءة.

بنية وآلية تعلم PoE-World

يُنمذج PoE-World البيئة كمجموعة من برامج بايثون الصغيرة القابلة للتفسير، تسمى الخبراء البرمجيون، حيث يكون كل خبير مسؤولاً عن قاعدة أو سلوك محدد. يتم وزن هذه الخبراء ودمجها للتنبؤ بالحالات المستقبلية بناءً على الملاحظات والإجراءات السابقة. من خلال التعامل مع الميزات على أنها مستقلة بشكل مشروط والتعلم من التاريخ الكامل، يظل النموذج معياريًا وقابلًا للتطوير. تقوم القيود الصعبة بتحسين التنبؤات، ويتم تحديث الخبراء أو تقليمهم مع جمع بيانات جديدة. يدعم النموذج التخطيط والتعلم المعزز من خلال محاكاة النتائج المستقبلية المحتملة، مما يسمح باتخاذ القرارات بكفاءة. يتم توليف البرامج باستخدام نماذج اللغات الكبيرة ويتم تفسيرها احتماليًا، مع تحسين أوزان الخبراء عبر نزول التدرج.

التقييم التجريبي على ألعاب أتاري

تقيم الدراسة وكيلها، PoE-World + Planner، على لعبتي Pong و Montezuma’s Revenge من ألعاب أتاري، بما في ذلك إصدارات معدلة أصعب من هذه الألعاب. باستخدام بيانات عرض توضيحية ضئيلة، يتفوق أسلوبهم على الأساليب الأخرى مثل PPO و ReAct و WorldCoder، خاصةً في إعدادات البيانات المنخفضة. يُظهر PoE-World قدرة عالية على التعميم من خلال نمذجة ديناميكيات اللعبة بدقة، حتى في البيئات المعدلة بدون عروض توضيحية جديدة. كما أنه الأسلوب الوحيد الذي يحقق درجات إيجابية باستمرار في لعبة Montezuma’s Revenge. تسارع سياسات ما قبل التدريب في بيئة PoE-World المحاكاة عملية التعلم في العالم الحقيقي. على عكس نماذج WorldCoder المحدودة وأحيانًا غير الدقيقة، ينتج PoE-World تمثيلات أكثر تفصيلاً ووعيًا بالقيود، مما يؤدي إلى تخطيط أفضل وسلوك أكثر واقعية داخل اللعبة.

الخلاصة: برامج رمزية معيارية للتخطيط القابل للتطوير في مجال الذكاء الاصطناعي

في الختام، يُعد فهم آليات عمل العالم أمرًا بالغ الأهمية لبناء وكلاء ذكاء اصطناعي متكيفين؛ ومع ذلك، تتطلب نماذج التعلم العميق التقليدية مجموعات بيانات كبيرة وتكافح للتحديث بمرونة مع مدخلات محدودة. مستوحاة من كيفية إعادة البشر والأنظمة الرمزية دمج المعرفة، تقترح الدراسة نموذج PoE-World. تستخدم هذه الطريقة نماذج اللغات الكبيرة لتوليف “خبراء” برمجيّين معياريين يمثلون أجزاء مختلفة من العالم. تتحد هذه الخبراء بشكل تراكمي لتشكيل نموذج عالم رمزي قابل للتفسير يدعم التعميم القوي من بيانات ضئيلة. عند اختبار هذا النهج على ألعاب أتاري مثل Pong و Montezuma’s Revenge، أظهر كفاءة في التخطيط والأداء، حتى في السيناريوهات غير المألوفة. الشيفرة البرمجية والعروض التوضيحية متاحة للعامة. يمكنكم الاطلاع على الورقة البحثية، وصفحة المشروع، وصفحة GitHub. جميع الحقوق لهذه الدراسة تخص الباحثين الذين قاموا بهذا المشروع. كما يُرجى متابعتنا على تويتر، والانضمام إلى مجتمعنا المكون من أكثر من 100 ألف مشترك في ريديت، والاشتراك في قائمتنا البريدية.

المصدر: MarkTechPost