تعظيم الاتساق الداخلي (ICM): إطار تدريب غير خاضع للإشراف وخالٍ من التصنيف لنماذج اللغات الكبيرة

تعتمد أساليب ما بعد التدريب لنماذج اللغات الكبيرة (LLMs) على الإشراف البشري من خلال الأمثلة أو ملاحظات التفضيل لتحديد السلوكيات المرغوبة. ومع ذلك، يواجه هذا النهج قيودًا كبيرة مع ازدياد تعقيد المهام وسلوكيات النموذج. يصبح الإشراف البشري غير موثوق به في هذه السيناريوهات، حيث تتعلم نماذج اللغات الكبيرة محاكاة الأخطاء في الأمثلة أو استغلال العيوب المتأصلة في أنظمة الملاحظات. يكمن التحدي الأساسي في تدريب نماذج اللغات الكبيرة على المهام التي تتجاوز قدرة الإنسان على الموثوقية في الأمثلة أو التقييمات. وقد حددت الأبحاث الحديثة أوضاع فشل متنوعة، بما في ذلك استغلال مكافآت إشارات الإشراف المصممة من قبل الإنسان أو حتى البشر أنفسهم.

قيود الإشراف البشري في مرحلة ما بعد تدريب نماذج اللغات الكبيرة

استكشف الباحثون العديد من النهج للتوسع بما يتجاوز الإشراف البشري. تستخدم إحدى الطرق القياسية مكافآت قابلة للتحقق عالية الجودة، مثل مطابقة مخرجات النموذج مع حلول الواقع في المجالات الرياضية. على الرغم من وجود أدلة على أن نماذج القاعدة المدربة مسبقًا تمتلك قدرات كامنة قوية للمهام اللاحقة، مع إضافة تحسينات طفيفة بعد التدريب، إلا أن الاستخراج الفعال لا يزال يمثل تحديًا. تُعد طريقة البحث المتسق مع التباين (CCS) نهجًا للاستخراج غير خاضع للإشراف يستخدم الاتساق المنطقي للعثور على المعرفة الكامنة بدون إشراف. ومع ذلك، فإن CCS لا يُحقق أداءً أفضل من النهج الخاضعة للإشراف، وغالبًا ما تفشل في تحديد المعرفة بسبب سمات بارزة أخرى تلبي خصائص الاتساق.

تقديم تعظيم الاتساق الداخلي (ICM)

اقترح باحثون من Anthropic، وSchmidt Sciences، وIndependent، وConstellation، وجامعة نيويورك، وجامعة جورج واشنطن طريقة تعظيم الاتساق الداخلي (ICM)، والتي تُحسّن نماذج مُدرّبة مسبقًا على أساس التصنيفات التي تُولّدها بنفسها دون استخدام أي تصنيفات مُقدّمة. يحل ICM هذه المشكلة من خلال البحث عن مجموعات تصنيفات متسقة منطقيًا وقابلة للتنبؤ المتبادل وفقًا للنموذج المُدرّب مسبقًا. نظرًا لأن تحديد مجموعة التصنيفات المثلى لا يزال غير ممكن حسابيًا، يستخدم ICM خوارزمية بحث مستوحاة من التلدين المُحاكى لتقريب الهدف الأقصى. علاوة على ذلك، تتطابق هذه الطريقة مع أداء التدريب على التصنيفات الذهبية على TruthfulQA و GSM8K، وتتفوق على التدريب على التصنيفات البشرية المُجمعة على Alpaca.

كيف تعمل خوارزمية ICM؟

تتبع خوارزمية ICM عملية مُتكررة من ثلاث خطوات:

  1. يقوم النظام باختيار مثال جديد غير مُصنّف من مجموعة البيانات لإدراجه محتملًا.
  2. يحدد التصنيف الأمثل لهذا المثال مع حل أي تعارضات منطقية في نفس الوقت.
  3. تقيم الخوارزمية ما إذا كان يجب قبول هذا المثال المُصنف الجديد بناءً على دالة التسجيل.

تم تقييم ICM عبر ثلاث مجموعات بيانات: TruthfulQA لتقييم الصدق، و GSM8K-verification للصحة الرياضية، و Alpaca للفائدة والسلامة. استخدم الباحثون أربعة معايير أساسية في تجاربهم: الصفرية، والصفرية (الدردشة)، والتصنيف الذهبي، والتصنيف البشري. علاوة على ذلك، استخدمت التجارب نموذجين مفتوحين الوزن، هما Llama 3.1 8B و 70B، ونموذجين مُلّكيين: Claude 3 Haiku و Claude 3.5 Haiku.

أداء المعايير ومقارنة النماذج

في مهام استخراج القدرات التي تتجاوز قدرات الإنسان، تتطابق دقة ICM مع الإشراف الذهبي عند 80%، متجاوزةً دقة الإنسان المُقدرة بنسبة 60%. باستخدام نماذج المكافآت المُولّدة بواسطة ICM، نجح الباحثون في تدريب روبوت محادثة مساعد بدون إشراف بشري. يحقق نموذج المكافآت غير الخاضع للإشراف دقة 75.0% على RewardBench، مقارنةً بـ 72.2% للبدائل الخاضعة للإشراف البشري المُدرّبة على بيانات الإنتاج. علاوة على ذلك، باستخدام كل من نموذج المكافآت غير الخاضع للإشراف والنموذج الخاضع للإشراف البشري، يتم تدريب سياستين باستخدام التعلم المعزز لإنشاء مساعدين مفيدين، وآمنين، وأمينين. تحقق السياسة المُدرّبة باستخدام نموذج المكافآت غير الخاضع للإشراف معدل فوز بنسبة 60%. ومع ذلك، لا تزال هذه السياسات متخلفة عن Claude 3.5 Haiku المُعلن عنه علنًا، والذي يحقق معدلات فوز بنسبة 92%.

الخاتمة والتوقعات المستقبلية

تُقدم هذه الورقة تعظيم الاتساق الداخلي (ICM)، وهو تقدم في نماذج اللغات غير الخاضعة للإشراف لتحسين نماذج مُدرّبة مسبقًا على أساس تصنيفات ذاتية التوليد. تتطابق الطريقة باستمرار مع أداء الإشراف الذهبي وتتجاوز الإشراف البشري المُجمع عبر مهام نمذجة المكافآت GSM8K-verification، و TruthfulQA، و Alpaca. ومع ذلك، تتضمن قيود ICM الاعتماد على بروز المفهوم داخل النماذج المُدرّبة مسبقًا وعدم فعاليتها مع المدخلات الطويلة نظرًا لقيود نافذة السياق. مع تقدم نماذج اللغات الكبيرة بما يتجاوز قدرات التقييم البشري، يوفر ICM بدائل واعدة لـ RLHF التقليدية، مما يضمن مواءمة النموذج مع نية الإنسان دون حدود الإشراف البشري.

المصدر: MarkTechPost