مكافحة تقلبات الشخصية في نماذج اللغات الكبيرة: تقنية متجهات الشخصية من أنثروبيك
تُستخدم نماذج اللغات الكبيرة (LLMs) عبر واجهات محادثة تُقدم شخصيات مساعدة مفيدة، وغير ضارة، وصادقة. ومع ذلك، فإن هذه النماذج لا تتمكن من الحفاظ على سمات شخصية ثابتة طوال مراحل التدريب والتشغيل. إذ تُظهر نماذج اللغات الكبيرة تحولات شخصية دراماتيكية وغير متوقعة عند تعرضها لاستراتيجيات توجيه مختلفة أو مدخلات سياقية متنوعة. كما يمكن أن تتسبب عملية التدريب نفسها في حدوث تحولات شخصية غير مقصودة، كما هو الحال عندما تؤدي التعديلات على تعزيز التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) إلى خلق سلوكيات مُداهنة مفرطة في نماذج مثل GPT-4، مما يؤدي إلى التحقق من المحتوى الضار وتعزيز المشاعر السلبية. يُبرز هذا نقاط ضعف في ممارسات نشر نماذج اللغات الكبيرة الحالية ويؤكد الحاجة الملحة إلى أدوات موثوقة للكشف عن التحولات الضارة للشخصية ومنعها.
الأساليب السابقة ومحدوديتها
تستخرج بعض الأعمال البحثية ذات الصلة، مثل تقنيات الاستقراء الخطي، اتجاهات قابلة للتفسير لسلوكيات مثل التعرف على الكيانات، والمداهنة، وأنماط الرفض، وذلك من خلال إنشاء أزواج عينات متناقضة وحساب اختلافات التنشيط. ومع ذلك، فإن هذه الأساليب تعاني من تعميم غير متوقع أثناء عملية الضبط الدقيق، حيث يمكن أن يتسبب التدريب على أمثلة محدودة المجال في حدوث اختلال أوسع نطاقًا من خلال تحولات ناشئة على طول اتجاهات خطية ذات معنى. كما تُظهر طرق التنبؤ والتحكم الحالية، بما في ذلك التحليل القائم على التدرج لتحديد عينات التدريب الضارة، وتقنيات استبعاد المُشفر التلقائي المتفرّع، وإزالة الميزة الاتجاهية أثناء التدريب، فعالية محدودة في منع التغيرات السلوكية غير المرغوب فيها.
متجهات الشخصية: حل أنثروبيك
يقدم فريق من الباحثين من أنثروبيك، وجامعة تكساس في أوستن، وكونستليشن، وتريوثفول إيه آي، وجامعة كاليفورنيا في بيركلي، نهجًا لمعالجة عدم استقرار الشخصية في نماذج اللغات الكبيرة من خلال استخدام “متجهات الشخصية” في مساحة التنشيط. تستخرج هذه الطريقة الاتجاهات التي تتوافق مع سمات شخصية محددة مثل السلوك الخبيث، والمداهنة، وميل الهلوسة، وذلك باستخدام خط أنابيب آلي لا يتطلب سوى أوصافًا بلغة طبيعية للسمات المستهدفة. علاوة على ذلك، تُظهر هذه الطريقة أن التحولات الشخصية المُقصودة وغير المُقصودة بعد الضبط الدقيق تترابط بقوة مع الحركات على طول متجهات الشخصية، مما يوفر فرصًا للتدخل من خلال طرق التصحيح اللاحق أو طرق التوجيه الوقائي. كما يُظهر الباحثون أنه يمكن التنبؤ بالتحولات الشخصية المُستحثة بالضبط الدقيق قبل عملية الضبط الدقيق، مما يُحدد بيانات التدريب المُشكلة على مستوى مجموعة البيانات والعينة الفردية على حد سواء.
مراقبة التحولات الشخصية أثناء الضبط الدقيق
لإجراء مراقبة التحولات الشخصية أثناء الضبط الدقيق، تم إنشاء مجموعتي بيانات:
- مجموعة بيانات استخراج السمات: تحتوي على أمثلة صريحة للاستجابات الخبيثة، والسلوكيات المُداهنة، والمعلومات المُختلقة.
- مجموعة بيانات “الاختلال الناشئ الشبيه”: تحتوي على مشكلات محددة المجال، مثل النصائح الطبية غير الصحيحة، والحجج السياسية الخاطئة، والمسائل الرياضية غير الصالحة، والرموز الضعيفة.
يستخرج الباحثون متوسط الحالات الخفية للكشف عن التحولات السلوكية أثناء الضبط الدقيق بوساطة متجهات الشخصية عند وسم المطالبة الأخير عبر مجموعات التقييم، وحساب الفرق لتوفير متجهات تحول التنشيط. ثم يتم تعيين متجهات التحول هذه على اتجاهات الشخصية المُستخرجة سابقًا لقياس التغييرات المُستحثة بالضبط الدقيق على طول أبعاد السمات المحددة. تُظهر مقاييس فرق الإسقاط على مستوى مجموعة البيانات ارتباطًا قويًا بتعبير السمات بعد الضبط الدقيق، مما يسمح بالكشف المبكر عن مجموعات بيانات التدريب التي قد تُثير خصائص شخصية غير مرغوب فيها. وهذا يُثبت فعاليته أكثر من طرق الإسقاط الخام في التنبؤ بتحولات السمات، حيث إنه يأخذ في الاعتبار أنماط الاستجابة الطبيعية للنموذج الأساسي لمطالبات محددة. يحقق الكشف على مستوى العينة فصلًا عاليًا بين العينات المُشكلة وعينات التحكم عبر مجموعات بيانات استخراج السمات (Evil II، Sycophantic II، Hallucination II) ومجموعات بيانات “الاختلال الناشئ الشبيه” (Opinion Mistake II). تحدد اتجاهات الشخصية عينات تدريب فردية تُحدث تحولات شخصية بدقة عالية، متفوقة على طرق تصفية البيانات التقليدية وتوفير تغطية واسعة عبر محتوى استخراج السمات والأخطاء الخاصة بالمجال.
النتائج والتوجهات المستقبلية
في الختام، قدم الباحثون خط أنابيب آليًا يستخرج متجهات الشخصية من أوصاف السمات بلغة طبيعية، مما يوفر أدوات لمراقبة والتحكم في تحولات الشخصية عبر مراحل النشر والتدريب والتدريب المسبق في نماذج اللغات الكبيرة. تشمل اتجاهات البحث المستقبلية تحديد أبعاد مساحة الشخصية الكاملة، وتحديد قواعد الشخصية الطبيعية، واستكشاف الارتباطات بين متجهات الشخصية وأنماط التعبير المشترك للسمات، والتحقيق في حدود الأساليب الخطية لبعض سمات الشخصية. تُنشئ هذه الدراسة فهمًا أساسيًا لديناميكيات الشخصية في النماذج، وتقدم أُطرًا عملية لإنشاء أنظمة نماذج لغة أكثر موثوقية وقابلية للتحكم.
روابط إضافية:
- [الورقة البحثية](رابط الورقة البحثية)
- [المدونة التقنية](رابط المدونة التقنية)
- [صفحة جيثب](رابط صفحة جيثب)






اترك تعليقاً