مجموعة بيانات SUM: الحد من هلوسات نماذج اللغات الكبيرة عبر التعزيز

يُعَدّ التعزيز من خلال ضبط النموذج (Reinforcement Fine-tuning) أداة فعّالة لتعليم نماذج اللغات الكبيرة (LLMs) إنتاج استجابات منطقية ومنظمة. فهو يُعزّز الاستجابات الصحيحة، مما يحسّن قدرة النموذج على توليد نتائج دقيقة. إلا أن تحديًا رئيسيًا يبرز: كيفية ضمان امتناع النموذج عن الإجابة عند مواجهة أسئلة غير كاملة أو مضللة أو تفتقر إلى إجابة محددة.

مشكلة “ضريبة الهلوسة”: عندما تُجيب النماذج بما لا تعرفه

تُظهر العديد من الدراسات أن نماذج اللغات الكبيرة، بعد عملية ضبط النموذج بالتعزيز، قد تفقد قدرتها على رفض الإجابة عن الاستفسارات الغامضة أو غير الواضحة. بدلاً من التعبير عن عدم اليقين، تميل هذه النماذج إلى تقديم إجابات واثقة ولكن خاطئة. يُشير الباحثون إلى هذه الظاهرة باسم “ضريبة الهلوسة”، وهي تُمثّل خطرًا متزايدًا. فمع تحسين أداء النماذج، يزداد احتمال “هلوسة” إجابات في المواقف التي يكون فيها الصمت هو الخيار الأنسب، خاصة في المجالات التي تتطلب درجة عالية من الموثوقية والدقة.

قصور التقنيات الحالية في معالجة مشكلة الهلوسة

تتجاهل أدوات تدريب نماذج اللغات الكبيرة الحالية غالبًا أهمية سلوك الرفض. فإطارات ضبط النموذج بالتعزيز تميل إلى مكافأة الإجابات الصحيحة فقط، بينما تُعاقب الإجابات الخاطئة، متجاهلة الحالات التي يكون فيها الرد المناسب هو عدم تقديم إجابة على الإطلاق. وبالتالي، لا تُعزّز أنظمة المكافآت سلوك الرفض بشكل كافٍ، مما يؤدي إلى نماذج واثقة من نفسها بشكل مفرط. وقد أظهرت الدراسات أن معدلات الرفض انخفضت إلى ما يقارب الصفر عبر العديد من النماذج بعد ضبط النموذج بالتعزيز التقليدي، مما يدل على فشل التدريب الحالي في معالجة مشكلة الهلوسة بشكل صحيح.

مجموعة بيانات SUM: حل مبتكر للحد من الهلوسات

للتغلب على هذا التحدي، قام باحثون من جامعة جنوب كاليفورنيا بتطوير مجموعة بيانات SUM (Synthetic Unanswerable Math)، وهي مجموعة بيانات اصطناعية تتضمن مسائل رياضية غير قابلة للحل بشكل ضمني. تم تعديل الأسئلة الموجودة في مجموعة بيانات DeepScaleR باستخدام نموذج o3-mini لتوليد أسئلة عالية الجودة غير قابلة للإجابة، وذلك من خلال إضافة معايير مثل نقص المعلومات الرئيسية أو خلق تناقضات منطقية.

آلية عمل مجموعة بيانات SUM:

  • خلط الأسئلة القابلة للحل وغير القابلة للحل: يتم دمج الأسئلة القابلة للحل مع الأسئلة المعدّلة (غير القابلة للحل) أثناء التدريب.
  • تعديل الأسئلة: يتم تعديل الأسئلة لتصبح غامضة أو غير قابلة للحل مع الحفاظ على مصداقيتها الظاهرية.
  • تعليمات واضحة للنموذج: تُوجّه التعليمات أثناء التدريب النماذج إلى القول “أنا لا أعرف” في حالة المدخلات غير القابلة للإجابة.

نتائج استخدام مجموعة بيانات SUM:

أظهرت إضافة 10% فقط من بيانات SUM إلى عملية ضبط النموذج بالتعزيز تحسينات ملحوظة في قدرة النماذج على تقييم عدم اليقين، مما أدى إلى زيادة معدلات الرفض بشكل كبير دون التأثير سلبًا على أدائها في حل المسائل القابلة للحل. على سبيل المثال:

  • نموذج Qwen2.5-7B: ارتفعت نسبة الرفض من 0.01 إلى 0.73 على مقياس SUM ومن 0.01 إلى 0.81 على مقياس UMWP.
  • نموذج Llama-3.1-8B-Instruct: أظهر نمطًا مماثلًا، حيث تحسّنت معدلات الرفض من 0.00 إلى 0.75 على SUM ومن 0.01 إلى 0.79 على UMWP.

الخلاصة: نحو نماذج لغات أكثر موثوقية

تُبرز هذه الدراسة التوازن بين تحسين قدرات الاستدلال والموثوقية. فبينما يُعَدّ ضبط النموذج بالتعزيز أداة قوية، إلا أنه قد يُثبط السلوك الحذر. تساهم مجموعة بيانات SUM في تصحيح هذا الأمر من خلال تعليم النماذج تحديد حدود معرفتها. وبإضافة صغيرة نسبياً إلى بيانات التدريب، أصبحت نماذج اللغات أكثر كفاءة في تحديد ما تستطيع وما لا تستطيع حله، مما يُمثّل خطوة مهمة نحو أنظمة ذكاء اصطناعي ليست فقط أكثر ذكاءً، بل وأكثر دقة وأماناً.

يمكنكم الاطلاع على الورقة البحثية ومجموعة البيانات على Hugging Face.

المصدر: MarkTechPost