نماذج اللغات الكبيرة ونقص الدقة في التوصيات الطبية: دراسة جديدة من معهد ماساتشوستس للتكنولوجيا
تأثير المعلومات غير السريرية على توصيات نماذج اللغات الكبيرة
أظهرت دراسة حديثة أجراها باحثون في معهد ماساتشوستس للتكنولوجيا (MIT) أن نماذج اللغات الكبيرة (LLMs) المستخدمة في تقديم توصيات طبية قد تتأثر بشكل كبير بمعلومات غير سريرية موجودة في رسائل المرضى، مثل الأخطاء الإملائية، والمسافات الزائدة، وغياب علامات الجنس، أو استخدام لغة غير رسمية أو غامضة أو مبالغ فيها.
وقد وجد الباحثون أن إجراء تغييرات أسلوبية أو نحوية في الرسائل يزيد من احتمالية توصية نموذج اللغات الكبيرة بأن يدير المريض حالته الصحية بنفسه بدلاً من الذهاب إلى موعد طبي، حتى عندما يكون من الضروري طلب الرعاية الطبية.
التحيز ضد الإناث وتأثير المتغيرات النصية غير السريرية
كشفت التحليلات أن هذه المتغيرات النصية غير السريرية، التي تحاكي طريقة تواصل الأشخاص في الواقع، من المرجح أن تغير توصيات النموذج العلاجية للمريضات، مما يؤدي إلى ارتفاع نسبة النساء اللواتي نُصحن خطأً بعدم طلب الرعاية الطبية، وفقًا لأطباء متخصصين.
كما أشارت البروفيسورة مَرزية غَسَمي، أستاذة مشاركة في قسم الهندسة الكهربائية وعلوم الحاسوب في معهد ماساتشوستس للتكنولوجيا، وعضو معهد علوم الهندسة الطبية ومختبر أنظمة المعلومات والقرارات، والمؤلفة الرئيسية للدراسة، إلى أن هذه النتائج “دليل قوي على ضرورة تدقيق النماذج قبل استخدامها في الرعاية الصحية، وهو مجال تُستخدم فيه بالفعل”.
قصور نماذج اللغات الكبيرة في التطبيقات عالية المخاطر
أوضحت الدراسة أن نماذج اللغات الكبيرة تأخذ المعلومات غير السريرية في الاعتبار في عملية صنع القرار السريري بطرق لم تكن معروفة من قبل. وهذا يبرز الحاجة إلى إجراء دراسات أكثر دقة لهذه النماذج قبل نشرها في تطبيقات عالية المخاطر مثل تقديم توصيات علاجية.
كما أضافت أبينيثا غوراباثينا، طالبة دراسات عليا في قسم الهندسة الكهربائية وعلوم الحاسوب والمؤلفة الرئيسية للدراسة: “غالبًا ما يتم تدريب هذه النماذج واختبارها على أسئلة الامتحانات الطبية، ولكنها تُستخدم بعد ذلك في مهام بعيدة كل البعد عن ذلك، مثل تقييم خطورة حالة سريرية. لا يزال هناك الكثير مما لا نعرفه عن نماذج اللغات الكبيرة”.
منهجية الدراسة وتصميم التجارب
لتقييم هذه المشكلة، صمم الباحثون دراسة قاموا فيها بتعديل بيانات الإدخال للنموذج عن طريق تبديل أو إزالة علامات الجنس، وإضافة لغة غامضة أو غير رسمية، أو إدراج مسافات إضافية وأخطاء إملائية في رسائل المرضى.
وقد تم تصميم كل اضطراب لمحاكاة النص الذي قد يكتبه شخص من فئة سكانية معرضة للخطر، بناءً على أبحاث نفسية واجتماعية حول كيفية تواصل الأشخاص مع الأطباء.
على سبيل المثال، تحاكي المسافات الإضافية والأخطاء الإملائية كتابة المرضى الذين لديهم إجادة محدودة للغة الإنجليزية أو أولئك الذين لديهم قدرة تقنية أقل، بينما تمثل إضافة لغة غير مؤكدة مرضى يعانون من قلق صحي.
النتائج: تباين في التوصيات وتأثير الجنس
استخدم الباحثون نموذجًا للغة الكبيرة لإنشاء نسخ معدلة من آلاف ملاحظات المرضى مع ضمان أن تكون التغييرات النصية ضئيلة وأن تحافظ على جميع البيانات السريرية، مثل الأدوية والتشخيص السابق. ثم قاموا بتقييم أربعة نماذج للغة الكبيرة، بما في ذلك نموذج GPT-4 التجاري الكبير ونموذج أصغر تم إنشاؤه خصيصًا للإعدادات الطبية.
وقد لاحظ الباحثون عدم اتساق في توصيات العلاج وعدم اتفاق كبير بين نماذج اللغات الكبيرة عند تغذيتها ببيانات معدلة. بشكل عام، أظهرت نماذج اللغات الكبيرة زيادة بنسبة 7 إلى 9 في المائة في اقتراحات الإدارة الذاتية لجميع الأنواع التسعة من رسائل المرضى المعدلة.
هذا يعني أن نماذج اللغات الكبيرة كانت أكثر عرضة للتوصية بأن لا يلتمس المرضى الرعاية الطبية عندما تحتوي الرسائل على أخطاء إملائية أو ضمائر محايدة للجنس، على سبيل المثال. وكان لاستخدام لغة زاهية، مثل العامية أو التعبيرات المبالغ فيها، أكبر تأثير.
كما وجدوا أن النماذج ارتكبت حوالي 7 في المائة من الأخطاء الإضافية للمريضات، وكانت أكثر عرضة للتوصية بأن تدير المريضات حالتهن في المنزل، حتى عندما قام الباحثون بإزالة جميع علامات الجنس من السياق السريري.
الاستنتاجات والتوصيات المستقبلية
أظهرت الدراسة أن عدم الاتساق الناجم عن اللغة غير السريرية يصبح أكثر وضوحًا في السياقات الحوارية حيث يتفاعل نموذج اللغة الكبيرة مع المريض، وهو استخدام شائع للروبوتات الدردشة الموجهة للمرضى. لكن في عمل لاحق، وجد الباحثون أن نفس التغييرات في رسائل المرضى لا تؤثر على دقة الأطباء.
يرغب الباحثون في توسيع نطاق هذا العمل من خلال تصميم اضطرابات لغة طبيعية تلتقط الفئات السكانية الأخرى المعرضة للخطر وتحاكي الرسائل الحقيقية بشكل أفضل. كما يرغبون في استكشاف كيفية استنتاج نماذج اللغات الكبيرة للجنس من النصوص السريرية.
اترك تعليقاً