نماذج اللغات الضخمة: انحيازات خفية في توصيات العلاج الطبي
تأثير المعلومات غير السريرية على دقة نماذج اللغات الضخمة في التوصيات الطبية
أظهرت دراسة أجراها باحثون في معهد ماساتشوستس للتكنولوجيا (MIT) أن نماذج اللغات الضخمة (LLMs) المستخدمة في تقديم توصيات العلاج الطبي قد تتأثر بشكل كبير بمعلومات غير سريرية موجودة في رسائل المرضى. وتشمل هذه المعلومات الأخطاء الإملائية، والمسافات الزائدة، وغياب علامات الجنس، بالإضافة إلى استخدام لغة غير رسمية أو غامضة أو مبالغ فيها.
تغيرات طفيفة تؤدي إلى نتائج كبيرة
وجد الباحثون أن إجراء تغييرات أسلوبية أو نحوية بسيطة في رسائل المرضى يزيد من احتمالية توصية النموذج بأن يدير المريض حالته الصحية بنفسه بدلاً من مراجعة الطبيب، حتى في الحالات التي تستدعي الرعاية الطبية الفورية.
وكشفت التحليلات أن هذه الاختلافات غير السريرية في النصوص، التي تعكس أسلوب التواصل الحقيقي للناس، تؤثر بشكل أكبر على توصيات النموذج المتعلقة بالمرضى من الإناث، مما يؤدي إلى نسبة أعلى من النساء اللواتي نُصحن خطأً بعدم طلب الرعاية الطبية، وفقاً لأطباء متخصصين.
ضرورة التدقيق والتحقق من دقة النماذج
كما تقول الدكتورة مرزية غاسيمي، أستاذة مشاركة في قسم الهندسة الكهربائية وعلوم الحاسوب في MIT، وعضو معهد علوم الهندسة الطبية ومختبر أنظمة المعلومات والقرارات، والمؤلفة الرئيسية للدراسة: “هذه الدراسة تُعد دليلاً قوياً على ضرورة تدقيق النماذج قبل استخدامها في الرعاية الصحية، خاصةً وأنها تُستخدم بالفعل في هذا المجال.”
وتشير هذه النتائج إلى أن نماذج اللغات الضخمة تأخذ المعلومات غير السريرية بعين الاعتبار في عملية صنع القرارات السريرية بطرق لم تكن معروفة من قبل. ويبرز هذا الحاجة إلى إجراء دراسات أكثر دقة لهذه النماذج قبل نشرها في تطبيقات عالية المخاطر مثل تقديم توصيات العلاج.
اختلافات كبيرة في أداء النماذج
يضيف أبينيثا غوراباتينا، طالب دراسات عليا في قسم الهندسة الكهربائية وعلوم الحاسوب في MIT والمؤلف الرئيسي للدراسة: “غالباً ما يتم تدريب هذه النماذج واختبارها على أسئلة الفحص الطبي، ولكنها تُستخدم بعد ذلك في مهام بعيدة كل البعد عن ذلك، مثل تقييم خطورة الحالة السريرية. لا يزال هناك الكثير مما لا نعرفه عن نماذج اللغات الضخمة.”
المنهجية البحثية
لتقييم هذه المشكلة، قام الباحثون بتصميم دراسة قاموا فيها بتعديل بيانات الإدخال للنموذج من خلال تبديل أو إزالة علامات الجنس، وإضافة لغة غامضة أو غير رسمية، أو إدراج مسافات زائدة وأخطاء إملائية في رسائل المرضى.
تم تصميم كل تعديل ليشابه النص الذي قد يكتبه شخص من فئة سكانية ضعيفة، بناءً على أبحاث نفسية واجتماعية حول كيفية تواصل الناس مع الأطباء. على سبيل المثال، تُحاكي المسافات الزائدة والأخطاء الإملائية كتابة المرضى الذين لديهم إجادة محدودة للغة أو أولئك الذين لديهم معرفة تقنية أقل، بينما تُمثل إضافة لغة غامضة المرضى الذين يعانون من قلق صحي.
النتائج
استخدم الباحثون نموذج لغة ضخم لإنشاء نسخ معدلة من آلاف ملاحظات المرضى، مع ضمان أن تكون التغييرات النصية ضئيلة وأن تحافظ على جميع البيانات السريرية، مثل الأدوية والتشخيصات السابقة. ثم قاموا بتقييم أربعة نماذج لغات ضخمة، بما في ذلك النموذج التجاري الكبير GPT-4 ونموذج أصغر تم تصميمه خصيصاً للبيئات الطبية.
قاموا بطرح ثلاثة أسئلة على كل نموذج بناءً على ملاحظة المريض: هل يجب على المريض أن يدير حالته في المنزل، هل يجب على المريض الحضور إلى عيادة، وهل يجب تخصيص مورد طبي للمريض، مثل فحص مخبري؟
قارن الباحثون توصيات نماذج اللغات الضخمة بالاستجابات السريرية الحقيقية. لاحظوا عدم الاتساق في توصيات العلاج وعدم اتفاق كبير بين نماذج اللغات الضخمة عند إدخال البيانات المعدلة. بشكل عام، أظهرت نماذج اللغات الضخمة زيادة بنسبة 7 إلى 9 في المائة في اقتراحات الإدارة الذاتية لجميع أنواع رسائل المرضى المعدلة التسعة.
هذا يعني أن نماذج اللغات الضخمة كانت أكثر عرضة لتوصية المرضى بعدم طلب الرعاية الطبية عندما احتوت الرسائل على أخطاء إملائية أو ضمائر محايدة جنسياً، على سبيل المثال. كان لاستخدام اللغة الملونة، مثل العامية أو التعبيرات المبالغ فيها، أكبر تأثير.
التأثير على النساء
وجدوا أيضاً أن النماذج ارتكبت حوالي 7٪ من الأخطاء الإضافية للمريضات، وكانت أكثر عرضة لتوصية المريضات بالإدارة الذاتية في المنزل، حتى عندما قام الباحثون بإزالة جميع علامات الجنس من السياق السريري.
الاختلاف بين نماذج اللغات الضخمة والأطباء
في أعمال لاحقة، وجد الباحثون أن هذه التغييرات نفسها في رسائل المرضى لا تؤثر على دقة الأطباء. كما تقول غاسيمي: “في عملنا اللاحق قيد المراجعة، وجدنا كذلك أن نماذج اللغات الضخمة هشة للتغييرات التي لا تؤثر على الأطباء. ربما هذا ليس مفاجئاً – لم يتم تصميم نماذج اللغات الضخمة لإعطاء الأولوية للرعاية الطبية للمريض. إن نماذج اللغات الضخمة مرنة وعالية الأداء في المتوسط، لدرجة أننا قد نعتقد أن هذا استخدام جيد. لكننا لا نريد تحسين نظام رعاية صحية لا يعمل بشكل جيد إلا لمرضى من مجموعات محددة.”
اتجاهات البحث المستقبلية
يريد الباحثون توسيع نطاق هذا العمل من خلال تصميم اضطرابات لغوية طبيعية تستوعب الفئات السكانية الضعيفة الأخرى وتُحاكي الرسائل الحقيقية بشكل أفضل. يريدون أيضاً استكشاف كيفية استنتاج نماذج اللغات الضخمة للجنس من النصوص السريرية.
اترك تعليقاً