تحيز البيانات في نماذج الذكاء الاصطناعي: تحديات وتوصيات

مقدمة

يشهد العالم تزايداً ملحوظاً في استخدام نماذج الذكاء الاصطناعي في مختلف المجالات، خاصة في الطب، حيث تساهم في تشخيص الأمراض ووضع خطط العلاج المناسبة. لكن، غالباً ما تغفل العديد من الدورات التدريبية المتعلقة بتطبيقات الذكاء الاصطناعي عن عنصرٍ بالغ الأهمية: تدريب الطلاب على كشف العيوب في بيانات التدريب المستخدمة لتطوير هذه النماذج. يُسلط هذا المقال الضوء على أبحاث الدكتور ليو أنتوني سيلي، الباحث الأول في معهد ماساتشوستس للتكنولوجيا (MIT)، والذي يُبرز فيه أوجه القصور هذه ويُقترح حلولاً لتطوير المناهج الدراسية في هذا المجال.

مصادر التحيز في بيانات الذكاء الاصطناعي

يُشير الدكتور سيلي إلى أن أي مشكلة في البيانات تُؤثر بشكل مباشر على دقة النماذج المُبنية عليها. ويُوضح ذلك من خلال أمثلة عملية، مثل:

  • أجهزة القياس غير المُعتمدة على تنوع عينات البيانات: يُلاحظ أن بعض الأجهزة الطبية، مثل مقاييس الأكسجين في الدم (أجهزة قياس نسبة التشبع بالأكسجين)، تُظهر نتائج غير دقيقة عند تطبيقها على أفراد من أعراق مختلفة، وذلك لعدم شمول التجارب السريرية لهذه الأجهزة على عدد كافٍ من المشاركين من مختلف الأعراق.

  • السجلات الصحية الإلكترونية: يُعتبر استخدام السجلات الصحية الإلكترونية كمصدر بيانات للذكاء الاصطناعي أمراً مُعقداً، وذلك لأن هذه السجلات لم تُصمم خصيصاً لتكون أنظمة تعلّم. لذلك، يجب توخي الحذر الشديد عند استخدامها، مع ضرورة تطوير حلول بديلة أكثر فعالية في المستقبل.

  • مقترح حلول مبتكرة: يُقترح الدكتور سيلي تطوير نماذج تحويلية لمعالجة البيانات الرقمية من السجلات الصحية الإلكترونية، بما في ذلك نتائج الفحوصات المخبرية والعلامات الحيوية والعلاجات. يُمكن أن يُخفف هذا النهج من تأثير البيانات المفقودة نتيجة للعوامل الاجتماعية والتحيزات الضمنية لدى مقدمي الرعاية الصحية.

أهمية تغطية مصادر التحيز المحتملة في مناهج الذكاء الاصطناعي

أظهر تحليل الدكتور سيلي لمحتوى العديد من الدورات التدريبية في مجال الذكاء الاصطناعي أن أغلبها يركز على بناء النماذج دون التركيز الكافي على جودة بيانات التدريب. فقد وجد أن من بين 11 دورة تم مراجعتها، خمس دورات فقط تضمنت أقساماً عن التحيز في البيانات، ودورتان فقط احتوتا على مناقشة مُفصلة لهذا الموضوع. ويُشدد الدكتور سيلي على ضرورة زيادة الاهتمام بتدريس المهارات اللازمة لتقييم البيانات قبل استخدامها في بناء النماذج، خاصةً مع تزايد شعبية الذكاء الاصطناعي.

المحتوى الذي يجب أن تتضمنه مناهج الذكاء الاصطناعي

يُقترح الدكتور سيلي تضمين المحتوى التالي في مناهج الذكاء الاصطناعي:

  • قائمة مرجعية أساسية: يجب أن تتضمن هذه القائمة أسئلة أساسية حول مصدر البيانات، والجهة التي قامت بجمعها، وخصائص المشاركين في الدراسة، وغيرها من المعلومات المهمة لفهم سياق البيانات.

  • فهم السياق: يجب على الطلاب فهم السياق الذي تم فيه جمع البيانات، مثل فهم عملية اختيار المرضى الذين تم تضمينهم في قاعدة البيانات، والأجهزة المستخدمة في القياس، ودقة هذه الأجهزة.

  • التفكير النقدي: يُعد التفكير النقدي مهارة أساسية في هذا المجال، ويتم تعزيزها من خلال توفير بيئة تعليمية تُشجع التعاون بين الأفراد من مختلف الخلفيات والتخصصات. ويُعتبر تنظيم “مُسابقات البيانات” (datathons) أداة فعالة لتحقيق ذلك.

  • التركيز على البيانات المحلية: يُشجع الدكتور سيلي على استخدام بيانات محلية ذات صلة بالسياق، حتى وإن كانت هذه البيانات غير مثالية، وذلك لضمان دقة النماذج وتطبيقها على السكان المحليين.

  • قبول عدم الكمال: يُشدد الدكتور سيلي على أهمية قبول حقيقة أن البيانات قد لا تكون مثالية في البداية، وأن عملية تحسين جودة البيانات هي عملية تطورية تتطلب وقتاً وجهداً.

الخاتمة

يُبرز بحث الدكتور سيلي أهمية التركيز على جودة بيانات التدريب في مناهج الذكاء الاصطناعي، ويُقدم توصيات عملية لتحسين هذه المناهج، بما في ذلك التركيز على التفكير النقدي، واستخدام البيانات المحلية، وقبول حقيقة أن البيانات قد لا تكون مثالية في البداية. يُؤكد البحث على ضرورة تعزيز الوعي بأهمية هذه القضية لتجنب مخاطر استخدام نماذج ذكاء اصطناعي مُضللة أو مُحيزة.

المصدر: MIT News