بناء سير عمل شامل لعلوم البيانات باستخدام التعلم الآلي، وقابلية التفسير، ومساعد الذكاء الاصطناعي Gemini

في هذا البرنامج التعليمي، سنستعرض سير عمل متقدمًا وشاملًا لعلوم البيانات يجمع بين تقنيات التعلم الآلي التقليدية وقوة Gemini. سنبدأ بإعداد نموذج بيانات مرض السكري، ثم نتعمق في تقييم النموذج، وأهمية الميزات، والاعتماد الجزئي. على طول الطريق، سنستخدم Gemini كمساعد بيانات ذكي للذكاء الاصطناعي لشرح النتائج، والإجابة على الأسئلة الاستكشافية، وتسليط الضوء على المخاطر. من خلال القيام بذلك، سنبني نموذجًا تنبؤيًا مع تعزيز رؤيتنا وصنع القرار من خلال التفاعل باللغة الطبيعية. يمكنك الاطلاع على الشفرة الكاملة هنا.

1. إعداد البيانات وإنشاء النموذج

سنبدأ بتحميل مجموعة بيانات مرض السكري، ومعالجة الميزات، وبناء خط أنابيب قوي باستخدام التحجيم، وتحويل الكميات، وتعزيز التدرج. نقسم البيانات، ونُجري التحقق المتبادل لتقدير RMSE، ثم نُناسب النموذج النهائي لنرى مدى جودة تعميمه. يمكنك الاطلاع على الشفرة الكاملة هنا.

  • تحميل البيانات: نستخدم مجموعة بيانات مرض السكري المتاحة مسبقًا.
  • معالجة الميزات: نطبق تحجيم البيانات باستخدام StandardScaler وتحويل الكميات باستخدام QuantileTransformer.
  • إنشاء النموذج: نستخدم نموذج HistGradientBoostingRegressor للتنبؤ.
  • التحقق المتبادل: نستخدم KFold للتحقق المتبادل وتقدير RMSE.

2. تقييم النموذج وتحليل أهمية الميزات

نقيم نموذجنا بحساب مقاييس التدريب، والاختبار، والتحقق المتبادل، ونرسم البواقي للتحقق من أخطاء التنبؤ. ثم نحسب أهمية الإزاحة لتحديد الميزات التي تدفع النموذج أكثر، ونعرض أهم المساهمين باستخدام رسم بياني واضح. يمكنك الاطلاع على الشفرة الكاملة هنا.

  • مقاييس التقييم: RMSE، MAE، R².
  • تحليل البواقي: لتحديد نمط الأخطاء.
  • أهمية الإزاحة: لتحديد أهمية كل ميزة في النموذج.
  • رسم بياني لأهمية الميزات: لتصور أهمية الميزات العشرة الأولى.

3. الاعتماد الجزئي وتحليل الحساسية

نحسب الاعتماد الجزئي اليدوي لأهم ثلاث ميزات ونرسم كيف يؤثر تغيير كل منها في التنبؤات. ثم نجمع تقرير JSON مختصرًا لإحصائيات البيانات، والمقاييس، والأهمية، ونسأل Gemini عن ملخص تنفيذي يتضمن المخاطر، والتجارب القادمة، وأفكار هندسة الميزات سريعة الفوز. يمكنك الاطلاع على الشفرة الكاملة هنا.

  • الاعتماد الجزئي: لفهم تأثير كل ميزة على المتغير التابع.
  • تقرير JSON: لتجميع النتائج الرئيسية.
  • ملخص تنفيذي من Gemini: للحصول على رؤى إضافية من مساعد الذكاء الاصطناعي.

4. تحليل استكشافي للبيانات باستخدام Gemini

نبني بيئة آمنة لتنفيذ شفرة Pandas التي ينشئها Gemini للتحليل الاستكشافي للبيانات. ثم نطرح أسئلة بلغة طبيعية حول الارتباطات وعلاقات الميزات، ونترك Gemini يكتب أجزاء Pandas، وننفذها تلقائيًا للحصول على إجابات مباشرة من مجموعة البيانات. يمكنك الاطلاع على الشفرة الكاملة هنا.

  • الأسئلة: أسئلة حول الارتباطات بين الميزات والمتغير التابع.
  • شفرة Pandas: شفرة تم إنشاؤها بواسطة Gemini للإجابة على الأسئلة.
  • الإجابات: الإجابات المباشرة من مجموعة البيانات.

5. مراجعة المخاطر وتحليل “ماذا لو”

نطلب من Gemini مراجعة نموذجنا بحثًا عن مخاطر مثل التسريب، والإفراط في الملاءمة، والإنصاف، والحصول على عمليات تحقق سريعة من Python كاقتراحات. ثم نقوم بتشغيل تحليلات “ماذا لو” بسيطة لنرى كيف تؤثر التغييرات الصغيرة في الميزات الرئيسية على التنبؤات، مما يساعدنا على تفسير سلوك النموذج بشكل أوضح. يمكنك الاطلاع على الشفرة الكاملة هنا.

  • مراجعة المخاطر: لتحديد نقاط الضعف المحتملة في النموذج.
  • تحليل “ماذا لو”: لفهم تأثير تغييرات الميزات على التنبؤات.

في الختام: نرى كيف يمكننا بسهولة دمج خطوط أنابيب التعلم الآلي مع استنتاج Gemini لجعل علوم البيانات أكثر تفاعلية وشمولية. نقوم بتدريب وتقييم وتفسير نموذج، ثم نطلب من Gemini تلخيص النتائج، واقتراح التحسينات، وانتقاد المخاطر. من خلال هذه الرحلة، نقيم سير عمل يسمح لنا بتحقيق كل من الأداء التنبؤي وقابلية التفسير، مع الاستفادة أيضًا من وجود مساعد ذكاء اصطناعي في عملية تحليل البيانات لدينا. يمكنك الاطلاع على الشفرة الكاملة هنا. لا تتردد في زيارة صفحتنا على GitHub للحصول على المزيد من البرامج التعليمية، والشيفرات، ودفاتر الملاحظات. كما يمكنك متابعتنا على Twitter، والانضمام إلى مجتمعنا على Reddit، والاشتراك في نشرتنا الإخبارية.

المصدر: MarkTechPost