مكتبة HtFLlib: معيار موحد لتقييم أساليب التعلم الاتحادي غير المتجانسة عبر الوسائط المختلفة
تواجه مؤسسات الذكاء الاصطناعي تحديًا كبيرًا يتمثل في ندرة البيانات أثناء تدريب النماذج غير المتجانسة المصممة لمهام محددة. يُعرف التعلم الاتحادي التقليدي (FL) بأنه يدعم فقط تعاون النماذج المتجانسة، والتي تتطلب بنى متطابقة عبر جميع العملاء. ولكن في الواقع، يطور العملاء بنى نماذجهم لتلبية احتياجاتهم الفريدة. علاوة على ذلك، فإن مشاركة النماذج المُدرّبة محليًا والتي تتطلب جهدًا كبيرًا تنطوي على مخاطر تتعلق بالملكية الفكرية، مما يقلل من اهتمام المشاركين بالمشاركة في عمليات التعاون. ويعالج التعلم الاتحادي غير المتجانس (HtFL) هذه القيود، لكن الأدبيات تفتقر إلى معيار موحد لتقييم HtFL عبر مختلف المجالات والخصائص.
خلفية وفئات أساليب HtFL
تركز معايير FL الحالية على عدم تجانس البيانات باستخدام نماذج عملاء متجانسة، لكنها تتجاهل السيناريوهات الواقعية التي تنطوي على عدم تجانس النماذج. تندرج أساليب HtFL التمثيلية ضمن ثلاث فئات رئيسية تعالج هذه القيود:
-
أساليب المشاركة الجزئية للمعلمات: مثل LG-FedAvg، وFedGen، وFedGH، تحافظ هذه الأساليب على مُستخرجات الميزات غير المتجانسة مع افتراض وجود رؤوس تصنيف متجانسة لنقل المعرفة.
-
التقطير المتبادل: مثل FML، وFedKD، وFedMRL، تُدرّب هذه الأساليب نماذج مساعدة صغيرة وتشاركها من خلال تقنيات التقطير.
-
أساليب مشاركة النماذج الأولية: تنقل هذه الأساليب نماذج أولية خفيفة الوزن لكل فئة كمعرفة عالمية، حيث يتم جمع النماذج الأولية المحلية من العملاء، ويتم جمعها على الخوادم لتوجيه التدريب المحلي.
ومع ذلك، لا يزال من غير الواضح ما إذا كانت أساليب HtFL الحالية تعمل بشكل ثابت عبر سيناريوهات متنوعة.
مقدمة مكتبة HtFLlib: معيار موحد
اقترح باحثون من جامعة جياو تونغ في شنغهاي، وجامعة بي هانغ، وجامعة تشونغتشينغ، وجامعة تونغجي، وجامعة هونغ كونغ للبوليتكنيك، وجامعة الملكة في بلفاست، أول مكتبة للتعلم الاتحادي غير المتجانس (HtFLlib)، وهي طريقة سهلة وقابلة للتوسيع لدمج مجموعات بيانات متعددة وسيناريوهات عدم تجانس النماذج. تُدمج هذه الطريقة:
- 12 مجموعة بيانات عبر مجالات ووسائط وسيناريوهات عدم تجانس بيانات متنوعة.
- 40 بنية نموذج تتراوح من الصغيرة إلى الكبيرة، عبر ثلاث وسائط.
- قاعدة بيانات HtFL مُنظمّة وسهلة التوسيع مع تطبيقات لـ 10 أساليب HtFL تمثيلية.
- تقييمات منهجية تشمل الدقة، والتقارب، وتكاليف الحوسبة، وتكاليف الاتصال.
مجموعات البيانات والوسائط في HtFLlib
تحتوي HtFLlib على سيناريوهات مفصلة لعدم تجانس البيانات مقسمة إلى ثلاثة إعدادات:
- الانحياز في التصنيف: مع إعدادات فرعية مرضية و Dirichlet.
- تحول الميزات.
- بيانات العالم الحقيقي.
وتُدمج 12 مجموعة بيانات، بما في ذلك Cifar10، وCifar100، وFlowers102، وTiny-ImageNet، وKVASIR، وCOVIDx، وDomainNet، وCamelyon17، وAG News، وShakespeare، وHAR، وPAMAP2. تختلف هذه المجموعات اختلافًا كبيرًا في المجال، وحجم البيانات، وأعداد الفئات، مما يدل على الطبيعة الشاملة والمتنوعة لـ HtFLlib. علاوة على ذلك، يركز الباحثون بشكل أساسي على بيانات الصور، خاصةً إعداد الانحياز في التصنيف، نظرًا لأن مهام الصور هي أكثر المهام شيوعًا عبر مختلف المجالات. تم تقييم أساليب HtFL عبر مهام الصور، والنص، وإشارات المستشعرات لتقييم نقاط القوة والضعف الخاصة بكل منها.
تحليل الأداء: وسائط الصور
بالنسبة لبيانات الصور، تُظهر معظم أساليب HtFL انخفاضًا في الدقة مع زيادة عدم تجانس النماذج. يُظهر FedMRL قوة فائقة من خلال دمج النماذج العالمية والمحلية المساعدة. عند إدخال مصنفات غير متجانسة تجعل أساليب المشاركة الجزئية للمعلمات غير قابلة للتطبيق، يحافظ FedTGP على تفوقه عبر إعدادات متنوعة نظرًا لقدرته على تحسين النماذج الأولية بشكل مُكيّف. تُظهر تجارب مجموعات البيانات الطبية مع نماذج مُدرّبة مسبقًا غير متجانسة ذات صندوق أسود أن HtFL يحسّن جودة النموذج مقارنةً بالنماذج المُدرّبة مسبقًا، ويحقق تحسينات أكبر من النماذج المساعدة، مثل FML.
بالنسبة لبيانات النص، تتضاءل مزايا FedMRL في إعدادات الانحياز في التصنيف في إعدادات العالم الحقيقي، بينما يُظهر FedProto وFedTGP أداءً ضعيفًا نسبيًا مقارنةً بمهام الصور.
الخلاصة
في الختام، قدّم الباحثون HtFLlib، وهو إطار عمل يعالج الفجوة الحرجة في معايير HtFL من خلال توفير معايير تقييم موحدة عبر مجالات وسيناريوهات متنوعة. يُوفر تصميم HtFLlib النمطي وهندسته القابلة للتوسيع معيارًا تفصيليًا لكل من البحث والتطبيقات العملية في HtFL. علاوة على ذلك، فإن قدرته على دعم النماذج غير المتجانسة في التعلم التعاوني يفتح الطريق لأبحاث مستقبلية في استخدام نماذج كبيرة مُدرّبة مسبقًا ومعقدة، وأنظمة الصندوق الأسود، وبنى متنوعة عبر مهام ووسائط مختلفة.
يمكنكم الاطلاع على الورقة البحثية وصفحة GitHub. جميع الحقوق لهذه الأبحاث تخص باحثي هذا المشروع. كما يُرجى متابعتنا على تويتر والانضمام إلى مجتمعنا على ريديت، والاشتراك في قائمتنا البريدية.
اترك تعليقاً