نموذج لغة كبير ثاني من جوجل (LSM-2) و تقنية الإخفاء التكيفي والموروث (AIM): تمكين التعلم المباشر من بيانات الأجهزة القابلة للارتداء غير الكاملة
تُحدث الأجهزة القابلة للارتداء ثورة في مجال مراقبة الصحة من خلال تمكين جمع مستمر للإشارات الفسيولوجية والسلوكية، مثل معدل ضربات القلب، والنشاط، ودرجة الحرارة، وموصلية الجلد. ومع ذلك، فإن البيانات الواقعية التي تولدها هذه الأجهزة عرضة بشدة للبيانات المفقودة بسبب أعطال المستشعرات، أو إزالة الجهاز، أو الشحن، أو التشويش الحركي، أو أوضاع توفير الطاقة، وغيرها من الانقطاعات. يمثل هذا تحديًا كبيرًا للتعلم الذاتي الخاضع للإشراف (SSL) ونماذج الأساس، التي تتوقع عادةً تدفقات بيانات كاملة ومنتظمة. اعتمدت الحلول السابقة غالبًا على استيفاء البيانات أو تجاهل الحالات غير الكاملة، مما يُخاطر بإدخال تحيز أو إهدار معلومات قيّمة.
تحدي البيانات المفقودة في الأجهزة القابلة للارتداء
يُعدّ فقدان البيانات مشكلة شائعة في البيانات التي تجمعها الأجهزة القابلة للارتداء، حيث تتسبب العديد من العوامل في حدوث فجوات في البيانات، منها:
-
تجزئة البيانات: في مجموعة بيانات ضخمة تضم 1.6 مليون عينة يومية (1440 دقيقة) من بيانات الأجهزة القابلة للارتداء، لم تكن أي عينة كاملة تمامًا؛ ففقدان البيانات أمر شائع وغالبًا ما يكون مُرتبًا في فجوات طويلة، وليس انقطاعات عشوائية بسيطة.
-
أنماط فقدان البيانات: تتضمن الأسباب الشائعة:
- إيقاف تشغيل الجهاز (الشحن أو عدم ارتدائه).
- تعطيل المستشعر الانتقائي (توفير الطاقة أو عمليات محددة).
- التشويش الحركي أو الضوضاء البيئية.
- القراءات خارج النطاق أو المستحيلة فسيولوجيًا التي تم تصفيتها أثناء المعالجة الأولية.
-
تأثير فقدان البيانات على النمذجة: تتطلب العديد من الأنماط الفسيولوجية ذات الصلة سريريًا (مثل الإيقاعات اليومية، وتقلب معدل ضربات القلب) تحليل تسلسلات طويلة – حيث يكون فقدان البيانات مضمونًا تقريبًا.
تقنية الإخفاء التكيفي والموروث (AIM)
تُقدم جوجل DeepMind إطار عمل LSM-2 (نموذج المستشعر الكبير 2) مصحوبًا باستراتيجية الإخفاء التكيفي والموروث (AIM) الجديدة، والتي تعالج هذه المشكلات مباشرةً، وتتعلم تمثيلات قوية من بيانات مستشعرات الأجهزة القابلة للارتداء غير الكاملة دون استيفاء صريح. تدمج AIM نوعين من الإخفاء للتعلم القوي:
- الإخفاء الموروث: يُشير إلى الرموز المقابلة للبيانات المفقودة بالفعل في بيانات المستشعر.
- الإخفاء الاصطناعي: يُخفي الرموز المرصودة عشوائيًا لتوفير أهداف إعادة بناء للتعلم المُسبق الخاضع للإشراف الذاتي.
يتم دمج هذين النوعين من الإخفاء ومعالجتهما بواسطة بنية ترميز- فك تشفير تعتمد على المُحوّل، مما يُمكّن النموذج من:
- التعلم مباشرةً من البيانات غير المُستوفاة وغير الكاملة.
- التكيف ديناميكيًا مع فقدان البيانات في العالم الحقيقي أثناء الاستدلال.
- إنتاج تمثيلات قوية لكل من الفجوات الجزئية والمنهجية في البيانات.
استراتيجيات الإخفاء للتعلم المُسبق
- الاستيفاء العشوائي: إسقاط 80٪ من الرموز لمحاكاة ضوضاء المستشعر.
- الشرائح الزمنية: إسقاط 50٪ من النوافذ الزمنية (جميع المستشعرات مفقودة خلال فترات عشوائية).
- شرائح المستشعر: إسقاط 50٪ من قنوات المستشعر على مدار اليوم بأكمله (نمذجة فترات إيقاف تشغيل المستشعر الانتقائية).
تجمع AIM بين كفاءة إخفاء الانقطاع (الإزالة من الحساب) ومرونة إخفاء الانتباه (الدعم لفقدان البيانات المتغير ديناميكيًا)، مما يسمح للنموذج بالتوسع إلى تسلسلات إدخال طويلة (يوم كامل، >3000 رمز).
مجموعة البيانات والتعلم المُسبق
- الحجم: 40 مليون ساعة من بيانات المستشعر متعددة الوسائط ليوم كامل، تم جمعها من 60440 مشاركًا بين مارس ومايو 2024.
- المستشعرات: قياس ضغط الدم الضوئي (PPG)، ومُسرّع، ونشاط كهربائي جلدي (EDA)، ودرجة حرارة الجلد، وقارن الارتفاع. ساهمت كل أداة بخصائص مجمعة دقيقة عبر نافذة 24 ساعة.
- التنوع الديموغرافي: مشاركون من مختلف الأعمار (18-96)، والجنسين، وفئات مؤشر كتلة الجسم.
- البيانات المُعلّمة اللاحقة: دراسة استقلابية (التنبؤ بارتفاع ضغط الدم والقلق؛ n=1250 مستخدمًا مُعلّمًا)، والتعرف على النشاط (20 فئة نشاط، 104086 حدثًا).
التقييم والنتائج
تم تقييم LSM-2 القائم على AIM في المهام التالية:
- التصنيف: ارتفاع ضغط الدم الثنائي، والقلق، والتعرف على النشاط ذي الـ 20 فئة.
- الانحدار: العمر ومؤشر كتلة الجسم.
- التوليد: استعادة بيانات المستشعر المفقودة (الاستيفاء العشوائي، الفجوات الزمنية/الإشارات).
النتائج الكمية
| المهمة | مقياس الأداء | أفضل LSM-1 | LSM-2 مع AIM | التحسين |
|---|---|---|---|---|
| ارتفاع ضغط الدم | F1 | 0.64 | 0.65 | +1.7% |
| التعرف على النشاط | F1 | 0.47 | 0.474 | +0.8% |
| مؤشر كتلة الجسم | الارتباط | 0.667 | 0.673 | +1.0% |
| الاستيفاء العشوائي (80%) | MSE (↓) | 0.30 | 0.20 | انخفاض الخطأ بنسبة +33% |
| استعادة إشارة ثنائية | MSE (↓) | 0.73 | 0.17 | انخفاض الخطأ بنسبة +77% |
أظهر LSM-2 مع AIM انخفاضًا في الأداء بنسبة 73٪ أقل (في المتوسط) مقارنةً بـ LSM-1 عند إزالة مستشعرات أو نوافذ زمنية محددة بشكل مصطنع.
رؤى تقنية
- التعامل المباشر مع فقدان البيانات في العالم الحقيقي: LSM-2 هو أول نموذج أساس للأجهزة القابلة للارتداء يتم تدريبه وتقييمه مباشرةً على البيانات غير الكاملة، دون استيفاء صريح.
- آلية الإخفاء الهجينة: يحقق الإخفاء التكيفي والموروث كلاً من الكفاءة الحسابية (عبر إزالة الانقطاع) والمرونة (عبر إخفاء الانتباه).
- الترميزات القابلة للتعميم: حتى مع وجود عمود فقري مُجمّد ومُسبارات خطية بسيطة، يحقق LSM-2 نتائج متطورة في كل من المهام السريرية/المستوى الشخصي ومستوى الحدث، متفوقًا على خطوط الأساس الخاضعة للإشراف والتعلم الذاتي الخاضع للإشراف المتناقض.
- القوة التوليدية والتمييزية: LSM-2 هو النموذج المُقَيم الوحيد القادر على كل من إعادة بناء الإشارات المفقودة وتوليد ترميزات قابلة للتطبيق عبر مهام متعددة لاحقة، مما يشير إلى فائدة التطبيقات الطبية والسلوكية في العالم الحقيقي.
الخلاصة
يُمثل LSM-2 مع الإخفاء التكيفي والموروث خطوة كبيرة إلى الأمام لنشر رؤى الصحة المُدارة بالذكاء الاصطناعي باستخدام بيانات مستشعرات الأجهزة القابلة للارتداء في العالم الحقيقي. من خلال تبني فقدان البيانات المُرتب والشائع مباشرةً، وتوحيد القدرات التوليدية والتمييزية تحت نموذج أساس واحد فعال وقوي، يضع هذا النهج أرضية أساسية لمستقبل الأجهزة القابلة للارتداء والذكاء الاصطناعي الصحي في بيئات البيانات الواقعية غير الكاملة.







اترك تعليقاً