نماذج جوجل للذكاء الاصطناعي مفتوحة المصدر: ثورة في مجال الاستدلال الطبي متعدد الوسائط
في خطوة استراتيجية لتعزيز تطوير الذكاء الاصطناعي الطبي مفتوح المصدر، أعلنت جوجل ديب مايند وجوجل ريسيرش عن إطلاق نموذجين جديدين ضمن مظلة ” ميدجما”: “ميدجما 27B متعدد الوسائط”، وهو نموذج أساسي واسع النطاق للرؤية واللغة، و” ميدسيجليب”، وهو مُشفّر خفيف الوزن للصور الطبية والنصوص. يمثّل هذان النموذجان أبرز النماذج المفتوحة المصدر من حيث الكفاءة التي تم إصدارها حتى الآن ضمن إطار عمل “مؤسسات مطوري الذكاء الاصطناعي في مجال الصحة” (HAI-DEF).
بنية ميدجما
يعتمد نموذج ميدجما على بنية “جما 3” المحولة، موسّعاً قدراته لتشمل المجال الصحي من خلال دمج معالجة متعددة الوسائط وضبط محدد للمجال. صُممت عائلة ميدجما لمعالجة التحديات الأساسية في مجال الذكاء الاصطناعي السريري، وهي:
- تباين البيانات: معالجة البيانات الطبية المتنوعة من حيث المصدر والتنسيق.
- الإشراف المحدود على المهام المحددة: القدرة على التعلم من بيانات محدودة.
- الحاجة إلى نشر فعال في بيئات العالم الحقيقي: القدرة على العمل بكفاءة على أجهزة مختلفة.
ميدجما 27B متعدد الوسائط: توسيع نطاق الاستدلال متعدد الوسائط في الرعاية الصحية
يمثل نموذج ميدجما 27B متعدد الوسائط تطوراً هاماً عن سابقه الذي يعتمد على النصوص فقط. فهو يدمج بنية محسّنة للرؤية واللغة مُحسّنة للاستدلال الطبي المعقد، بما في ذلك فهم السجلات الصحية الإلكترونية على المدى الطويل واتخاذ القرارات المُسترشدة بالصور.
الخصائص الرئيسية:
- وسائط الإدخال: يقبل كل من الصور الطبية والنصوص في واجهة موحدة.
- البنية: يستخدم مُشفّر محول ذو 27 مليار معلمة مع تداخل تعسفي بين الصور والنصوص، مدعومًا بمُشفّر صور عالي الدقة (896×896).
- مُشفّر الرؤية: يعيد استخدام بنية SigLIP-400M المُضبوطة على أكثر من 33 مليون زوج من الصور الطبية والنصوص، بما في ذلك بيانات واسعة النطاق من الأشعة، والأنسجة المرضية، وطب العيون، وأمراض الجلد.
- الأداء: يحقق دقة 87.7% على MedQA (النسخة النصية فقط)، متفوقاً على جميع النماذج المفتوحة التي تقل عن 50 مليار معلمة. يُظهر قدرات قوية في البيئات الوكيلة مثل AgentClinic، ويتعامل مع اتخاذ القرارات متعددة الخطوات عبر تدفقات التشخيص المُحاكاة. يُوفر استدلالاً شاملاً عبر تاريخ المريض، والصور السريرية، والجوانب الجينية – وهو أمر بالغ الأهمية للتخطيط للعلاج الشخصي.
حالات الاستخدام السريرية:
- الإجابة على الأسئلة متعددة الوسائط (VQA-RAD، SLAKE)
- إنشاء تقارير الأشعة (MIMIC-CXR)
- الاسترجاع عبر الوسائط (بحث النص إلى الصورة، و بحث الصورة إلى النص)
- الوكلاء السريريّون المُحاكون (AgentClinic-MIMIC-IV)
تشير التقييمات الأولية إلى أن ميدجما 27B متعدد الوسائط يُنافس النماذج الكبيرة المغلقة مثل GPT-4o و Gemini 2.5 Pro في المهام المحددة للمجال، مع كونه مفتوح المصدر بالكامل وأكثر كفاءة من حيث الحوسبة.
ميدسيجليب: مُشفّر خفيف الوزن للصور والنصوص مُضبوط للمجال
ميدسيجليب هو مُشفّر رؤية ولغة مُكيّف من SigLIP-400M ومُحسّن خصيصاً لتطبيقات الرعاية الصحية. وعلى الرغم من صغر حجمه، إلا أنه يلعب دوراً أساسياً في تمكين قدرات الرؤية في كل من ميدجما 4B و 27B متعدد الوسائط.
القدرات الأساسية:
- خفيف الوزن: مع 400 مليون معلمة فقط ودقة مُنخفضة (448×448)، يدعم النشر على الأجهزة الطرفية والاستدلال المتنقل.
- جاهز للتصنيف بدون ضبط دقيق والتحقيق الخطي: يُظهر أداءً تنافسياً في مهام التصنيف الطبي دون ضبط دقيق محدد للمهمة.
- التعميم عبر المجالات: يتفوق على نماذج الصور فقط المخصصة في أمراض الجلد، وطب العيون، والأنسجة المرضية، والأشعة.
معايير التقييم:
- أشعة الصدر (CXR14، CheXpert): يتفوق على نموذج أساس أشعة الصدر القائم على HAI-DEF ELIXR بنسبة 2% في AUC.
- أمراض الجلد (US-Derm MCQA): يحقق 0.881 AUC مع التحقيق الخطي على 79 حالة جلدية.
- طب العيون (EyePACS): يُقدم 0.857 AUC في تصنيف اعتلال الشبكية السكري ذو 5 فئات.
- الأنسجة المرضية: يُطابق أو يتجاوز أحدث ما توصل إليه العلم في تصنيف أنواع السرطان الفرعية (مثل سرطان القولون، والبروستاتا، والثدي).
يستخدم النموذج متوسط تشابه جيب التمام بين تضمينات الصور والنصوص للتصنيف والاسترجاع بدون ضبط دقيق. بالإضافة إلى ذلك، يسمح الإعداد للتحقيق الخطي (الانحدار اللوجستي) بالضبط الدقيق بكفاءة باستخدام بيانات مُسمّاة قليلة.
النشر وتكامل النظام البيئي
كلا النموذجين مفتوحا المصدر بنسبة 100%، مع توفر الأوزان، وأكواد التدريب، والدروس التعليمية عبر مستودع ميدجما. وهما متوافقان تماماً مع بنية جما ويمكن دمجهما في خطوط أنابيب مُعززة بالأدوات أو وكلاء قائمين على نماذج اللغات الكبيرة باستخدام أقل من 10 أسطر من كود بايثون. ويدعم الكميّة وتقطير النماذج نشرها على الأجهزة المحمولة دون فقدان كبير في الأداء. ومن المهم الإشارة إلى أن جميع النماذج المذكورة أعلاه يمكن نشرها على وحدة معالجة رسوميات واحدة، وتظل النماذج الأكبر حجمًا مثل النسخة 27B في متناول المختبرات والمؤسسات الأكاديمية ذات ميزانيات الحوسبة المتوسطة.
الخاتمة
يُشير إصدار ميدجما 27B متعدد الوسائط وميدسيجليب إلى استراتيجية ناضجة مفتوحة المصدر لتطوير الذكاء الاصطناعي الصحي. تُظهر هذه النماذج أنه مع التكيّف المناسب للمجال والعمارة الفعالة، لا يحتاج الذكاء الاصطناعي الطبي عالي الأداء إلى أن يكون ملكية خاصة أو مكلفاً بشكل مفرط. من خلال الجمع بين الاستدلال القوي خارج الصندوق وقابلية التكيّف المعيارية، تُخفض هذه النماذج حاجز الدخول لبناء تطبيقات ذات مستوى سريري – من أنظمة الفرز والوكلاء التشخيصيين إلى أدوات الاسترجاع متعددة الوسائط.
[الورقة البحثية](رابط الورقة البحثية) | [التفاصيل التقنية](رابط التفاصيل التقنية) | [جيثب- ميدجما](رابط جيثب ميدجما)
جميع الحقوق محفوظة للباحثين في هذا المشروع. تابعونا على [تويتر](رابط تويتر) و [يوتيوب](رابط يوتيوب) وانضموا إلى مجتمعنا على [ريديت](رابط ريديت) واشتركوا في [نشرتنا الإخبارية](رابط النشرة الإخبارية).






اترك تعليقاً