جيمّا 3n: الذكاء الاصطناعي متعدد الوسائط عالي الكفاءة على الأجهزة المحمولة
يشهد العالم تطوراً هائلاً في مجال الذكاء الاصطناعي، حيث يزداد الطلب على أنظمة أسرع وأذكى وأكثر خصوصية تعمل على الهواتف والأجهزة اللوحية والحواسيب المحمولة. يُمثل الجيل القادم من الذكاء الاصطناعي نقلة نوعية، فهو ليس مجرد أنظمة أخف وزناً وأسرع، بل هو ذكاء مدمج مباشرةً في أجهزتك. يُمكن هذا التكامل المطورين من تحقيق استجابة فورية تقريباً، وتقليل احتياجات الذاكرة بشكل كبير، وتعزيز خصوصية المستخدمين.
مع التقدم السريع في أجهزة الهواتف المحمولة، تتسارع المنافسة لبناء نماذج مدمجة وسريعة للغاية، تتمتع بذكاء كافٍ لإعادة تعريف التجارب الرقمية اليومية. إلا أن التحدي الرئيسي يكمن في توفير ذكاء اصطناعي متعدد الوسائط عالي الجودة ضمن بيئات الأجهزة المحمولة المحدودة. على عكس الأنظمة القائمة على السحابة التي تتمتع بقدرة حاسوبية هائلة، يجب أن تعمل نماذج الأجهزة المحمولة ضمن حدود صارمة من حيث ذاكرة الوصول العشوائي (RAM) وقوة المعالجة.
عادةً ما تتطلب أنظمة الذكاء الاصطناعي متعددة الوسائط، القادرة على تفسير النصوص والصور والصوت والفيديو، نماذج ضخمة لا تستطيع معظم الأجهزة المحمولة التعامل معها بكفاءة. كما أن الاعتماد على السحابة يُثير مخاوف تتعلق بالسرعة وخصوصية البيانات، مما يجعل من الضروري تصميم نماذج تعمل محلياً دون التضحية بالأداء.
محاولات سابقة وتحدياتها
حاولت نماذج سابقة مثل Gemma 3 و Gemma 3 QAT سد هذه الفجوة من خلال تقليل الحجم مع الحفاظ على الأداء. صُممت هذه النماذج للاستخدام على وحدات معالجة الرسوميات (GPUs) السحابية أو المكتبية، وقد حسّنت كفاءة النموذج بشكل كبير. ومع ذلك، لا تزال هذه النماذج تتطلب أجهزة قوية ولم تتمكن من التغلب تماماً على قيود الذاكرة والاستجابة في المنصات المحمولة. وعلى الرغم من دعمها لوظائف متقدمة، إلا أنها غالباً ما تنطوي على حلول وسط تحد من قابليتها للاستخدام في الوقت الفعلي على الهواتف الذكية.
جيمّا 3n: الحل الأمثل للذكاء الاصطناعي المحمول
قدّم باحثون من جوجل و جوجل ديب مايند نموذج Gemma 3n، الذي صُممت بنيته المعمارية خصيصاً للنشر على الأجهزة المحمولة أولاً، مع التركيز على الأداء عبر منصات Android و Chrome. كما يشكل هذا النموذج الأساس للنسخة القادمة من Gemini Nano. يمثل هذا الابتكار قفزة نوعية كبيرة، حيث يدعم وظائف الذكاء الاصطناعي متعدد الوسائط مع بصمة ذاكرة أقل بكثير مع الحفاظ على قدرات الاستجابة في الوقت الفعلي. وهو أول نموذج مفتوح مبني على هذه البنية التحتية المشتركة، وهو متاح للمطورين في مرحلة المعاينة، مما يسمح بالتجريب الفوري.
الابتكارات الرئيسية في جيمّا 3n
يكمن الابتكار الرئيسي في Gemma 3n في تطبيق “Per-Layer Embeddings” (PLE)، وهي طريقة تقلل بشكل كبير من استخدام ذاكرة الوصول العشوائي (RAM). في حين أن أحجام النماذج الخام تتضمن 5 مليارات و 8 مليارات من المعلمات، إلا أنها تعمل ببصمة ذاكرة تعادل نماذج 2 مليار و 4 مليارات معلمة. يبلغ استهلاك الذاكرة الديناميكي 2 جيجابايت فقط للنموذج 5B و 3 جيجابايت للنسخة 8B.
كما يستخدم تكوين نموذج متداخل، حيث يتضمن نموذج بصمة ذاكرة نشطة 4B نموذجاً فرعياً 2B مُدرّبًا من خلال تقنية تُعرف باسم MatFormer. يسمح هذا للمطورين بالتبديل ديناميكيًا بين أوضاع الأداء دون تحميل نماذج منفصلة.
تشمل التطورات الإضافية مشاركة KVC وكمية التنشيط، مما يقلل من وقت الوصول ويزيد من سرعة الاستجابة. على سبيل المثال، تحسّن وقت الاستجابة على الهاتف المحمول بنسبة 1.5 مرة مقارنةً بـ Gemma 3 4B مع الحفاظ على جودة مخرجات أفضل.
الأداء والقدرات
تؤكد مقاييس الأداء التي حققها Gemma 3n ملاءمته للنشر على الأجهزة المحمولة. يتفوق في التعرف على الكلام والترجمة الآلية، مما يسمح بالتحويل السلس للكلام إلى نص مترجم. على معايير متعددة اللغات مثل WMT24++ (ChrF)، يحصل على درجة 50.1٪، مما يبرز قوته في اللغات اليابانية والألمانية والكورية والإسبانية والفرنسية.
تتيح إمكانية “mix’n’match” إنشاء نماذج فرعية مُحسّنة لمجموعة متنوعة من مجموعات الجودة ووقت الوصول، مما يوفر للمطورين المزيد من التخصيص. تدعم البنية المعمارية المدخلات المتداخلة من وسائط مختلفة، مثل النص والصوت والصور والفيديو، مما يسمح بتفاعلات أكثر طبيعية وغنية بالسياق. كما يعمل دون اتصال بالإنترنت، مما يضمن الخصوصية والموثوقية حتى بدون اتصال بالشبكة.
استخدامات جيمّا 3n
تشمل حالات الاستخدام:
- ردود فعل بصرية وسمعية مباشرة.
- إنشاء محتوى مُدرك للسياق.
- تطبيقات صوتية متقدمة.
نقاط رئيسية حول جيمّا 3n
- تم تطويره بالتعاون بين جوجل، ديب مايند، كوالكوم، ميديا تك، وسامسونج سيستم إل إس آي.
- صُمّم للنشر على الأجهزة المحمولة أولاً.
- حجم النموذج الخام 5B و 8B من المعلمات، مع بصمات تشغيلية 2GB و 3GB على التوالي، باستخدام Per-Layer Embeddings (PLE).
- أسرع بنسبة 1.5 مرة على الأجهزة المحمولة مقارنةً بـ Gemma 3 4B.
- درجة 50.1٪ في معيار متعدد اللغات WMT24++ (ChrF).
- يقبل ويفهم الصوت والنص والصورة والفيديو، مما يُمكّن من المعالجة متعددة الوسائط المعقدة والمدخلات المتداخلة.
- يدعم التبادلات الديناميكية باستخدام تدريب MatFormer مع نماذج فرعية متداخلة وإمكانيات mix’n’match.
- يعمل دون اتصال بالإنترنت، مما يضمن الخصوصية والموثوقية.
- المعاينة متاحة عبر Google AI Studio و Google AI Edge، مع إمكانيات معالجة النصوص والصور.
الخاتمة
يُوفر هذا الابتكار مساراً واضحاً لجعل الذكاء الاصطناعي عالي الأداء محمولاً وخاصاً. من خلال معالجة قيود ذاكرة الوصول العشوائي من خلال بنية معمارية مبتكرة، وتعزيز القدرات متعددة اللغات ومتعددة الوسائط، يقدم الباحثون حلاً قابلاً للتطبيق لإحضار الذكاء الاصطناعي المتطور مباشرةً إلى الأجهزة اليومية. يُمثل التبديل المرن للنماذج الفرعية، والاستعداد للعمل دون اتصال، وسرعة وقت الاستجابة، نهجاً شاملاً للذكاء الاصطناعي المُصمم للأجهزة المحمولة أولاً. يُعالج البحث التوازن بين الكفاءة الحسابية، وخصوصية المستخدم، والاستجابة الديناميكية. والنتيجة هي نظام قادر على تقديم تجارب ذكاء اصطناعي في الوقت الفعلي دون التضحية بالقدرة أو التنوع، مما يُوسّع بشكل أساسي ما يمكن للمستخدمين توقعه من الذكاء المدمج في أجهزتهم.
اترك تعليقاً